根據蘿倫斯伯克利國家實驗室的數據,隨著人工智慧的爆發式增長,預計到2028年,數據中心的電力消耗將占美國總用電量的12%。提升數據中心的能源效率,是科學家們致力於推動AI可持續發展的重要方向之一。
為此,來自麻省理工學院(MIT)及MIT-IBM Watson AI實驗室的研究人員開發了一款快速預測工具。該工具能夠告知數據中心運營人員,在特定處理器或AI加速晶片上運行某一AI任務時將消耗多少電力。
與傳統建模方法相比,該方法能夠在數秒內生成可靠的功耗估算結果,而傳統方法往往需要數小時乃至數天才能得出結論。此外,該預測工具還可適用於多種硬體配置,甚至包括尚未正式部署的新興設計方案。
數據中心運營人員可以利用這些估算結果,在多個AI模型和處理器之間更合理地分配有限資源,從而提升整體能源利用效率。與此同時,該工具還能幫助算法開發者和模型提供商在部署新模型之前,提前評估其潛在能耗情況。
"AI可持續性問題是我們必須認真面對的緊迫課題。由於我們的估算方法快捷便利,且能提供直接的反饋,我們希望它能促使算法開發者和數據中心運營人員更主動地思考如何降低能耗。"MIT博士後、該研究論文第一作者Kyungmi Lee表示。
論文的共同作者還包括:電氣工程與電腦科學專業研究生Zhiye Song;IBM研究院及MIT-IBM Watson AI實驗室研究經理Eun Kyung Lee與Xin Zhang;IBM院士、IBM研究院可持續計算首席科學家、MIT-IBM Watson AI實驗室成員Tamar Eilam;以及論文通訊作者、MIT教務長、電氣工程與電腦科學Vannevar Bush講席教授、MIT-IBM Watson AI實驗室成員Anantha P. Chandrakasan。該研究成果已在IEEE系統與軟體性能分析國際研討會上正式發表。
加速能耗估算
在數據中心內部,數以千計的高性能圖形處理器(GPU)承擔著AI模型訓練與部署的各類運算任務。特定GPU的功耗會因其配置方式及所處理工作負載的不同而產生顯著差異。
許多傳統的能耗預測方法需要將工作負載拆解為若干獨立步驟,並逐步模擬GPU內部各模組的使用情況。然而,模型訓練和數據預處理等AI工作負載規模極為龐大,以這種方式進行仿真模擬往往需要數小時乃至數天。
"作為運營人員,如果我想比較不同算法或配置,以找到最節能的方案,而單次模擬就要耗費數天時間,那將極為不切實際。"Lee說道。
為了加快預測速度,MIT研究人員著力尋找可以更快獲取的粗粒度資訊。他們發現,AI工作負載中往往存在大量可重複的模式,可以利用這些模式生成快速且可靠的功耗估算所需的關鍵資訊。
在很多情況下,算法開發者會編寫程序,使其儘可能高效地在GPU上運行。例如,他們會採用結構化優化手段,將任務分配到並行處理核心,並以最高效的方式傳輸數據塊。
"軟體開發者所使用的這些優化手段形成了一種規律性結構,而這正是我們希望加以利用的。"Lee解釋道。
研究團隊由此開發出一個輕量級估算模型,命名為EnergAIzer,它能夠從上述優化模式中捕捉GPU的功耗特徵。
精準評估
儘管估算速度有所提升,研究人員卻發現這一方法尚未將所有能耗成本納入考量。例如,每次GPU運行程序時,都需要支付一筆用於程序初始化和配置的固定能耗;此外,每次GPU對一批數據執行操作時,還會產生額外的能耗開銷。
由於硬體波動或數據訪問與傳輸衝突,GPU有時無法充分利用全部可用頻寬,導致操作速度下降,進而在一段時間內消耗更多能量。
為將上述額外成本和波動因素納入模型,研究人員從真實GPU中收集了實測數據,並據此生成修正項,應用於估算模型之中。
"通過這種方式,我們能夠實現既快速又精準的估算。"她說。
最終,用戶只需輸入工作負載相關資訊,如所要運行的AI模型、用戶輸入的數量及長度,EnergAIzer便可在數秒內輸出能耗估算結果。用戶還可以調整GPU配置或運行速度,以觀察不同設計選擇對整體功耗的影響。
研究人員使用真實GPU上的AI工作負載數據對EnergAIzer進行測試後發現,其功耗估算誤差僅約為8%,與需要數小時才能得出結果的傳統方法相當。
該方法同樣適用於預測未來GPU及新興設備配置的功耗,前提是硬體在短期內不發生大幅變化。
展望未來,研究團隊計劃在最新GPU配置上對EnergAIzer進行進一步測試,並對模型進行擴展,使其能夠應用於多個GPU協同運行工作負載的場景。
"要真正對可持續發展產生影響,我們需要一款能夠跨越整個技術棧、為硬體設計者、數據中心運營人員和算法開發者提供快速能耗估算方案的工具,讓所有人都能更清晰地了解功耗狀況。這款工具正是我們朝著這一目標邁出的重要一步。"Lee表示。
本研究部分由MIT-IBM Watson AI實驗室提供資助。
Q&A
Q1:EnergAIzer是什麼?它能解決什麼問題?
A:EnergAIzer是由MIT和MIT-IBM Watson AI實驗室聯合開發的輕量級AI功耗估算模型。它能在數秒內預測特定AI工作負載在某款處理器或AI加速晶片上的能耗,而傳統方法通常需要數小時甚至數天。該工具可幫助數據中心運營人員優化資源分配,也可幫助算法開發者在部署新模型前評估其潛在能耗,從而推動AI的可持續發展。
Q2:EnergAIzer的預測準確率有多高?
A:研究人員使用真實GPU上的AI工作負載數據對EnergAIzer進行測試,結果顯示其功耗估算誤差僅約為8%。這一精度與需要數小時才能完成的傳統仿真方法相當,但EnergAIzer僅需數秒即可給出結果,大幅提升了預測效率,具備較強的實用價值。
Q3:EnergAIzer能用於預測尚未上市的新GPU嗎?
A:可以。EnergAIzer不僅適用於現有GPU,還能預測未來GPU及新興設備配置的功耗,前提是硬體在短期內不發生根本性變化。研究團隊未來還計劃將該模型擴展至多GPU協同運行的場景,進一步提升其在大規模數據中心中的適用性。






