宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

對HPC與AI性能極限的突破,正給可持續發展帶來新的挑戰

2023年11月27日 首頁 » 熱門科技

對HPC與AI性能極限的突破,正給可持續發展帶來新的挑戰

隨著摩爾定律逐步放緩,打造更加強大的HPC及AI集群的唯一方式,似乎就只剩下構建更大、更耗電的基礎設施。

猶他大學教授Daniel Reed在最近于丹佛召開的SC23超級計算大會上解釋稱,「現在如果想要更強的性能,就必須購買更多硬體,即構建起更龐大的系統,自然也會帶來更大的電力消耗和更高的冷卻需求。」

如今,Top 500超算榜單中的各位超級計算集群選手功耗普遍超過20兆瓦,相當一部分數據中心園區(特別是針對AI訓練和推理需求而構建的數據中心園區)甚至更加誇張。有預測表明到2027年,頂尖超級電腦的運行功耗很可能將來到120兆瓦左右。

在關於高性能計算(HPC)與碳中和及可持續性小組會議上,來自芝加哥大學、施耐德電氣、洛斯阿拉莫斯國家實驗室、HPE以及芬蘭IT科學中心的專家們對這些趨勢進行了權衡,並就應如何規劃、部署、報告和運營這些設施給出了自己的見解。

提高能效很好,但不應以水資源為代價

此番討論的核心主題之一就是電力使用效率(PUE)。作為參考,行業標準是以計算、存儲或網路設備所使用的實際電量,與總利用率進行比較來衡量數據中心的運行效率。PUE越接近1.0,則代表該處設施的能效越高。

來自HPE的Nicolas Dubé解釋道,雖然PUE是優化數據中心運營功耗的有效工具,但也會導致超大規模企業及其他大型數據中心運營商養成很多壞習慣。

「不少超大規模企業——這裡我就不具體點名了——在亞利桑那州、新墨西哥州及其他非常乾旱的國家和地區建立起數據中心。在這些地方興建的數據中心在配合蒸發系統之後可以實現相當驚人的PUE成績。然而,這實際上是在用當地極為寶貴的水資源來換取那一丁點電耗優勢。我認為這純屬犯罪行為,甚至應該把這幫傢伙送進監獄。」

有些朋友可能不太熟悉,這裡所說的蒸發冷卻(也被稱為沼澤冷卻器)屬於能效最高的冷卻技術之一。這些系統在乾燥環境下的工作效果特別好,但也需要消耗巨量的水資源。

來自洛斯阿拉莫斯國家實驗室的Genna Waldvogel也指出,對於已經採用蒸發冷卻設計的設施,例如能源部下轄的該處實驗室設施,也有辦法可以緩解相應的環境影響。

「我們的數據中心幾乎100%依靠可再生水運轉。我們擁有一套非常先進的系統……能夠從廢水處理廠中提取污水,對其進行處理之後再泵送至超級電腦以實現冷卻。」

Reed教授也表示,蒸發冷卻需要消耗大量的水,因此設施運營商必須選擇系統的安裝位置。

位置與規劃非常重要

Dubé還強調了地理選址的重要意義。在他看來,通過將數據中心部署在綠色能源供應充足的位置,能夠在一定程度上減輕生成式AI對於環境的負面影響。

Dubé舉例指出,加拿大數據中心運營商QScale正在魁北克省開發一處運行功率100兆瓦的數據中心,該設施消耗的電力幾乎100%來自水力和風能等可再生能源。儘管推理等工作負載對於延遲非常敏感,需要與用戶群體保持較近的距離且不太可能輕易搬遷,但大規模訓練負載卻恰恰相反。他強調,「只要理解了這一點,就會意識到大規模訓練工作負載實際上應該被重新定位或者遷移到資源可持續性最好的區域之內。」

Dubé還提到,除了在可再生能源附近部署數據中心之外,還應當考慮如何利用這些設施產生的熱量,避免像過去那樣直接將其排放到大氣當中。

QScale公司就在嘗試將計算設施部署在鄰近農業溫室的位置,利用前者產生的肩墊在加拿大漫長的冬季為溫室供暖。

為了進一步做出解釋,Dubé還提出了一個非常有趣的問題:計算對GPT-3進行一輪訓練所產生的熱量,能夠種出多少個番茄。按照他的估計,這個數字將相當可觀。

假設一處占地500平米的溫室每年供暖需要消耗1000吉焦(1吉焦等於10億焦耳),而訓練GPT-3耗電為1287兆瓦,則可換算為4.6個溫室。Dubé按每年每平方米能夠產出75公斤番茄計算,並認為有85%的廢熱可用於溫室生產,那麼最終產量將為14.7677萬公斤、即略高於100萬個番茄。

都做成番茄醬,這可夠配不少薯條。

對熱量的再利用在HPC和AI領域已經不是什麼新鮮概念。歐洲最大的超級電腦LUMI系統就是典型案例,CSC科學IT中心的Esa Heiskanen就表示,「我們地處高緯度嚴寒之地,氣溫長期保持低位,幾乎全年可以使用乾式冷卻器運行。」而除自然冷卻之外,該設施還配備廢熱捕捉系統,能夠滿足卡亞尼市20%區域的供暖需求。

如果偶爾需要關閉系統,又當如何?

除了從技術方案和設施選址的角度考慮問題外,芝加哥大學CERES計算中心負責人Andrew Chien還打算採取更富動態的運營方式,藉此探索數據中心的可持續性空間。

其思路並不複雜:運營商不再永遠以恆定的容量來運行HPC集群或者數據中心,而會根據給定時間內電網上的可用電力或能源組合,靈活調整系統的容量利用率。

例如,在一天中的特定時段,風能或太陽能的輸出功率可能會更高,這就允許設施以更高的負載保持運行,同時又不致增加相應的碳排放。

Chien預計,如果將這些技術應用於日本RIKEN實驗室的「Fugaku Next」超算項目(預計將在2030年至2040年之間上線),則可將電力成本降低達90%,同時將碳排放(按當前運行方式計算)縮減40%。

他解釋道,「每個人都覺得電力是問題的核心,但我認為碳排放才是真正的重點。」在他看來,未來電網中涌動的大部分電力都將屬於可再生能源。

改善報告質量與一致性

可以想見,要想真正控制住規模日增的HPC與AI集群所產生的碳排放,對報告質量與一致性的改善也將是重要一環。施耐德電氣CTO辦公室的創新產品負責人Robert Bunger就此做出了具體闡述。

「在我看來,HPC社區應該努力保持領先地位。過去的成績已經證明該社區發掘技術潛力的聰明才智,但未來他們需要把可持續發展的報告和量化機制也納入考核體系。」

Bunger解釋稱,目前的問題之一,在於數據中心運營商往往很難在如何上報可持續指標方面達成一致。超大規模運營商普遍不願具體討論電力或水資源消耗等問題,這無疑會讓可持續發展成為一句空話。

為了解決這個問題,施耐德電氣提出了數據中心運營商應當跟蹤的28項指標,其中包括總耗電量、能源利用率(PUE)、可再生能源總消耗量、總耗水量、水資源利用率等常見內容。此外,清單還建議跟蹤其他一些關鍵指標,例如可再生能源指標、能源再利用率、服務利用率,甚至包括產生的噪聲和土地利用率等。

Bunger承認對於大部分計算基礎設施來說,對這28類數據進行全面追蹤確實是項艱巨的任務。但他還是建議各數據中心運營商可以先從最核心的6大指標入手,逐步擴大監控範圍、增強優化能力,從當下開始為全人類的未來做好打算。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新