最佳溫度範圍是數據中心高效運行的關鍵因素。然而,隨著全球進入極端高溫時期,停電風險越來越嚴重,而且這種風險還在不斷增加。
熱浪可能導致數據中心組件過熱和故障,導致運營商關閉伺服器以防止損壞,從而導致停機和潛在的停電。
例如在2022年7月,倫敦氣溫達到創紀錄的104華氏度(40攝氏度),導致冷卻系統出現故障,導致Google和Oracle數據中心下線。兩個月後,酷熱摧毀了Twitter位於薩克拉門托地區的數據中心。
Cockroach Labs首席技術官、聯合創始人Peter Mattis指出,敏感電子設備和硬體(如伺服器、存儲設備和網路設備)中的各個組件在既定的工作溫度下才能以最佳狀態運行。
數據中心的推薦溫度範圍可能低至65華氏度或高至95華氏度,在防止過熱和潛在設備損壞方面發揮著關鍵作用。
這個範圍是由特定硬體目標的工作溫度範圍和該硬體可以運行的條件決定的。
「隨著熱浪越來越多,這將是一個反覆出現的問題,而且問題會越來越嚴重——熱浪加上停電,數據中心就離線了,」他說。
Akamai企業可持續發展總監Mike Mattera解釋說,溫度波動始終是數據中心運營的一個考慮因素,而天氣的預期範圍並不是主要問題。
「我們已經解決了這個問題。相反,極端溫度,尤其是高溫,會給電網帶來巨大壓力,並可能增加當地生活用水系統的使用量,具體要取決於冷卻系統。」
當熱浪來襲時,電力和水的使用量會因為系統和冷卻技術類型的不同而增加,給當地市場帶來額外的壓力。
Mattera指出,在電力和水資源較為有限的地區,例如美國德克薩斯州和亞利桑那州,這成了一個特別突出的問題。
確保熱浪期間的連續性
Mattera解釋說,由於當今全球都出現了極端高溫,很多人都參與到確保數據中心能夠繼續運行的行動中。
確保熱浪期間連續性的關鍵利益相關者是現場設施管理人員,更廣泛地說,是設施團隊,包括電工、機械工程師以及供暖、通風和冷氣(HVAC)專業人員。
「這個團隊需要確保關鍵系統正常運行,並且在出現問題時現場有不間斷電源可用,」他說。
他警告說,輕微的功率下降可能會破壞泵、風扇和壓縮機等組件,從而影響系統冷卻和調節空氣。
此外,數據中心冷卻具有龐大的控制系統網路,需要穩定的電流來作業系統的各個組件,以確保調節後的空氣以最佳方式流入數據中心空間。
Sustainable and Scalable Infrastructure Alliance (SSIA)社區董事會成員Zachary Smith表示,數據中心運營商和支持這些設施的機械團隊會針對一系列自然災害和資源限制制定計劃。
他補充說,數據中心運營商隨後會與客戶密切合作,以遵循已經發布或經過商定的服務水平協議(SLA)。
「如果資源或自然災害需要關閉或限制某些服務,他們可能還會與客戶制定應急計劃,」他說。
從他的角度來看,過去幾年最大的重點是效率——儘可能有效地利用電力、冷卻和水資源,減少整個設施的浪費。
這一點已經實現了——通過提高數據中心溫度、改進監控解決方案和智能樓宇管理系統、以及電力分配和調節方面。
越來越多的數據中心運營商正在實施液體冷卻技術,以進一步提高設施的效率,同時在很多情況下,會在設施或IT設備層面轉向閉環「無水」冷卻設計。
「所有這些都有助於數據中心提高效率,能夠在日益嚴峻的條件下運行,」Smith說。
Komprise總裁兼首席運營官Krishna Subramanian表示,節能基礎設施和更有效的冷卻設計(如液體冷卻)是目前正在考慮的兩種技術。
「另一種有效但較少探索的高效數據中心電源管理策略是減少主動管理的數據量,」她說。
由於數據消耗了數據中心30%甚至更多的資源,並且80%的數據都是冷數據,因此高效的數據管理可以減少數據中心三分之一的負擔,甚至不需要對基礎設施進行任何大改。
「隨著熱浪頻率的上升,再加上高密度AI處理器的熱量輸出越來越大,問題在兩個方面越來越加劇,」Subramanian說。
AI增加了數據中心的熱量和功耗,使冷卻方面的挑戰變得更為複雜
AI讓挑戰變得越來越複雜 但同時也提供了解決方案
AI 的持續崛起將加劇挑戰,但許多挑戰也有助於解決保持數據中心在可接受的工作溫度下運行的問題。
AI耗電量大,更多的AI處理會增加數據中心的熱量輸出和功耗,從而加劇問題。
Smith表示:「一方面,具有更密集硬體配置的模型訓練和推理的AI工作負載需要大量計算能力和能源,為AI模型和應用供電的伺服器會產生大量必須消散和冷卻的熱量。」
在這方面有很多機架級創新成果已經顯現,用於提高冷卻和電源效率,其中包括從風冷數據中心轉向機架級液體和浸入式冷卻,以及從12V轉向48V以實現更高效的散熱。
Mattera表示,訓練這些模型時發生的複雜計算需要更多資源密集型硬體,從而導致模型整體功率增加以保證最佳運行。
「資源利用率和發電量的增加意味著數據中心內會產生更多熱量,這會給冷卻系統帶來壓力,」他解釋說。
此外,AI算法和模型的動態特性可能導致電力需求和熱量產生激增,而傳統的冷卻系統可能難以跟上。
「考慮到過去一年對集中式數據中心建設的巨額投資,以滿足對大型語言模型的旺盛需求,我預計電網的壓力將會進一步增加,」他說。
Smith指出,雖然AI工作負載的增加給保持數據中心處於最佳工作溫度帶來更多挑戰,但它也可以成為解決問題的一個良方,其中包括用AI來優化熱性能管理,例如對液體冷卻或氣流的需求,以及對冷卻系統的預測性維護。
「隨著熱浪的增加,AI還可以用於為實時天氣和長期環境模式系統提供動力,從而可以根據外部因素自動調整能源消耗和冷卻系統,」他說。