
高性能 GPU 驅動的高密度數據中心正在通過釋放 AI 的能力改變世界運作方式。同時,它們也釋放出大量的熱量。在這些數據中心中,為耗電量巨大的 GPU 機架降溫的唯一方法就是使用液冷。但在部署液冷系統之前,可能需要首先解決 CFO 和董事會成員對這項技術的顧慮。
高密度數據中心所需的液冷系統比傳統數據中心使用的冷氣系統前期成本更高。同時也有人擔心用水量問題,最大的數據中心每天可能消耗數百萬加侖的水。對某些人來說,在努力數十年將液體排除在白空間之外後,現在反而要引入液體,這個想法似乎有悖常理且存在風險。
設施運營團隊可以通過制定液冷方案的商業案例來消除這些顧慮,闡明液冷的必要性,並結合設計最佳實踐的價值。
確立液冷的必要性
一些領導者認為,用於 AI 工作負載的高性能 GPU 機架可以直接部署在傳統數據中心基礎設施中。但當功率密度超過每機架 15-20 kW 時,傳統數據中心使用的冷氣系統就難以應付。相比之下,液體的導熱性是空氣的 15-25 倍。
簡而言之,要使高密度數據中心可靠運行,就需要同樣強大的液冷解決方案。這種解決方案可以採用閉環設計來最小化水損失,主要有三種設計方法:
直接晶片冷卻:在 IT 設備內部的散熱器或冷卻板上使用水來散熱。
後門熱交換器:在熱空氣進入白空間之前,通過線圈捕獲 IT 設備產生的熱空氣,然後將熱量傳遞給水。
浸沒式冷卻:將 IT 系統浸入非導電液體冷卻劑中以吸收熱量,然後使用熱交換器轉移這些熱量。
無論採用哪種設計方法,都應該與 GPU 基礎設施協同設計,以確保能夠提供適當的冷卻性能。了解 GPU 的用電量固然重要,但了解其所需的冷卻量同樣重要。前期規劃還可以及早發現關鍵問題,比如建築物現有的冷卻水容量是否足以支持液冷系統。
數據中心液冷的真實成本
如果領導者只考慮液冷系統的資本支出影響,就會忽視更大的圖景。液冷可以帶來運營支出節省,有可能在不到兩年內收回資本投資。
例如,一對冷卻分配裝置用於循環水的功率,僅是風牆冷卻空間所需能源的一小部分。液冷系統還在更有針對性的範圍內運行,只冷卻 IT 基礎設施中產生熱量的區域,而不是整個房間。室溫每升高一度,數據中心就能實現 1-2% 的能源節省。
如果需要在多個數據中心部署液冷系統,採用供應商中立的設計基礎也能帶來節省。這涉及創建標準化設計,在各種場地都能提供類似的性能特徵,同時最大限度減少每次部署的返工。它還能根據數據中心的環境和運營需求匹配合適的供應商技術,而不是強制使用特定供應商的技術。
發掘簡化機會
液冷系統無需成為組織的負擔。在這些系統的整個生命周期中,都有機會簡化其部署、使用和維護,從而最大限度地減少對員工的要求。
首先,有經驗的液冷技術部署合作夥伴可以幫助公司完成從評估設施基礎設施到規劃和設計定製液冷系統,再到採購和提供技術的全過程。同一合作夥伴還可以承擔簡化部署的關鍵任務,比如存放預購的組件,避免它們閒置在公司的數據中心,可能被損壞或被盜。
液冷系統的數據也可以以最適合負責監控和維護人員的方式進行整合。例如,如果由設施運營團隊負責,數據可以整合到他們的建築管理或自動化系統中。這樣團隊就可以像監控其他建築系統一樣輕鬆地監控液冷系統。
逐步接受液冷
通過確立液冷的必要性,展示它可以帶來的節省和效率,數據中心團隊可以為液冷建立令人信服的案例,並利用最佳可用技術來保護其高價值、高能耗的 GPU 機架多年運行。