在大規模AI訓練中,由於GPU在等待相互通信時處於閒置狀態,計算集群的實際性能通常僅能達到理論峰值的30%至50%。事實上,大型GPU集群中的通信與同步瓶頸問題,每天可給數據中心運營商造成數十萬乃至數百萬美元的損失。
Clockwork Systems是一家獲得AMD和博通支持的企業,其產品正受到新興雲服務商、大型企業、超大規模雲廠商,以及部署著數萬乃至數十萬GPU的AI工作負載用戶的廣泛關注。該公司CEO蘇雷什·瓦蘇德萬表示:"一個擁有1000塊GPU的集群,每天通常會發生兩到四次重大中斷事件,在規模約5000萬美元投入的集群中,這將造成500萬至800萬美元的損失。"
據悉,基於軟體的解決方案能夠在伺服器時鐘之間實現納秒級的時間同步,從而優化GPU之間的通信效率,並在訓練與推理兩類工作負載中顯著提升GPU集群的利用率。
業內相關動態方面,麥肯錫數據顯示,傳統計算、儲存和雲工作負載目前占亞太地區數據中心需求的70%以上,而AI訓練與推理工作負載約占30%,亞太地區正日益成為數據中心增長的重要引擎。
IBM方面近日發布了全球首款亞1納米晶片,採用"納米堆疊"三維電晶體架構,製程節點為0.7納米,可在指甲大小的矽片上集成1000億個電晶體,並在能耗方面表現突出。
儲存晶片巨頭美光科技因獲得客戶220億美元的內存晶片訂單承諾,市值一度短暫超越Meta和特斯拉,凸顯出當前市場對AI基礎設施的強勁需求。
Q&A
Q1:GPU集群閒置問題有多嚴重?會造成多大損失?
A:大規模AI訓練中,GPU集群實際性能通常只能達到理論峰值的30%至50%,根本原因是GPU之間通信與同步存在瓶頸。以一個1000塊GPU的集群為例,每天通常會發生2到4次重大中斷事件,在約5000萬美元投入規模的集群中,每天損失可高達500萬至800萬美元。對於數據中心運營商而言,這是一筆相當可觀的隱性成本。
Q2:Clockwork Systems是如何解決GPU集群通信瓶頸問題的?
A:Clockwork Systems採用軟體驅動的方案,通過在伺服器時鐘之間實現納秒級時間同步,來優化GPU之間的通信效率。這種精準的時鐘同步可以減少GPU等待時間,從而提升集群整體利用率,在AI訓練和推理兩類工作負載場景中均有效果。該公司獲得了AMD和博通的支持,目前正受到超大規模雲廠商和大型企業的廣泛關注。
Q3:亞太地區數據中心市場的AI需求現狀如何?
A:根據麥肯錫的數據,亞太地區數據中心需求目前仍以傳統計算、儲存和雲工作負載為主,占比超過70%,而AI訓練與推理工作負載約占30%。儘管AI占比尚未過半,但增長勢頭強勁,亞太地區正逐漸成為全球數據中心擴張的重要增長引擎。






