閒置GPU集群每日損失可達數百萬美元

在大規模AI訓練中，由於GPU在等待相互通信時處於閒置狀態，計算集群的實際性能通常僅能達到理論峰值的30%至50%。事實上，大型GPU集群中的通信與同步瓶頸問題，每天可給數據中心運營商造成數十萬乃至數百萬美元的損失。

贊助商廣告

Clockwork Systems是一家獲得AMD和博通支持的企業，其產品正受到新興雲服務商、大型企業、超大規模雲廠商，以及部署著數萬乃至數十萬GPU的AI工作負載用戶的廣泛關注。該公司CEO蘇雷什·瓦蘇德萬表示："一個擁有1000塊GPU的集群，每天通常會發生兩到四次重大中斷事件，在規模約5000萬美元投入的集群中，這將造成500萬至800萬美元的損失。"

據悉，基於軟體的解決方案能夠在伺服器時鐘之間實現納秒級的時間同步，從而優化GPU之間的通信效率，並在訓練與推理兩類工作負載中顯著提升GPU集群的利用率。

業內相關動態方面，麥肯錫數據顯示，傳統計算、儲存和雲工作負載目前占亞太地區數據中心需求的70%以上，而AI訓練與推理工作負載約占30%，亞太地區正日益成為數據中心增長的重要引擎。

IBM方面近日發布了全球首款亞1納米晶片，採用"納米堆疊"三維電晶體架構，製程節點為0.7納米，可在指甲大小的矽片上集成1000億個電晶體，並在能耗方面表現突出。

儲存晶片巨頭美光科技因獲得客戶220億美元的內存晶片訂單承諾，市值一度短暫超越Meta和特斯拉，凸顯出當前市場對AI基礎設施的強勁需求。

Q&A

Q1：GPU集群閒置問題有多嚴重？會造成多大損失？

A：大規模AI訓練中，GPU集群實際性能通常只能達到理論峰值的30%至50%，根本原因是GPU之間通信與同步存在瓶頸。以一個1000塊GPU的集群為例，每天通常會發生2到4次重大中斷事件，在約5000萬美元投入規模的集群中，每天損失可高達500萬至800萬美元。對於數據中心運營商而言，這是一筆相當可觀的隱性成本。

Q2：Clockwork Systems是如何解決GPU集群通信瓶頸問題的？

贊助商廣告

A：Clockwork Systems採用軟體驅動的方案，通過在伺服器時鐘之間實現納秒級時間同步，來優化GPU之間的通信效率。這種精準的時鐘同步可以減少GPU等待時間，從而提升集群整體利用率，在AI訓練和推理兩類工作負載場景中均有效果。該公司獲得了AMD和博通的支持，目前正受到超大規模雲廠商和大型企業的廣泛關注。

Q3：亞太地區數據中心市場的AI需求現狀如何？

A：根據麥肯錫的數據，亞太地區數據中心需求目前仍以傳統計算、儲存和雲工作負載為主，占比超過70%，而AI訓練與推理工作負載約占30%。儘管AI占比尚未過半，但增長勢頭強勁，亞太地區正逐漸成為全球數據中心擴張的重要增長引擎。