如果亞馬遜雲科技、微軟和谷歌能夠物盡其用,則收入有望大幅提升。
各大雲服務商已經部署數以萬計的GPU與AI加速器,希望充分滿足市場在大語言模型方面的需求激增。
但TechInsights分析師Owen Rogers在採訪中表示,儘管運營商一方完成了大規模部署,但證據表明大部分資源並未得到充分利用。
根據這家分析公司的估算,2023年內各雲服務商的87.8萬個加速器總計完成約700萬個GPU時的工作量,而對應收入數字推測可能在58億美元上下。
雖然雲服務商向來不對外分享基礎設施資源的實際利用率水平,但Rogers指出如果GPU集群能夠以幾乎滿負荷的狀態運行,那麼收入數字一定會大大提高。
以亞馬遜雲科技的UltraScale集群為例,該集群由2萬個英偉達H100 GPU組成,每8個實例為一組對外租用,價格為每小時98.32美元。Rogers表示,假設每個區域都有一套集群能在年內實現100%的利用率,那麼單是亞馬遜一家的每年收入就應該在65億美元左右。
Rogers在即將發布的報告中寫道,「事實上,如果亞馬遜雲科技當前提供的各種加速器類型都能在各區域的2萬個加速器集群中全天候運行,那麼產生的收入將占2023年其雲業務總收入的50%。」
既然結果並非如此,那麼唯一合乎邏輯的解釋,就是這些加速器未能得到有效利用。
Rogers承認,不少雲服務都在利用這些加速器處理內部工作負載,因此會在某種程度上影響這一診斷。但在他看來,基礎設施的首要部署目標就是產生業務價值,藉此為硬體投資帶來回報。
另一種思路……
這個問題似乎也跟用戶使用雲服務的常規方式有關。Rogers認為,雲服務實際在通過多種方式提供價值。首先,客戶往往會在不提前通知的情況下部署並擴展其應用程序;第二,用戶會基於純消費的模式訪問各種領先技術。
而加速器主要屬於第二類,這是因為其成本仍然較高,所以屬於偶爾使用的高端資源。技術媒體The Next Platform之前曾就此開展討論,認為生成式AI工作負載正在市場上形成一股巨大的GPU需求熱潮,迫使人們一度願意在eBay上砸下4萬美元搶購一張H100 PCIe卡。而對於那些無需長期運行AI工作負載的客戶來說,在雲端隨時運行這類負載肯定是比自主構建集群便宜得多。
但Rogers解釋道,雲服務的本質也要求亞馬遜雲科技和微軟等廠商構建起遠超其預期容量的設施規模。換句話說,服務商必須提前為峰值需求做好準備。
另外值得注意的是,除了少數例外,GPU並不會像CPU那樣存在過度配置。一般來講,GPU資源可以供虛擬機乃至整個伺服器上的客戶使用。
也有一部分雲服務商,特別是那些規模較小的利基廠商,會採用英偉達提供的多實例GPU技術。這項技術允許將加速器拆分成多個GPU。與此同時,也有廠商選擇所謂「時間切片」技術以在同一GPU上運行多個工作負載。
但也必須承認,在如今這個大語言模型為王的時代,相當一部分客戶不可能滿足於只占有幾分之一的GPU。他們需要成百甚至上千個完整GPU,用以承載大模型那恐怖的訓練工作負載。
Rogers還發現雲用戶經常上報加速器容量不足,並強烈懷疑這是由資源調度不善所造成。
「我認為目前市場對於加速器的需求並不低,只是很多需求在同一時段內湧來,因此引發了資源爭用。」
換句話說,如果有五家客戶都想申請8000個GPU來訓練自己的模型,但云服務商那邊只準備了2萬個,那就必然有三家客戶需要等待。
也正如Rogers指出,不少證據都支持這樣的推斷。過去一年以來,亞馬遜雲科技和Google Cloud先後推出了調度服務,旨在幫助優化成本、服務可用性並提高資源利用率。
能靠抽象解決問題嗎?
正如前文所提到,大多數GPU實例已經是以虛擬機和裸機伺服器的形式交付。但Rogers評論稱,AI資源在雲端還有其他使用方式,比如說亞馬遜的SageMaker平台。
他解釋稱,這些服務消除了部署AI/機器學習工作負載的複雜性,「服務商的思路很簡單:如果客戶不想自購容量、不確定什麼時候需要使用容量、或者不打算為容量管理浪費太多精力,那可以把這事直接交給亞馬遜雲科技,由服務商負責打理一切。」
更高的抽象水平也意味著客戶不必考慮對各種加速器做針對性優化。畢竟除了AI硬體領域的主導者英偉達之外,目前所有主要雲服務商也都開發出了自己的定製晶片,AMD最近發布的MI300X GPU也已經得到微軟等大客戶的接納和使用。
Rogers認為隨著時間推移,用戶的技能組合也會朝著SageMaker這樣的雲平台傾斜。但就目前來講,「對於一名了解機器學習和AI的程式設計師來說,哪怕大家已經比較熟悉GPU及其編程特性,要想上手SageMker或者谷歌/微軟的同類平台也還須專門的學習和適應。所以至少就目前來講,多數人可能還是更傾向使用自己的固有知識,而不是接納一套全新的AI雲平台。」
大量囤積GPU究竟是福是禍?
而且,雲服務商並不是市面上唯一的GPU租用選項。過去幾年來出現了以CoreWeave為代表的多家託管及裸機即服務供應商,他們同樣能夠滿足客戶對於大規模GPU部署的需求。
這些廠商經常誇耀其GPU價格更具競爭力。還是以CoreWeave為例,其H100價格可低至每小時2.23美元——只要客戶願意認購足夠多的設備,就能享受到極致低廉的成本。
但Rogers認為CoreWeave這類廠商也面臨著自己的問題:雖然也能在市場上占據一席之地,但局限性在於只適合那些需要在短時間內運行大量訓練負載的客戶。所以「從長遠來看,我認為他們的日子也不會太好過。」
而其中最大的挑戰,就在於一旦客戶將自己的數據存儲在雲設施當中,那麼導出成本將是一筆大錢。Rogers解釋道,假設我們把數據存儲在亞馬遜雲科技當中,那麼將這些數據轉移到GPU農場以供處理本身就是筆不小的開支。
對於那些願意從零開始訓練大語言模型的公司來說,數據移動的成本可能微不足道,所以他們更適合選擇CoreWeave這類服務商。但在另一方面,如果大家本身就是一家小企業,打算重新訓練Llama 2 7B模型來支撐自己的客服聊天機器人,那麼直接在雲端運行訓練負載可能更便宜、也更方便。
「即使對於那些GPU需求量巨大的應用程序,超大規模雲運營商也能提供更多必要服務,幫助客戶順利完成自己的AI之旅。」
而且在Rogers看來,目前CoreWeave等服務商成本更低的狀況也很有可能在未來發生改變。他表示,「超大規模服務商掌握著更強勁的收入和購買力空間,只要他們願意,完全可以憑藉批量採購優勢壓低加速器成本、再進一步削減服務價格。」
「畢竟他們的體量更大、購買力更強,而且可以通過其他服務來抵償自己在某些服務上的利潤讓步。」
對於Rogers來說,儘管AI領域不乏各種炒作和亂象,但AI本身的實現確實需要與其他多種服務緊密對接。「我們仍然需要CPU、需要大量的存儲空間、需要大量內存資源。所以我個人將保持樂觀,哪怕目前回報一般,AI設施部署也不至於讓雲服務商賠本。」