宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

把握歷史性時刻,谷歌決意投資GPU計算

2023年05月13日 首頁 » 熱門科技

把握歷史性時刻,谷歌決意投資GPU計算

在一年前的谷歌I/O 2022大會上,谷歌向全世界展示了其內部機器學習中心使用的8-pod TPUv4加速器,包含總計32768個第四代原研矩陣數學加速器。另外一套TPUv4 pod則部署在矽谷周邊的一處數據中心。接下來的一年當中,相信谷歌持續部署了更多TPUv4 pod。

儘管還不清楚谷歌具體如何利用TPUv4引擎承載搜尋引擎和廣告服務平台上的推理任務,但從市場動態來看,谷歌確實是全球最大的英偉達GPU買家之一。另外,谷歌還在大量採購AMD Instinct GPU加速器,畢竟隨著大語言模型的迅速爆發,大廠們手頭掌握的GPU資源無疑越多越好。谷歌自己還是一家雲服務商,必須能夠提供客戶需要和未來想要的東西。目前,希望在英偉達GPU上運行AI訓練的客戶明顯是越來越多。

生成式AI功能全面入駐谷歌軟體產品組合,成為本周谷歌I/O 2023大會的核心。這也在情理之中,畢竟業界公認OpenAI/微軟這對組合已經在新一輪AI競賽中取得領先,谷歌3月發布的Bart聊天機器人公測版本仍存在一定差距。如今谷歌最不願看到的,就是OpenAI和微軟最終在AI軟體和硬體領域形成雙頭壟斷,如同30年前數據中心/40年前PC興起之時微軟和英特爾形成的雙頭壟斷一樣。

頗為諷刺的是,在可能出現的雙頭壟斷當中,OpenAI成了軟體供應商,而微軟Azure則扮演硬體供應商。據稱微軟已經使用10000個英偉達A100 GPU訓練來自OpenAI的GPT-4大語言模型;更有傳聞說微軟將砸下25000個GPU訓練後繼模型GPT-5。這裡我們大膽做出推測,這25000個GPU可能是英偉達A100加H100的組合。畢竟一口氣買到2.5萬個H100 GPU絕非易事,即使是微軟和OpenAI也很難壟斷如此珍貴的熱門資源。

除了微軟和OpenAI兩位本家之外,客戶能從Azure雲上獲取高端GPU資源就更有限了。從最近與微軟Azure HPC與AI總經理Nidhi Chappell的對話中,我們獲悉Azure在構建AI超級電腦系統方面並沒有太多過激的嘗試。微軟使用的仍是標準的八路HGX-H100 GPU和來自英偉達的雙插槽英特爾「Sapphire Rapids」至強SP主機節點。此外,Azure實例還搭載了400 Gb/秒的Quantum 2 InfiniBand交換機和ConnectX-7網路接口以實現節點互連,使得各實例能夠擴展至4000個GPU(對應500個節點)。

谷歌將A3 GPU實例稱為「超級電腦」,其中匹配的是與谷歌主幹網路相同的「Apollo」光路交換(OCS)網路互連。這套Apollo OCS網路可針對不同拓撲實現重新配置,支持多種數據中心互連任務,將4096個GPU pod中的各TPUv4節點相互連接起來。OCS層則替代葉/脊Clos拓撲中的脊層。

把握歷史性時刻,谷歌決意投資GPU計算

谷歌AI基礎設施現場照

A3實例使用同樣的HGX-H100系統板和Sapphire Rapids主機系統,由英偉達作為整體單元統一交付。其他超大規模企業和雲服務商也會在這套單元上部署「Hopper」GH100 SXM5 GPU加速器。HGX-H100卡上的8個GPU使用非阻塞NVSwitch互連,提供3.6 TB/秒對分帶寬,能夠將GPU及其內存接入類似NUMA的GPU計算複合體中,由此在內部實現內存共享計算。主機節點運行兩塊來自英特爾的56核至強SP-8480 Platinum CPU,運行主頻為2 GHz,作為雙路伺服器的頂部bin通用部分。這台強調性價比的設備配備2 TB DDR5內存,運行頻率為4.8 GHz。

谷歌還在主機上使用由自己和英特爾共同設計的「Mount Evans」IPU,擁有200 Gb/秒傳輸帶寬和一套用於P4編程語言、具有16個Neoverse N1核心的自定義數據包處理引擎,負責處理數據傳輸峰值。谷歌還引入了自己的「伺服器間GPU通信棧」和NCCL優化機制,不出意外的話其中至少會有部分負載運行在Mount Evans IPU上。

把握歷史性時刻,谷歌決意投資GPU計算

谷歌AI硬體現場照

谷歌方面表示,A3超級電腦可以擴展至26 exaflops的AI性能,這裡預測對應的是FP8或INT8計算精度。如果推測正確,H100 GPU加速器的額定峰值將為3958 teraflops,那麼A3超級電腦要支撐起26 exaflops則需要6569個GPU,相當於821個HGX節點。這要比目前微軟和甲骨文提供的商用500節點和512節點系統大出約60%。

Google Cloud首席執行官Thomas Kurian在本屆I/O大會的開幕主題演講中表示,A3超級電腦在運行大規模AI訓練時,比之前的谷歌設備要快80%,成本則比雲端其他替代產品便宜50%。

Kurian提到,「可以看到,在以一半的成本實現兩倍的性能時,就會側生出驚人的新成果。」他稍微停頓了一下,給聽眾們留出反應和鼓掌的時間。至於可擴展性和定價,還要等待谷歌后續正式公布。但作為參考,我們不妨將A3實例跟2021年3月發布的A2實例做一番比較,後者在單一主機中搭載8或16個GPU。在AI訓練中,A100可將精度下調至FP16以提供624 teraflops,這樣16路A100的總算力最高可達9984 teraflops,而以FP8精度運行的8路H100則為31664 teraflops。在相同的節點數量下,新的A3超級電腦能夠提供3.2倍於A2超級電腦的吞吐量——當然,前提是數據處理任務能夠容忍FP8級別的精度。如果不行,那吞吐量增幅就是60%。(目前還不清楚Kurian給出的80%具體代表什麼。)

據我們了解,谷歌還沒有構建起微軟內部面向OpenAI的那種訓練設施規模。雖然有傳聞說谷歌會以更大規模設施來訓練其PaLM 1和PaLM 2大語言模型,所使用的GPU可能超過10000個,但目前還沒有任何實質性證據。

谷歌曾於2022年10月推出基於Mount Evans IPU和Sapphire Rapids至強SP的C3系列實例,已經在今年2月開放預覽。基於英偉達「Lovelace」L4 GPU加速器的G2實例也自今年3月起開放了預覽,其單虛擬機內的L4 GPU加速器已經由1個擴展到了8個。與H100一樣,L4也支持F8和INT8計算及更高精度(精度越高,吞吐量相應降低)。

A3和G2實例的定價尚未公布,據說會在正式上市時披露。預計公布時間應該在今年晚些時候,我們會繼續密切關注並比較最終定價。

最後需要強調的是,我們仍然認為谷歌所使用的GPU數量要遠超其GPU數量。即使從目前的情況看,谷歌的GPU和TPU比例大概也是2:1、3:1甚至4:1。換句話說,谷歌的GPU規模可能是TPU的2到3倍。儘管谷歌內部有大量工作負載被交給TPU處理,但TPU與GPU間的數量比例一直變化緩慢。好在隨著AI熱潮的到來,這麼多GPU一定能在谷歌手中發揮更大的作用。

另外,TPU無法支持英偉達的AI Enterprise軟體棧,所以全球眾多組織才只能依靠GPU來訓練AI模型。如果谷歌想吸引這部分客戶使用自家雲服務,就必須交付更多GPU資源,把他們拉進來之後再慢慢滲透TPU的優勢。亞馬遜雲科技的自產Tranium和Inferentia晶片也面臨著類似的困境。最後,雖然一直有傳聞說微軟正在內部開發定製晶片,但我們還沒有從Azure那邊看到任何重型計算引擎。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新