宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

META PLATFORMS大規模GPU設施全解析

2024年03月15日 首頁 » 熱門科技

META PLATFORMS大規模GPU設施全解析

如果大家每天需要處理數百萬億次AI模型執行,並在生成式AI步入主流的背景下時刻準備將這樣的負載規模再提升一、兩個數量級,那GPU就是各位不可或缺的戰略資源。Meta Platforms明顯就是這樣,他們正拿出大筆財務預算,想要用「鈔能力」從英偉達手中奪取顯卡產能。

早在今年一月,Met Platforms社交網路與AI創新首席執行官馬克·祖克柏就在Instagram上發帖,表示公司年內將為GPU加速器劃撥大筆投資,涵蓋包括多達35萬張英偉達「Hopper」H100 GPU在內的相關設備。其目標只有一個——追求通用人工智慧,簡稱AGI,也就是人們常說的「思考型機器」。

祖克柏當時指出,到2024年底,Meta Platforms將擁有一大批加速器儲備,算上其他GPU設備,其掌握的算力總量將「接近60萬張H100顯卡的水平。」

如今,Meta Platforms公司的技術人員正通過一系列ODM合作夥伴將這些GPU裝進系統,同時發表了一份關於伺服器、網路與存儲設施的聲明,表示這些資源將被用於訓練Llama 3大語言模型,用以打造更強、更大、做好生產應用準備的Llama家族最新成員。

讓我們先從GPU等效算力的角度入手,再具體看看Facebook在通過Llama 3追求AGI目標時選擇了怎樣的基礎設施架構,最後展望Facebook AI研究與生成式AI實驗室後續將要打造的Llama 4與Llama 5模型。

我們並不清楚2022年時Meta Platforms在其隊列中掌握有多少張GPU,畢竟當時生成式AI才剛剛嶄露頭角。早在2017年,Meta Platforms(當時還與其打造的社交網路拳頭產品Facebook使用同一名稱)就建立起首代AI集群,其中安裝有2.2萬張「Volta」V100 GPU。

2022年1月,隨著生成式AI浪潮初見端倪,Meta Platforms以其DGX伺服器設計加200 GB/秒Infiniband互連方案為基礎,從英偉達處買下了Research Super Cluster(簡稱RSC),全部2000個節點能夠為AI工作負載提供總計1.6萬個GPU。根據當時的報道,RSC設備的首階段版本採用6080張英偉達的「Ampere」A100 GPU加速器,系統於2022年10月正式上線運行。2023年5月,RSC最終版本建成,但採用的並不是當時正在發售的「Hopper」H100 GUP,而是9920塊A100 GPU加速器。各節點均基於200 GB/秒Infiniband網路在雙層閉合拓撲中實現互連。

根據Omdia發布的報告,Meta Platforms當時計劃在2023年從英偉達手中分得15萬塊H100 GPU。我們猜測這些H100 GPU將被納入Meta Platforms於2022年10月披露的「Grand Teton」系統當中。結合當時的資訊,我們還估計該系統將採用博通的PCI-Express交換機,用於實現Grand Teton設備內各GPU與CPU間的多路連接。

基於以上歷史資料,我們又整理出下面這份2024年內Meta Platforms GPU集群的歸納表格:

META PLATFORMS大規模GPU設施全解析

很明顯,其中有很多部分只能用猜測來填補。但沒關係,思想實驗有益無害,我們不妨大膽假設。

讓我們先考慮以下幾個問題。如果Omdia公布的2023年Meta Platforms H1200配額數量正確,那麼Meta Platforms在2023年和2024年掌握的H100 GPU總量將完全可以滿足20個集群所需要的24576張——這裡的20個集群,正是該公司本周公布新系統消息時做出的表述。

今年年內將有35萬張H100 GPU落入Meta Platforms手中,所以明顯可知:無論「Blackwell」B100和B200 GPU加速器有多強,Meta都已經不想再等,而需要馬上投入對AGI的全力研發。當然,這並不是說Meta Platforms今年就拿不到Blackwell GPU。

如果我們假設社交巨頭擁有約4萬塊傳統GPU(估計大多數是V100),再加上RSC之前出現的第一代超級電腦上安裝的2.2萬張V100,而後根據V100 GPU張量核心的FP16與FP32算力進行等效換算,基本就能確定Meta Platforms中手英偉達GPU在AI工作負載場景下的相對性能。由此可知,6.2萬張V100 GPU僅相當於3875張H100,而在當時按市場行情採購這批V100 GPU大概需要6.2億美元。雖然Meta Platforms應該是享受到了一點批量優惠,但恐怕空間不大。

我們猜測Meta Platforms的集群中可能擁有7.6萬張A100 GPU,相當於2.37萬張H100,意味著純GPU採購就需要11億美元。如果A100的儲備規模確實如此,那麼其張量核心的FP16精度算力將擁有超過47千萬億次的總體性能水平(配合稀疏性支持進行性能優化),相當於用不到2倍的價格得到了6.1倍的總和算力。

而Meta Platforms這座龐大的50萬H100 GPU算力池在總體投入方面則再上一個數量級,純GPU採購成本就高達125億美元,相當於以往投入的11倍。其FP16精度下的總算力為1000百億億次,性能提升則高達21.1倍,相當於FP16精度算力的成本減半。如果Meta Platforms在其模型中使用FP8精度(該公司已經明確提及),那麼相對性能將再次翻倍,成本效益也會隨之優化。

順帶一提,這裡我們討論的Meta Platforms超算系統單就訓練而言,但其在實際應用中可能是訓練與推理混合。Meta Platforms發布的博文並未對此做出解釋。此外,整個算力池也將包含內部原研的MTIA設備。

無論如何,我們認為今年Meta Platforms一定會為2.4萬張Blackwell B 100或者B200 GPU留出預算空間。如果英偉達真能為Meta Platforms提供這麼多GPU,我們相信其肯定會相應建立一套純Blackwell GPU集群。當然,具體可能是英偉達Blackwell 設備同AMD「Antares」Instinct MI300X設備的組合。

事實上,Meta Platforms當前討論的兩大集群之一,已經確定將基於400 Gb/秒InfinBand網路。這一點非常有趣,因為Meta Platforms本身其實是超以太網聯盟的成員之一,而且曾經表示希望以太網能在某些指標方面與InfiniBand看齊,甚至已經在為達成目標而努力。

Meta Platforms基礎設施負責人Kevin Lee、Adi Gangidi和Mathew Oldham在博文中寫道,「我們的新型AI集群將建立在RSC的成功與經驗教訓基礎之上。我們專注於構建端到端AI系統,著力為研究人員和開發人員提供更好的體驗與生產效率。這些集群將採用效率更高的高性能網路架構,配合一系列關鍵存儲調整,再加上每個良種 的24576張英偉達Tensor Core H100 GPU,意味著兩套集群都能支持超越當初RSC容納能力的更大、更複雜的模型,希望能夠為生成式AI產品的開發與AI研究的進步鋪平道路。」

META PLATFORMS大規模GPU設施全解析

該公司還重申了其對於開源Grand Teton伺服器設計、用於容納硬體的OpenRack機架、開源PyTorch框架以及開源Llama大語言模型的支持承諾。

如果按照24576張GPU計算,就會發現圖中系統內的各機架只容納了兩套Grand Teton系統,也就是說Meta Platforms在其博文中提到的這兩大集群,各自在1536個機架中安裝有3072個節點。從這個密度來看,Meta Platforms顯然還沒有全面普及液冷設計的打算,因為液冷方案能夠讓四台GPU機器運行在單一機架之內。當然,這可能也與Meta Platforms選擇的機架間網路連接方式有關。

在上圖中,我們還能看到Wedge 400C與Minipack2網路機架的身影,其由Arista Networks根據OCP規格構建,明顯是面向以太網交換基礎設施。這些集群的InfiniBand與以太網版本均提供8個用於連接GPU伺服器的400 Gb/秒埠,對應每GPU一個。

Meta Platforms的技術人員寫道,「通過這兩種網路機架,我們能夠評估不同互連類型對於大規模訓練場景的適用性與可擴展性,據此收集更多見解,幫助我們了解未來要如何設計並構建規模更大的集群。通過對網路、軟體和模型架構進行認真協調和設計,我們成功將RoCE與InfiniBand集群應用在大型生成式AI工作負載之上(包括在RoCE集群上持續訓練Llama 3),期間未發現任何網路瓶頸。」

這些GPU集群採用的存儲伺服器將基於安裝E1.S SSD閃存模塊的「Sierra Point」Yosemite V3伺服器。Meta Platforms還自主開發了用戶空間內Linux文件系統(FUSE),該系統將運行在各Sierra Forrest存儲伺服器之上,並由Meta公司自己的閃存Tectonic存儲覆蓋層提供備份(Tectonic中的Haystack文件系統針對磁盤驅動器進行了優化),同時搭配與Hammerspace共同開發的分布式NFS文件系統。

我們也在努力整理這些AI集群所使用的參考架構,更多消息將在後續文章中為大家一一呈現。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新