
UnifabriX 表示,其基於 CXL 連接的外部 MAX 內存設備可以顯著提升 AI 處理性能。
在之前的一篇文章中介紹了該公司的 MAX 內存技術。UnifabriX CEO Ronen Hyatt 引用了 Amir Gholami 等人的"AI 和內存牆"研究論文來說明他的觀點。研究人員指出:"空前的無監督訓練數據以及神經網路擴展法則,導致模型規模和大語言模型的訓練/服務計算需求激增。然而,主要性能瓶頸正逐漸轉向內存帶寬。在過去 20 年中,伺服器硬體峰值 FLOPS 每兩年增長 3.0 倍,遠超過 DRAM 和互連帶寬的增長速度,後兩者每兩年僅分別增長 1.6 倍和 1.4 倍。這種差異使得內存,而非計算能力,成為 AI 應用的主要瓶頸,特別是在服務部署方面。"
論文中的圖表展示了這種影響: 內存牆即是內存帶寬與硬體峰值 FLOPS 之間的差距。
論文作者總結道:"為了更好地理解這些數字,過去 20 年間,硬體峰值 FLOPS 增長了 60,000 倍,而 DRAM/互連帶寬在同期僅分別增長了 100 倍/30 倍。在這種趨勢下,內存——特別是晶片內部/晶片間的內存傳輸——將很快成為部署大型 AI 模型的主要限制因素。因此,我們需要重新思考 AI 模型的訓練、部署和設計方式,以及如何設計 AI 硬體來應對這個日益嚴峻的內存牆挑戰。"
Hyatt 修改了圖表,加入了 PCIe 總線各代以及 CXL 和 NVLink 的擴展線,顯示 IO 架構速度的增長同樣未能跟上硬體峰值 FLOPS 的步伐。
即使使用 InfiniBand 連接 NAND 驅動器,GPU 伺服器的內存和閃存存儲之間仍存在性能差距。通過 CXL (未來還有 UALink) 連接外部內存,可以緩解這一性能差距。
Hyatt 表示,內存架構優於 InfiniBand 網路,能夠提供更高的性能,而 CXL 和 UALink 是可與 Nvidia 專有 NVLink 相媲美的開放內存架構標準。
除了提升性能外,UnifabriX 的 MAX 內存還可以節省成本。
在 UnifabriX 的示例場景中,16 台伺服器(包括 4 台 GPU 伺服器)中,每台配置 6 TB DRAM,總容量為 96 TB。總內存成本為 160 萬美元,而 UnifabriX 指出內存利用率不到 30%。
通過添加一個容量為 30 TB 的 MAX 內存單元,這 16 台伺服器現在每台可以配置 2.25 TB 內存,總計 66 TB 內存,成本為 67 萬美元,且具有更高的利用率。伺服器獲得按需內存容量和帶寬,應用程序運行更快。
在 UnifabriX 的示例中,不僅節省了 100 萬美元的資本支出,還實現了 150 萬美元的總擁有成本收益。