
Panmnesia 通過在統一虛擬內存空間中添加快速 CXL 訪問外部內存來擴充 GPU 內存的方案,贏得了 CES 創新獎。
Panmnesia 表示,大規模生成式 AI 訓練任務可能會受到內存限制,因為 GPU 僅限於 GB 級別的高帶寬內存 (HBM),而實際可能需要 TB 級別的內存。解決這個問題的常規方法是增加更多 GPU,這雖然能獲得更多內存,但代價是產生冗餘的 GPU。Panmnesia 使用了其 CXL (Computer eXpress Link) 技術,通過 PCIe 總線將外部內存添加到主機處理器,這一過程由 Panmnesia 的 CXL 3.1 控制器晶片調控。該控制器的往返時間少於 100 納秒,比 SMT (同步多線程) 和 TPP (透明頁面放置) 方法所需的 250 納秒快 3 倍以上。
Panmnesia 發言人表示:"我們的 GPU 內存擴展套件...因其能夠有效降低 AI 基礎設施成本,已經引起了 AI 數據中心領域公司的廣泛關注。"
該技術於去年夏天公布,並在 10 月的 OCP 全球峰會上展示。公司提供了一份可下載的 CXL-GPU 技術簡報,其中提到其 CXL 控制器具有兩位數納秒的延遲,據了解約為 80 納秒。文檔中的高層次圖表展示了該設置可以連接 DRAM 或 NVMe SSD 端點 (EPs) 到 GPU。
更詳細地說,第二張 Panmnesia 圖表顯示 GPU 通過 PCIe 總線連接到 CXL Root Complex 或主機橋接設備,該設備將 GPU 的高帶寬內存(主機管理的設備內存)與 CXL 端點設備內存統一到一個統一虛擬內存空間 (UVM) 中。
這個主機橋接設備"一端連接系統總線埠,另一端連接多個 CXL 根埠。該設置的關鍵組件之一是 HDM 解碼器,負責管理每個根埠的系統內存(稱為主機物理地址,HPA)的地址範圍。這些根埠設計靈活,能夠通過 PCIe 連接支持 DRAM 或 SSD EPs。" GPU 可以通過加載-存儲指令訪問這個統一的可緩存空間中的所有內存。
Panmnesia 在 YouTube 上發布了一個影片,以簡化形式展示了其 CXL 訪問 GPU 內存方案。