聊聊AMD混合CPU-GPU INSTINCT MI300A研發故事：一條漫長而曲折的道路

將時間倒回2012年，當時的AMD正考慮退出數據中心CPU業務，而其數據中心GPU也一直沒能真正得到關注。就在這生死存亡之際，美國能源部出於自身政治與經濟利益決定實施一項開明策略，冒險投資AMD以開展記憶體技術及百億億次級混合CPU-GPU計算的研究。雖然這筆錢並不算多，但足夠讓AMD的工程師們有機會考慮整個美國的未來，並為如今強大的CPU與GPU業務埋下種子。

贊助商廣告

聊聊AMD混合CPU-GPU INSTINCT MI300A研發故事：一條漫長而曲折的道路

十多年後，蘿倫斯利弗莫爾國家實驗室的「El Capitan」超級電腦即將登頂全球最強超算榜單，其採用「Antares」Instinct MI300A計算引擎，而其中複雜的架構與封裝工藝正是當初能源部投資的結果。

AMD最近專門通過一篇論文，回顧了Antares系統如何從無到有構建而成。總結來講，整個過程就是「一步一個腳印」。AMD公司技術人員之一Gabriel Loh將這篇論文發布在了個人資料當中，而其最早其實是發表在今年7月初在阿根廷布宜諾斯艾利斯召開的國際電腦體系結構研討會（ISCA）。雖然稍稍晚了一點，但相信這篇題為《實現AMD百億億次異構處理器願景（Realizing the AMD Exascale Heterogeneous Processor Vision）》的文章一定能夠激起大家的興趣。

AMD去年曾在ISCA 2023大會上發表過一篇類似的文章，名為《AMD百億億次計算之旅研究回顧（A Research Retrospective on AMD’s Exascale Computing Journey）》，數十名研究人員探討了FastForward與DesignForward等工作如何演變為如今名震天下的「Frontier」超級電腦——這套系統不僅早於MI300A和El Capitan，還啟發了後者的誕生。

下面的故事，正是由這兩篇文章概括而來。

一切的開始：HAS

當初拿到美國能源部在DesignForward和FastForward兩個項目的援助資金時，現在的人們恐怕很難想像AMD在數據中心市場已經衰退到了何種境地——恐怕AMD也不希望大家再繼續深挖那段「黑歷史」。但頑強的AMD如今已經重新站了起來，在一定程度上對抗著英偉達在CPU領域的絕對霸權，並且繼承了英特爾傳下的CPU計算衣缽。只要這種競爭關係還在，每位市場參與者就都能專注於這場技術競逐，最終推動整個行業的創新和進步。

贊助商廣告

FastForward一期計劃獲得了6240萬美元資金，後續的二期計劃則拿到近1億美元。DesignForward的一期計劃對應2540萬美元，但我們找不到關於二期計劃的任何文件。總而言之，AMD從美國能源的這四筆投資中獲得了巨大幫助，開始在FastFoward一期計劃中研究異構計算、記憶體處理及緩存記憶體，並在二期計劃中研究低電壓邏輯與新的記憶體接口。DesignForward項目同樣分為兩期，參與者主要面向百億億次系統的互連和協議難題，還包括系統設計集成。

2015年，名為PathForward的類似項目帶來了更多資金，且真正是從開發、而非研究的角度推進百億億次級系統。這波2.58億美元的投資由英特爾、英偉達、Cray、IBM、AMD和HPE共同分配，再加上各供應商的配套投入，總投資額達到4.5億美元。

前後相加，全美科技界總計花費了至少6.378億美元、歷時八年才設計出百億億次級硬體。而且在美國資助的百億億次級設備當中，AMD、Cray與HPE的組合拿下了大部分訂單。歐洲方面安裝的部分大規模系統也採用了相同的架構，不過合資企業EuroHPC主要通過自主研發的CPU、加速器和互連方案來規避風險。

每個項目都是從初步願景和漂亮的宣傳圖片開始的，而AMD十多年前所勾勒的未來圖景也是一樣。如今我們從由13位AMD技術人員撰寫的論文中看到了這一切，其中多位成員憑藉AMD的加速處理單元研發工作而成為高性能計算（HPC）和AI領域的知名人物。其中體現的，正是如今廣為人知的異構系統架構。以下圖片就來自2012年的FastForward一期計劃：

下圖則是AMD在同一時期，對百億億次異構處理器初代方案的早期深度分析：

贊助商廣告

這套EHP-1設計實際是一套四核方案，擁有256位向量並同GPU複合體匹配。該GPU複合體擁有兩個流式多處理器，每處理器可實現6萬億次浮點運算加64位向量數學運算能力。根據推測，這款晶片設計也支持FP32格式，但可能無法支持較低精度的格式。請大家注意，該方案主要針對的是高性能計算類工作負載，而當時Transformer AI工作負載還沒有迎來我們如今所熟知的全面爆發。AI工作負載在本質上仍然屬於統計類任務，可以為了吞吐量而犧牲掉一部分精度，最終同樣能夠收斂出正確的答案。高性能計算工作負載則對確定性要求更高（具體體現為64位數據和高質量算法），即精度越高、得到的答案就越好。可能跟很多朋友想像中不同，如今這個時代最關鍵的議題其實是如何在新的高性能計算應用中引入較低的精度，同時保證其仍能得到正確結果。

時間來到2014年，AMD發現從14/16納米到5納米，晶片製造中的單位面積標準化成本已經上漲至2.5倍，整體解決思路也從之前的單片處理器加GPU複合體轉向了chiplet小晶片設計。

在此期間，AMD還開始質疑處理器記憶體（PIM）方法在經濟和技術層面的可行性，這種方法同樣源自美國能源部的資金支持。除了質疑在計算引擎中應用NVRAM的意義之外，AMD還直言不諱地表示，業界對於堆疊大量DRAM晶片來製造HBM記憶體組的想法過於樂觀。上圖所示為16層堆疊晶片，事實證明AMD是對的，時至今日我們也仍只能實現8層晶片堆疊——直到明年，12層晶片堆疊才剛剛邁入商業實現階段。

另外需要注意的是，EHP v2決定將DRAM記憶體堆疊在GPU晶片之上，這無疑是個雄心勃勃的目標。

2016年，AMD重新出發，對EHP設計開展了第三次疊代：

這時的GPU晶片被分成了兩半，在GPU頂部是8層高的HBM棧，而CPU晶片則位於計算引擎的中心，大概是為了便於訪問HBM記憶體。這套EHP v3設計在GPU下方使用了有源中介層，意味著其將搭載路由器或中繼器等有源組件，而不再採用由金屬線組成的無源中介。

贊助商廣告

AMD最終發現，有源中介層與在此基礎之上打造的3D記憶體堆疊設計在經濟上缺乏可行性。於是2018年的EHP v4設計由此出爐：

在EHP設計的前三次疊代中，AMD試圖將所有東西都塞進其Epyc SP3伺服器插槽之內。但通過PathForward的啟發，AMD不再單獨從插槽的角度思考問題，而開始著眼於系統主機板層面，並想到應該使用Infinity Fabric鏈路在主機板上將更大的「插槽」拼接起來。AMD擁有自己的GPU插槽封裝設計，也一直在密切關注由微軟和Meta Platforms創建、並於2019年被採納為OCP標準的OCP加速器模組（OAM）插槽。（AMD顯然提前知道其將被採納為標準，而且Instinct GPU至今仍在採用這種插槽。）

AMD在為橡樹嶺國家實驗室的Frontier超級電腦設計計算引擎複合體時，選擇了CPU與GPU 1:4的比例。這一事實引發了廣泛關注，但AMD發表的兩篇論文表明，其本質上是一個八核晶片塊與GPU晶片塊的1：1配對，且每節點容納八個這樣的CPU-GPU對。詳見下圖：

從某種意義上講，Frontier節點類似於一種虛擬APU，而且也是以這樣的方式進行編程。GPU之間採用更寬的Infinity Fabric管線，因此能夠快速共享數據，將GPU晶片對緊密耦合在一起。相鄰的GPU複合體則通過相對沒那麼寬、速度略低的Infinity Fabric管線相互連接，而CPU與GPU之間的鏈接還要再窄一點。

到這裡AMD可說是只差臨門一腳了。但美國政府需要的是百億億次級超算系統，這最後一腳必須得踢。

於是藉助去年12月發布的、在El Capitan中大量採用的Instinct MI300A，AMD終於完成了它一直想做的嘗試：打造真正的APU。該公司創造出了可以說是歷史上最複雜的計算引擎插槽，下面來看其饋送與速度指標：

贊助商廣告

下圖為該複合體的橫截面：

這簡直就是一塊由矽和金屬材料組成的三明治……

我們對任何硬體進步都保持著讚賞的態度，但之所以特別關注AMD的這套方案，原因有以下幾點。其中的CPU和GPU是真正統一的，因此代碼與使用純CPU的架構並沒有太大區別。AMD在第二篇重點介紹MI300A的論文中給出了典型案例，展示了不同場景下數據的移動和同步方式。請看下圖：

MI300A架構旨在將CPU-GPU組合緊密耦合起來，並使用組合中Epyc CPU CCD上的PCI-Express埠與外界實現連接，具體如下圖所示：

贊助商廣告

現在最讓我們好奇的，就是企業客戶到底是更願意採購MI300A伺服器，還是使用能夠與Antares系列中獨立MI300X GPU配對的獨立Epyc CPU。這個問題的答案，恐怕還是取決於價格、晶片產量以及企業客戶這邊實際需要的CPU-GPU計算比。我們也很想知道MI300A在價格、性價比和散熱表現方面，跟英偉達的Grace-Hopper或者Grace-Balckwell兩套獨立CPU-GPU組合究竟孰優孰劣。

到目前為止，我們還沒有確切的數據對雙方做出一一比照，但後續將保持密切關注。更多更新內容，敬請大家期待。