英特爾宣布放棄CPU-GPU引擎，轉而將NNP引入GPU

去年2月，英特爾正式宣布將在「Falcon Shores」項目中打造CPU-GPU混合計算引擎，希望通過單一插槽實現對CPU和GPU容量的獨立擴展。很明顯，晶片巨頭打算借這個項目與英偉達和AMD展開正面競爭。英特爾將其稱為XPU，AMD將自己的同類方案命名為APU，而英偉達還沒有嚴格意義上的同類競品（具體取決於大家如何理解英偉達標榜的「超級晶片」）。

贊助商廣告

當時有報道指出，這種混合方法是將CPU和GPU的可變小晶片組合接入至強SP插槽之內，並在小晶片之間採用與至強架構相同的主記憶體與低延遲互連。此舉能夠將至強SP的複雜AI推理性能提升至超越原有AMX矩陣數學單元的水平，讓HPC浮點算力優於AVX-512向量單元，依靠更低的延遲讓客戶放棄Max產品線、英偉達乃至AMD的獨立GPU。

時任英特爾加速計算系統與圖形業務總經理的Raja Koduri在公告中承諾，英特爾Falcon Shores將把每瓦性能提升超5倍，單x86插槽計算密度提高超5倍，並依靠所謂「極限頻寬共享記憶體」把記憶體頻寬和容量也同樣提高超過5倍。這裡的5倍，是與當時同為英特爾旗艦處理器的「Ice Lake」至強SP伺服器插槽得出的比較結論。但今年3月隨著Koduri離開英特爾，這個雄心勃勃的項目也開始低調淡出。

Falcon Shores原定於2024年推出，人們普遍預計它會直接登陸與下一代「Granite Rapids」至強SP相同的「Mountain Stream」伺服器平台。樂觀的朋友甚至做出更激進的推測，比如英特爾可能會給GPU添加一個仿真層，讓它如同一個碩大無比的AVX-512向量數據單元以簡化編程。

但如前文所述，隨著Koduri於今年3月離開英特爾，晶片巨頭再次食言而肥。不僅開始在至強SP插槽內提供5種不同的CPU-GPU小晶片組合，還在幫助阿貢國家實驗室「Aurora」超級電腦衝擊2百億億次峰值算力的「Ponte Vecchio」Max系列晶片中棄用了「Rialto Bridge」GPU。當時有消息稱，首批Falcon Shores設備將於2025年問世，且將是純GPU小晶片的版本，基本算是代替Rialto Bridge成為Ponte Vecchio的獨立GPU繼任者。而之所以放棄Rialto Bridge，是因為英特爾打算在開發路線圖上每兩年推出一代新GPU——這也符合英偉達和AMD的產品更新節奏。

贊助商廣告

而在最近於漢堡舉行的ISC23超級計算大會上，英特爾再次闡明了對於Falcon Shores的規劃，確認該設備就是純GPU計算引擎，而且目前發布混合XPU的時機還不成熟。

超算部門總經理Jeff McVeigh在ISC23大會的簡報中解釋稱，「之前關於將CPU和GPU集成為XPU的宣傳造勢還為時過早。」坦率地講，McVeigh可能要為Koduri甚至是Jim Keller當初做出的決定背鍋了。在兩年多前離職之後，Koduri已經轉投AI初創公司Tenstorrent，目前擔任首席技術官職務。

McVeigh強調，「具體來講，我們發現目前所處的市場比一年之前的想像要活躍得多——所有創新都圍繞著生成式AI大語言模型展開。雖然其中大部分用例都集中在商業領域，但也有很多在科學研究中得到了廣泛應用。面對這樣一個瞬息萬變的動態市場，我們實在不願意、也不可能非要朝著CPU-GPU固定搭配比例的方向前進，甚至沒法確定x86和Arm哪種架構更好。一切都要保持靈活，充分發揮良好的軟體支持能力，這跟相對穩定的成熟市場有著很大區別。只有在工作負載確定且清晰，不再發生重大變化的背景下，這種固定搭配才有意義。我們已經做過多次設計整合，這確實有助於降低晶片成本和功耗。但還是那句話，一切的前提是穩定——兩種組件的供應商需要是穩定的，搭配比例和配置方式也需要是穩定的。所以認真審視目前的市場狀態之後，我們認為當下還不是做整合的好時機。」

英偉達即將向市場投放大量「Grace」CPU和「Hopper」GPU超級晶片，AMD則著手向大客戶蘿倫斯利弗莫爾國家實驗室供應大量「Antares」Instinct MI300A混合CPU-GPU計算引擎。所以要說英特爾想在混合計算引擎領域獨占鰲頭，這兩家是肯定不會同意的。

另外，XPU整合思路可能也確實不適合英特爾目前的戰略——晶片巨頭需要想辦法削減成本，並專注於在核心伺服器CPU市場上多賺點錢。這可能也是英特爾自1990年代末到2000年初安騰業務崩潰以來，第一次需要打起精神面對艱難時光。更確切地說，這種整合可能不太適合英特爾CPU核心和GPU核心。也許英特爾CPU加英偉達GPU才是市場所期待的最佳組合？至少目前英偉達還沒有自己的伺服器CPU業務，所以這種潛在的合作夥伴關係仍有空間，比如通過NVLink埠將「Sapphire Rapids」CPU跟HBM3 DRAM晶片對接起來。

贊助商廣告

無論如何，這已經不是英特爾第一次考慮在至強伺服器晶片中引入x86核心之外的輔助計算設計了，甚至不是第一次臨陣決定撤兵。

英特爾曾在2014年6月透露正在開發混合CPU-FPGA設備，並在2016年3月的開放計算峰會上展示了混合15核Broadwell-Arria 10 GX原型設計。2018年5月，隨著這款混合CPU-FPGA產品的正式推出，其CPU端升級成了20核的Skylake小晶片，FPGA端則封裝Arria 10 GX。當然，英特爾多年來一直在自家至強E3處理器上同時整合CPU與GPU晶粒，但卻很少討論集成GPU所帶來的浮點運算性能。可之後的很多年裡，英特爾不再對混合CPU-FPGA設計做任何評論，甚至沒有討論過用同樣的思路打造低端CPU-GPU的可能性。長期的沉寂直到後來計劃於2024年推出的Falcon Shores加Granite Rapids至強SP時才被打破。

如今，Falcon Shores多晶片GPU定於2025年推出，並將攜手「Clearwater Forest」至強SP處理器共同進入Granite Rapids架構時代。

對於科學晶片，McVeigh在ISC23大報的發展路線圖中也做出了有趣的說明。首先來看路線圖內容：

自2022年5月以來，英特爾一直在交付Gaudi2矩陣數學引擎，這部分成果來自2019年12月以20億美元收購的Habana Labs。英特爾還在今年3月發布了Gaudi3這款後繼產品，但尚未透露太多細節。目前來看，Gaudi 3可能會在2024年初與大家見面。

接下來，在Falcon Shores多晶片GPU在2025年投放市場之後，Gaudi與Ponte Vecchio和Falcon Shores GPU之間的硬性邊界將徹底消失。畢竟在有了具備強大混合精度矩陣數學算力的NNP（神經網路處理器）和擁有可觀混合精度矩陣數學的GPU之後，下一代Falcon Shores用不著依靠Gaudi4也能獲得驚人的市場競爭力。同時需要注意，英特爾必須儘快想辦法落地降本增效計劃——包括在2023年內削減30億美元成本，並在2024和2025年再削減50到70億美元預算。

McVeigh表示，Falcon Shores將同時面向HPC和AI工作負載，全面升級為HBM3記憶體，並將「繼承Gaudi產品的最佳優勢，包括標準以太網交換」和「規模化I/O設計」。

贊助商廣告

這裡所說的I/O應該是通過CXL over PCI-Express將CPU接入Falcon Shores GPU。但從目前公布的資訊看，GPU之間的互連應該是用Habana Labs開發的增強版以太網結構實現的。我們不太清楚為什麼不全面採用PCI-Express 6.0互連，這可能是考慮到大多數機架提供的PCI-Express線纜長度和埠數量都比較有限。

以太網互連能夠將128個Gaudi1晶片設備對接並擴展為統一系統，其中每個Gaudi1晶片都配備10個100 Gb/秒以太網埠。大家可以在單一節點內部署4或8個Gaudi1設備，進而通過32節點或16節點擴展構建起128設備的全互連繫統。Gaudi2則可通過24個100 Gb/秒的集成以太網商品進行擴展，各埠間以全對全、非阻塞拓撲將8個節點相互連通：

要構建這樣的八路Gaudi2系統，每個設備上的24個埠中須有21個用於在矩陣引擎間建立全對全互連。每設備的餘下3個埠則以交錯方式聚合為總計6個QSFP-DD埠，從Gaudi2機箱延伸出去以實現16或32個Gaudi機櫃間的互連擴展。這部分互連通過常規以太網交換機實現。

不難想像，其中的Gaudi以太網結構後續將升級至400 Gb/秒甚至是800 Gb/秒的埠，這些埠由Falcon Shores GPU提供，並使用高速以太網交換機將更多設備互連起來。但遺憾的是，英特爾目前已經不具備自己的以太網交換機業務，收購Barefoot Networks獲得的Tofino產品線早被雪藏。因此客戶只能從博通、英偉達、Marvell或者思科的產品中獲取這種交換功能。

另外就目前的情況看，英特爾還有可能從Gaudi設備中提取出脈動陣列——也就是矩陣數學引擎，藉此替代Ponte Vecchio設計中所使用的Xe矩陣數學引擎。總之方方面面來看，Gaudi4繼續作為獨立產品存在的可能性都已經極低。

看起來，23.5億美元換來的Nervana Systems和Habana Labs也就只為英特爾帶來了NNP這麼一項成果。對英特爾來說，未來的NNP就是GPU這種形式。而願意繼續為Gaudi2和Gaudi3買單的客戶，恐怕就只剩下那些既迫切需要矩陣運算能力、又對英特爾Falcon Shores GPU無比忠誠的企業了。

贊助商廣告