去年2月,英特爾正式宣布將在「Falcon Shores」項目中打造CPU-GPU混合計算引擎,希望通過單一插槽實現對CPU和GPU容量的獨立擴展。很明顯,晶片巨頭打算借這個項目與英偉達和AMD展開正面競爭。英特爾將其稱為XPU,AMD將自己的同類方案命名為APU,而英偉達還沒有嚴格意義上的同類競品(具體取決於大家如何理解英偉達標榜的「超級晶片」)。
當時有報道指出,這種混合方法是將CPU和GPU的可變小晶片組合接入至強SP插槽之內,並在小晶片之間採用與至強架構相同的主內存與低延遲互連。此舉能夠將至強SP的複雜AI推理性能提升至超越原有AMX矩陣數學單元的水平,讓HPC浮點算力優於AVX-512向量單元,依靠更低的延遲讓客戶放棄Max產品線、英偉達乃至AMD的獨立GPU。
時任英特爾加速計算系統與圖形業務總經理的Raja Koduri在公告中承諾,英特爾Falcon Shores將把每瓦性能提升超5倍,單x86插槽計算密度提高超5倍,並依靠所謂「極限帶寬共享內存」把內存帶寬和容量也同樣提高超過5倍。這裡的5倍,是與當時同為英特爾旗艦處理器的「Ice Lake」至強SP伺服器插槽得出的比較結論。但今年3月隨著Koduri離開英特爾,這個雄心勃勃的項目也開始低調淡出。
Falcon Shores原定於2024年推出,人們普遍預計它會直接登陸與下一代「Granite Rapids」至強SP相同的「Mountain Stream」伺服器平台。樂觀的朋友甚至做出更激進的推測,比如英特爾可能會給GPU添加一個仿真層,讓它如同一個碩大無比的AVX-512向量數據單元以簡化編程。
但如前文所述,隨著Koduri於今年3月離開英特爾,晶片巨頭再次食言而肥。不僅開始在至強SP插槽內提供5種不同的CPU-GPU小晶片組合,還在幫助阿貢國家實驗室「Aurora」 超級電腦衝擊2百億億次峰值算力的「Ponte Vecchio」Max系列晶片中棄用了「Rialto Bridge」GPU。當時有消息稱,首批Falcon Shores設備將於2025年問世,且將是純GPU小晶片的版本,基本算是代替Rialto Bridge成為Ponte Vecchio的獨立GPU繼任者。而之所以放棄Rialto Bridge,是因為英特爾打算在開發路線圖上每兩年推出一代新GPU——這也符合英偉達和AMD的產品更新節奏。
而在最近於漢堡舉行的ISC23超級計算大會上,英特爾再次闡明了對於Falcon Shores的規劃,確認該設備就是純GPU計算引擎,而且目前發布混合XPU的時機還不成熟。
超算部門總經理Jeff McVeigh在ISC23大會的簡報中解釋稱,「之前關於將CPU和GPU集成為XPU的宣傳造勢還為時過早。」坦率地講,McVeigh可能要為Koduri甚至是Jim Keller當初做出的決定背鍋了。在兩年多前離職之後,Koduri已經轉投AI初創公司Tenstorrent,目前擔任首席技術官職務。
McVeigh強調,「具體來講,我們發現目前所處的市場比一年之前的想像要活躍得多——所有創新都圍繞著生成式AI大語言模型展開。雖然其中大部分用例都集中在商業領域,但也有很多在科學研究中得到了廣泛應用。面對這樣一個瞬息萬變的動態市場,我們實在不願意、也不可能非要朝著CPU-GPU固定搭配比例的方向前進,甚至沒法確定x86和Arm哪種架構更好。一切都要保持靈活,充分發揮良好的軟體支持能力,這跟相對穩定的成熟市場有著很大區別。只有在工作負載確定且清晰,不再發生重大變化的背景下,這種固定搭配才有意義。我們已經做過多次設計整合,這確實有助於降低晶片成本和功耗。但還是那句話,一切的前提是穩定——兩種組件的供應商需要是穩定的,搭配比例和配置方式也需要是穩定的。所以認真審視目前的市場狀態之後,我們認為當下還不是做整合的好時機。」
英偉達即將向市場投放大量「Grace」CPU和「Hopper」GPU超級晶片,AMD則著手向大客戶蘿倫斯利弗莫爾國家實驗室供應大量「Antares」Instinct MI300A混合CPU-GPU計算引擎。所以要說英特爾想在混合計算引擎領域獨占鰲頭,這兩家是肯定不會同意的。
另外,XPU整合思路可能也確實不適合英特爾目前的戰略——晶片巨頭需要想辦法削減成本,並專注於在核心伺服器CPU市場上多賺點錢。這可能也是英特爾自1990年代末到2000年初安騰業務崩潰以來,第一次需要打起精神面對艱難時光。更確切地說,這種整合可能不太適合英特爾CPU核心和GPU核心。也許英特爾CPU加英偉達GPU才是市場所期待的最佳組合?至少目前英偉達還沒有自己的伺服器CPU業務,所以這種潛在的合作夥伴關係仍有空間,比如通過NVLink埠將「Sapphire Rapids」CPU跟HBM3 DRAM晶片對接起來。
無論如何,這已經不是英特爾第一次考慮在至強伺服器晶片中引入x86核心之外的輔助計算設計了,甚至不是第一次臨陣決定撤兵。
英特爾曾在2014年6月透露正在開發混合CPU-FPGA設備,並在2016年3月的開放計算峰會上展示了混合15核Broadwell-Arria 10 GX原型設計。2018年5月,隨著這款混合CPU-FPGA產品的正式推出,其CPU端升級成了20核的Skylake小晶片,FPGA端則封裝Arria 10 GX。當然,英特爾多年來一直在自家至強E3處理器上同時整合CPU與GPU晶粒,但卻很少討論集成GPU所帶來的浮點運算性能。可之後的很多年裡,英特爾不再對混合CPU-FPGA設計做任何評論,甚至沒有討論過用同樣的思路打造低端CPU-GPU的可能性。長期的沉寂直到後來計劃於2024年推出的Falcon Shores加Granite Rapids至強SP時才被打破。
如今,Falcon Shores多晶片GPU定於2025年推出,並將攜手「Clearwater Forest」至強SP處理器共同進入Granite Rapids架構時代。
對於科學晶片,McVeigh在ISC23大報的發展路線圖中也做出了有趣的說明。首先來看路線圖內容:
自2022年5月以來,英特爾一直在交付Gaudi2矩陣數學引擎,這部分成果來自2019年12月以20億美元收購的Habana Labs。英特爾還在今年3月發布了Gaudi3這款後繼產品,但尚未透露太多細節。目前來看,Gaudi 3可能會在2024年初與大家見面。
接下來,在Falcon Shores多晶片GPU在2025年投放市場之後,Gaudi與Ponte Vecchio和Falcon Shores GPU之間的硬性邊界將徹底消失。畢竟在有了具備強大混合精度矩陣數學算力的NNP(神經網路處理器)和擁有可觀混合精度矩陣數學的GPU之後,下一代Falcon Shores用不著依靠Gaudi4也能獲得驚人的市場競爭力。同時需要注意,英特爾必須儘快想辦法落地降本增效計劃——包括在2023年內削減30億美元成本,並在2024和2025年再削減50到70億美元預算。
McVeigh表示,Falcon Shores將同時面向HPC和AI工作負載,全面升級為HBM3內存,並將「繼承Gaudi產品的最佳優勢,包括標準以太網交換」和「規模化I/O設計」。
這裡所說的I/O應該是通過CXL over PCI-Express將CPU接入Falcon Shores GPU。但從目前公布的資訊看,GPU之間的互連應該是用Habana Labs開發的增強版以太網結構實現的。我們不太清楚為什麼不全面採用PCI-Express 6.0互連,這可能是考慮到大多數機架提供的PCI-Express線纜長度和埠數量都比較有限。
以太網互連能夠將128個Gaudi1晶片設備對接並擴展為統一系統,其中每個Gaudi1晶片都配備10個100 Gb/秒以太網埠。大家可以在單一節點內部署4或8個Gaudi1設備,進而通過32節點或16節點擴展構建起128設備的全互連繫統。Gaudi2則可通過24個100 Gb/秒的集成以太網商品進行擴展,各埠間以全對全、非阻塞拓撲將8個節點相互連通:
要構建這樣的八路Gaudi2系統,每個設備上的24個埠中須有21個用於在矩陣引擎間建立全對全互連。每設備的餘下3個埠則以交錯方式聚合為總計6個QSFP-DD埠,從Gaudi2機箱延伸出去以實現16或32個Gaudi機櫃間的互連擴展。這部分互連通過常規以太網交換機實現。
不難想像,其中的Gaudi以太網結構後續將升級至400 Gb/秒甚至是800 Gb/秒的埠,這些埠由Falcon Shores GPU提供,並使用高速以太網交換機將更多設備互連起來。但遺憾的是,英特爾目前已經不具備自己的以太網交換機業務,收購Barefoot Networks獲得的Tofino產品線早被雪藏。因此客戶只能從博通、英偉達、Marvell或者思科的產品中獲取這種交換功能。
另外就目前的情況看,英特爾還有可能從Gaudi設備中提取出脈動陣列——也就是矩陣數學引擎,藉此替代Ponte Vecchio設計中所使用的Xe矩陣數學引擎。總之方方面面來看,Gaudi4繼續作為獨立產品存在的可能性都已經極低。
看起來,23.5億美元換來的Nervana Systems和Habana Labs也就只為英特爾帶來了NNP這麼一項成果。對英特爾來說,未來的NNP就是GPU這種形式。而願意繼續為Gaudi2和Gaudi3買單的客戶,恐怕就只剩下那些既迫切需要矩陣運算能力、又對英特爾Falcon Shores GPU無比忠誠的企業了。