英偉達繼續高歌猛進，AMD與英特爾的AI計劃恐難招架

但若CPU雙雄能夠用好自己手中的渠道網路，勝負仍在未定之天。

贊助商廣告

在瘋狂發掘生成式AI潛能的過程當中，英偉達仍是一馬當先的頭號玩家，僅今年第二季度的收入就較去年同期增長了一倍還多。為了確保這一領先地位，這位GPU巨頭顯然打算繼續加快新款加速器的開發速度。

對於過去幾代產品而言，兩年一更新的速度足以保持競爭優勢。但根據本月早些時候投資者們看到的演示文稿，英偉達手中除了B100這張王牌，還有將Arm核心與Blackwell架構匹配打造的全新「超級晶片」，外加L40及L40S的疊代產品。

這倒也不令人意外，畢竟整個行業都期待著英偉達能在2024年年內公布下一代架構及B100的各個型號。

可接下來的情況還是出乎所有人的預料。

根據本月發布的投資者演示文稿，英偉達計劃將新品發布節奏從兩年調整為一年。

從資料來看，英偉達即將轉向一年發布一次的新節奏。具體來講，基於Blackwell的B100及相關型號將於2025年替換為「X100」系列。這裡我們姑且認為「X」只是個占位符，黃仁勛可能仍在考慮具體要用哪位數學家、電腦科學家或者工程師來命名新架構。但重點在於：英偉達打算加快新GPU的疊代速度。

攻勢加快之下，英特爾與AMD該如何自處？

這種轉變無疑給AMD和英特爾等廠商帶來了潛在挑戰，畢竟他們的GPU和AI加速器發布周期仍然是兩年。

例如，AMD在英偉達A100推出的約一年之後發布了Instinct MI200系列加速器，聲稱除了英偉達的稀疏性支持優勢之外，Instinct MI200的雙精度性能其實更強、FP16 FLOPS則基本相當。

與A100相比，Instinct MI200讓AMD在高性能計算應用方面獲得了明顯優勢，也因此成為歐洲Lumi及美國能源部Frontier超級電腦等大型系統中的核心組成部件。

如今，隨著市場對於生成式AI的需求不斷增長，AMD希望針對較低精度工作負載進行進一步調整，藉此在GPU和APU兩條戰線上挑戰英偉達的AI主導地位。但是，如果技術媒體The Next Platform匯總的MI300A/X性能評估結果屬實，那麼AMD的最新晶片最終可無法在FLOPS上與H100直接競爭，只是在記憶體容量上略勝一籌。具體來講，該晶片預計將提供128 GB至192 GB的HBM3記憶體，相較於H100具有微弱優勢。

贊助商廣告

英特爾在今年9月的Innovation大會上著力宣傳了一波AI計劃，其處境也與AMD基本相當。晶片巨頭此前曾決定加快CPU和GPU的發布節奏，但經過部門重組和成本削減規劃之後，最終決定放棄GPU業務。

這一決定直接導致XPU CPU-GPU架構和Rialto Bridge胎死腹中。順帶一提，Rialto Bridge原本作為阿貢國家實驗室Aurora超級電腦所採用的Ponte Vecchio加速器的後續產品。隨後，英特爾公司又重新將Falcon Shores設計的發布時間從2024年推遲至2025年，理由是此舉「符合客戶對新產品的發布期望，並為開發生態系統留出時間」。

後面這條消息非常有趣，這意味著英特爾會將其GPU Max和Habana Labs架構統一至同一平台之下。也就是說，此前Gaudi2和GPU Max分屬兩個產品家族，但從Gaudi3開始將正式合兵一處。

與A100相比，Gaudi2表現出可觀的性能表現。但在其去年推出時，英偉達更加強大的H100已經發布，距離正式出貨也只有幾個月時間。

Habana的下一代加速器Gaudi3看起來倒是很有前途，但它不僅需要超越H100和AMD MI300等同類競品，還得跟即將推出的英偉達B100加速器相抗衡。

SemiAnalysis創始人Dylan Patel是最早意識到這個問題的觀察者之一。這倒不是說MI300或者Gaudi3甫一面世就已過時，但從加速技術的發展路線圖來看，它們的機會窗口恐怕會比過去短得多。

在他看來，「在特定的窗口期內，MI300仍會是市場上最好的晶片。」他還補充道，雖然我們對英特爾Gaudi3所知甚少，但如果繼續保持以往的擴展速度，那它應該會比英偉達H100更強大。

從長遠來看，他預計英特爾和AMD將不得不跟上英偉達的節奏，加快自己的CPU和加速器開發路線圖。

正如我們之前所指出，即使英特爾和AMD的下一代加速器無法擊敗英偉達，它們最終也仍有望憑藉更成熟的渠道網路獲得市場認可。據報道，英偉達的H100受到台積電先進封裝技術的限制，這種產能短缺預計要到2024年才能得到解決。雖然AMD的MI300系列產品可能也會遇到類似的挑戰（其同樣採用這些先進的封裝技術），但英特爾自身也擁有封裝能力，只是還沒有明確公示Gaudi3是否會使用這項技術，或者打算繼續像英偉達和AMD那樣依賴外部代工服務。

贊助商廣告

加快腳步的不只有加速器

更值得注意的是，英偉達加快的並不僅僅是加速器產品的發布節奏，同時也加快了Quantum Infiniband和Spectrum以太網交換產品組合的開發速度。

雖然單個GPU也能承載，但AI訓練和HPC應用程式往往需要在大型加速器集群上才能高效運行，因此網路功能也必須緊緊跟上其發展步伐。

隨著2020年收購長期合作夥伴Mellanox，英偉達目前也掌握了自己的網路技術棧，包括Mellanox的交換與網卡產品組合。

目前，英偉達最快的交換機Infiniband最高可達25.6 Tbps，以太網最高則可達51.2 Tbps。這些頻寬被分配給多個200至400 Gbps埠。但在新的發布節奏之下，英偉達的目標是在2024年將埠速度提高至800 Gbps，在2025年將埠速度提高至1600 Gbps。

這不僅需要通過更強大的交換機晶片將頻寬提供至51.2至102.4 Tbps區間，還需要更快的200 Gbps串行器/解串器（SerDes）以支持1600 Gbps QSFP-DD模組。

實現這種網路性能的必要技術已經存在，博通就演示了其200 Gbps SerDes。但我們還沒有在英偉達的宣傳內容中看到它的身影。Patel指出，理想情況下，英偉達必須得依靠Infiniband和以太網達到102.4 Tbps傳輸頻寬，才能真正實現800 Gbps網卡。

PCIe的問題

這恐怕就是英偉達總體規劃中的最大軟肋，或者說技術難關。受到PCIe的限制，使用現有網卡恐怕無法及時提供如此恐怖的傳輸速率。目前，網卡的實際限制是單個埠400 Gbps。PCIe 6.0倒是有希望實現800 Gbps，但要想讓1600 Gbps這個恐怖的數字成為現實，我們恐怕需要的是PCIe 7.0。

我們已經知道，英特爾的下一代至強在2024年推出時將不支持PCIe 6.0；至於 AMD即將推出的Turing Epycs，我們掌握的情報還不充分，無法判斷其是否支持PCIe 6.0。但樂觀的一面是，AMD在過去幾代產品中對PCIe新標準的支持一直領先於英特爾。

然而，x86也並不是英偉達的唯一選擇。該公司現在已經擁有自己基於Arm的CPU。因此，英偉達可能計劃在Grace的後繼產品上支持PCIe 6.0。Arm處理器曾經是首批在2022年初添加PCIe 5.0支持的處理器之一，所以我們同樣有理由相信類似的情況未來會再發生一次。

贊助商廣告

考慮到這個問題，Patel預計B100實際上將分為兩個版本。其一將採用PCIe 5.0，並具有與H100相同的700瓦熱設計功率（TDP），這樣客戶就能將新的HGX主機板直接接入現有機殼設計當中。在他看來，第二個版本將擁有更高的功率、需要配合水冷設計，並能夠支持PCIe 6.0。

但對於英偉達打算在2025年實現的1600 Gbps埠傳輸頻寬，首選答案恐怕將是PCIe 7.0，但此項技術還未最終確定。Patel表示，「根據標準機構透露的消息，搭載PCIe 7.0的產品最早也要到2026年才能落地。所以英偉達提出的這個時間表根本無法實現。」

而另一個選項則是繞過PCIe總線。正如Patel指出，英偉達其實並不需要在GPU和CPU之間實現PCIe 6.0或PCIe 7.0級別的頻寬，保證網卡和GPU間有此頻寬就足夠了。因此，他預計英偉達稻有可能會直接繞過CPU這個傳輸瓶頸。

事實上，英偉達已經在某種程度上做到了這一點。在最近幾代產品中，英偉達通過使用PCIe交換機有效將GPU與ConnectX網卡連接了起來。Patel表示，英偉達可能會進一步擴展這種方法，從而實現比單個PCIe 5.0或PCIe 6.0 x16插槽更高的埠傳輸速度。

他表示，對於X100這代產品，有傳聞稱英偉達可能會在2025年放棄用PCIe在X100的網卡和GPU間進行通信，轉而採用其他專有互連技術。

說到這裡，一直關注英偉達AI技術發展的朋友可能會好奇，這家晶片製造商手中的超高頻寬NVLinks結構為什麼不趕緊頂上。此項技術主要用於將多個GPU網格連接起來，使其在實效層面成為一個大型GPU。通過添加NVLink交換機，跨多節點擴展應該不是什麼難事。

然而，NVLink也存在一些重大局限，特別是在覆蓋範圍和可擴展性方面。雖然NVLink比之前提到的方案都快得多，但最多只能支持256個設備。要擴展到此範圍之外，就只能使用Infiniband或以太網將各個集群拼接在一起。

NVLink網格還只適用於GPU到GPU間的通信，而無法處理GPU系統上的數據傳入/傳出和工作負載協調需求。

贊助商廣告

因此，英偉達能否成功加快產品疊代速度，將在很大程度上取決於網路傳輸速度跟不跟得上。如果不行，那麼傳輸阻塞將大拖後腿、晶片性能升級也將無從談起。