AI數據中心與HPC集群中I/O設計挑戰持續升級

關鍵要點：

設計人員對I/O連接器和互連協議的選擇，往往決定一款AI晶片能否大獲成功。

贊助商廣告

I/O的權衡取捨影響氣流、散熱、機架設計、機架供電等晶片設計的關鍵環節。

可靠性至關重要，必須遵循相關標準，I/O需要冗餘引腳。其他創新還包括OCP的多路徑可靠連接（MRC）協議。

AI在各領域的加速普及——從通用人工智慧（AGI AI數據中心與HPC集群中IO設計挑戰持續升級）到藥物與材料研發——正在將行業焦點從單純追求最新製程節點的最快晶片，轉向圍繞海量數據高速流轉而構建的整體系統架構。

系統需要在處理器、內存和互連之間保持平衡，同時還需要一定程度的統籌調度，以確保數據在正確的時間送達正確的位置。以18埃製程開發的超高速處理器，若一直等待內存數據或被低優先級任務堵塞數據通路，也只是白白浪費資源。

"你不僅需要晶片之間有海量的低延遲通信，還需要這種通信具有確定性。"Baya Systems首席解決方案架構師Saurabh Gayen說，"當你在和AI聊天機器人交流時，你不會希望一直等待它思考。你希望它能立刻與你對話，讓對話流暢進行。這從根本上改變了我們對網路和I/O連接的思考方式。"

多晶片組件和先進封裝技術讓I/O與互連領域的決策數量成倍增加，而複雜且快速變化的市場環境又進一步加劇了這一挑戰。

"採用新封裝技術後，大量系統級分析和預算分析變得非常重要。"Keysight EDA高速數字設計業務負責人Hee Soo Lee表示，"在工程師層面，能夠在物理層構建真正乾淨的信道、確保I/O以更清晰的方式傳輸數據，同樣至關重要。這正是大量學習和適應正在發生的地方——採用新技術、EDA解決方案和工具。學習曲線很陡峭，但這是成功的核心要素：進入新市場，並在這種嚴峻的市場競爭中贏得份額。"

權衡取捨的平衡之道

要確保AI晶片的商業成功，必須正確平衡眾多I/O方面的權衡取捨。"你所做的取捨將影響氣流、散熱、機架設計、機架供電等方方面面。"Cadence晶片解決方案事業群產品管理與市場營銷副總裁Arif Khan說。

贊助商廣告

然而，這並非一種萬能的解決方案。數據移動方式可能隨時間變化，也會因工作負載不同而有所差異。

"現有工具可以提供幫助，但決策並不在微觀層面。"Khan說，"智能體AI和其他AI能力正在被加入幾乎所有設計流程工具中。在某些領域，這些工具已相當成熟，但基於物理的複雜AI還未完全到位。其中一些涉及非常難以解決的物理問題，包括系統實現層面的散熱問題。目前已有一些應用場景，但還不足以顯著提速整個流程。"

其他業內人士也持相同看法。"當今最棘手的I/O設計問題，出現在物理規律與集成經濟性相互碰撞的地方。"Arteris產品管理與市場營銷副總裁Andy Nightingale說，"這包括小晶片（chiplet），或2.5D/3D封裝中的多晶片組件，以及推高功率密度和時鐘頻率的前沿計算晶片。先進封裝縮短了互連距離，但也成倍增加了接口、時鐘域、電源島的數量，帶來了信號/電源完整性、熱梯度以及測試/調試方面更多的'未知未知'。"

異構集成只會讓這些問題更加複雜。"由於存在異構接口、信號完整性約束以及快速增長的頻寬需求，chiplet和3D多晶片封裝帶來了最嚴峻的I/O挑戰。"ChipAgents首席執行官William Wang說，"工程師必須深入理解信號完整性、功率分配、重試機制、協議堆疊以及散熱頻寬權衡，因為AI正在大幅加劇晶片間的數據移動壓力。"

逐一解決問題固然可行，但所有問題必須同時得到解決。"多要素的耦合是最大的挑戰。"Axiomise首席執行官Ashish Darbari說，"任何單一的求解工具——無論是熱、機械還是電氣——都已經做得相當好了。但問題在於，這些耦合是雙向的，跨越的時間和空間尺度相差數個數量級，而各工具之間天然缺乏溝通。多晶片系統中的信號完整性問題也具有同樣的特徵。以32、48或64 GT/s速率運行的UCIe和BoW鏈路，進入的是凸塊（bump）區域，而凸塊阻抗會隨溫度和機械應力發生偏移。異構集成讓記錄管理變得極為複雜——N2製程的計算晶片、N5製程的I/O晶片、N3製程的SRAM、N16製程的模擬模組——不同的PDK、不同的可靠性模型、不同的熱膨脹係數。如何讓它們在統一的工作負載下呈現一致的表現，正是大多數多晶片項目悄然損失數月時間的根源所在。"

贊助商廣告

I/O與互連設計人員需要做出一系列相互影響的選擇。"Chiplet和3D不只是增加了一種集成選項，它們成倍增加了需要管理的邊界數量。"Rambus矽IP產品管理高級總監Lou Ternullo說，"你現在需要決定協議在哪裡終止、一致性在哪裡維護、哪些流量留在封裝內，哪些必須經過板級信道傳輸。你還要面對新的物理現實，比如熱梯度、電源完整性和更緊張的信號預算，這些都會改變框圖上看起來'最優'的方案。結果是，互連不再是單一的選擇，而是橫跨封裝、板卡和機架的一系列分層決策。"

在數據中心設計中，決策是分層進行的。"一開始，你知道數據中心能獲得多少電力，進而到一個機架，你有功耗預算和散熱預算，這些是你的運行約束。"Khan說，"然後將預算下發給系統製造商。而各組件並非來自同一家公司，預算被分配後，構建系統的人可能從不同供應商採購多個設備。每個層級的決策方式會因技術預算、PPA以及成本的不同而有所差異。"

設備之間的距離是核心考量因素。"最主要的挑戰是布線。"Vinci半導體與電子GTM負責人Satish Radhakrishnan說，"互連協議所跨越的物理距離差異極大，從封裝內部的毫米級到機架內的米級不等。隨著連接的設備越來越多、距離越來越近，布線變得愈加困難。設計人員必須同時管理擁塞、信號完整性、功率分配、散熱影響，以及封裝、板卡或機架的物理極限。"

圖1：集成1.6T超級以太網、UALink和OSFP（八通道小型可插拔）I/O連接器的AI擴展架構。來源：Synopsys

I/O可靠性與冗餘

在高性能計算系統中，I/O子系統和互連是故障和性能下降的重要來源。

"易故障I/O的可靠性與物理實現密切相關。"Vinci的Radhakrishnan說，"協議可以定義數據如何移動，但系統仍必須在真實的電源、散熱、機械和製造條件下可靠地支撐這種移動。"

冗餘設計不可或缺。"在HPC領域，矽生命周期管理等以前可有可無的功能，現在已成為必備要素。"Synopsys多晶片策略與3D IP產品管理總監Rob Kruger說，"可靠性是關鍵因素，我們遵循OCP（開放計算項目）的可靠性標準，同時也會添加冗餘鏈路等特性。"

贊助商廣告

此外，I/O在組裝過程中或現場使用中都可能發生故障。"假設你在做3D鏈路時出現了混合鍵合失效，這可能是組裝過程中的問題。我們有冗餘鏈路來替換這些失效部分。"Kruger解釋道，"UCIe鏈路連接chiplet時同樣如此。你可以通過冗餘鏈路來修複製造過程中損壞的鏈路，也可以修復五年後現場出現的問題。軟體可以對這些鏈路進行監控、測試和修復。"

遙測在其中扮演著重要角色。"你可能有用於監測工藝、電壓、溫度和信號完整性的傳感器，然後將這些數據匯總並上報給網路的更高層級。"Kruger說，"如何聚合這些數據？用軟體處理嗎？軟體沒問題，但數據中心可能有數以千計的I/O都在運行軟體。你也許會選擇硬體優先的方式，軟體作為備份。在這種情況下，與上層系統的協調又是另一個挑戰。"

圖2：簡化的數據中心網路連接示意圖，UCIe是AI數據中心I/O晶片中1.6T互連的可選方案。來源：Synopsys

面向超大模型的集群

HPC生態系統正在努力解決的問題之一，是如何讓整個計算節點集群像一台單一的電腦一樣運作，而I/O是其中的核心考量。

"回顧計算的演進歷程，2012年之前，處理器內部集成了多個核心。"Synopsys接口IP產品管理總監Priyank Shukla說，"後來，在一個機架或伺服器單元中集成了多個處理器，進一步提升了吞吐量。但ChatGPT出現後，我們意識到大量非結構化數據可以用不同的加速器來處理。你不只需要一個處理器，你需要針對特定工作負載的加速器，並且這些加速器需要相互連接。大語言模型的擴展規律——而非CMOS的規律——表明，向模型投入大量非結構化數據，就能獲得訓練效果極佳的模型。我們正在嘗試創建一個能夠像單一統一計算設施一樣運作的大型集群，這與我們目前的做法截然不同。當整個集群必須像一台電腦一樣運作時，你需要為每個計算節點提供內存，還需要在晶片間傳遞資訊，這為互連和I/O及其他組件帶來了不同類型的挑戰。"

贊助商廣告

數據傳遞至關重要。"當我們談到互連時，通常指的是物理層，或物理層上面的一層。"Shukla說，"但這些在協議層面也是最基礎的。核心思路是：你可以傳遞數據——不只是簡單的數據，而是相干內存數據——到不同的節點，而且數據量沒有上限。"

統一集群可以顯著提升性能。"從I/O的角度來看，這意味著你必須儘可能多地從一個晶片向外傳輸數據。"Shukla解釋道，"限制在於，你無法在一個晶片內塞入更多計算單元，所以兩個晶片必須協同工作。關鍵在於它們之間的通信速度。晶片的邊緣面積有限，你需要在有限的'海岸線'上最大化頻寬利用率。"

"海岸線密度"指的是晶片邊緣每毫米可傳輸的數據量。"如果你有一個加速器，它的代碼是矩陣乘法或TensorFlow運算，但加速器需要與其他加速器通信，所以需要I/O，這就是為什麼大家會提到chiplet I/O。"Shukla解釋道，"但如何集成呢？有不同的考量因素。如果將它們共同封裝在一個封裝內，I/O晶片位於頂部，就有機會處於晶片的正面，液冷可以為這個晶片散熱。但被壓在下面的基礎晶片沒有散熱路徑，這又帶來了新的挑戰。"

圖3：數據中心中的AI連接示意圖。來源：Synopsys

在AI領域，這些創新尤為必要，因為設計人員已經意識到，計算本身並不是增長的唯一制約因素。"數據移動和內存訪問才是真正的問題所在，既存在於晶片內部，也存在於晶片之間。"Baya的Gayen說，"如何確保那些體積達到數GB的超大AI模型高效運行？這正是英偉達 AI數據中心與HPC集群中IO設計挑戰持續升級等公司大力推進機架級設計（如NVL72百億億次級系統）的原因。"

Gayen指出，NVL72是一個里程碑，證明了連接才是核心。"如何在GPU之間移動數據？核心理念是，你不希望只有一個GPU——你希望大量GPU協同工作，表現得像一個巨大的GPU。正是NVLink及其關聯的NV交換機，使英偉達得以構建一個不只聚焦於計算的完整系統。"

贊助商廣告

從晶片架構師的角度來看，Axiomise的Darbari認為集群會帶來四個實際問題：

性能與可擴展性。集群的有效性能是本地計算吞吐量與跨節點數據移動及工作同步開銷的綜合體現。只有當互連和軟體棧能持續讓計算引擎保持繁忙時，高性能集群才能實現良好的擴展。

延遲與尾部行為。一旦系統實現分布式部署，最終結果的時間不僅取決於核心和內存延遲，還取決於網路跳數、擁塞、同步開銷和排隊效應。小延遲在規模化場景下會迅速疊加放大。

功耗與能效。功耗成為集群級屬性，而非單晶片的指標。節點設計、加速器搭配、電源管理和散熱限制等方面的選擇，直接影響機架密度、冷卻方式以及集群的實際運營經濟性。

網路作為架構的一部分。在集群中，網路不只是"管道"，而是一等公民的架構要素。Darbari解釋說，頻寬、延遲、拓撲結構、擁塞行為和容錯能力，共同決定哪些工作負載能夠良好擴展以及整體效率的高低。

擁塞挑戰與規範

AI時代的挑戰包括：影片點播和語音指令產生的網際網路、雲端和數據流量，AI訓練數據中心帶來的新型流量，以及AI推理產生的突發性流量。

"GPU集群將處理數據，並在特定時刻交換結果，形成一種稱為集體通信庫（CCL）的流量模式，會產生海量流量，需要大量高速埠。"Keysight Technologies AI與網路測試解決方案產品經理Razvan Arhip在近期的一場網路研討會上說。

面對這種流量模式，設計人員需要避免因網路流量瓶頸導致GPU閒置。"GPU很昂貴，集群也很昂貴，所以你不希望因為網路問題讓它們閒置。"Arhip說，"延遲必須極低，丟包率必須趨近於零，以避免重傳消耗時間。你不能再依靠數據中心中的上層協議（如TCP/傳輸控制協議）來解決丟包問題。你必須儘量減少導致丟包的擁塞，需要在儘可能低的層級處理丟包。這正是數據中心量化擁塞通知（DCQCN）等新型擁塞控制機制被採用的原因。超級以太網聯盟（UEC）發布的鏈路層重傳（LLR）機制也因此而來，它在第二層執行重傳。這些機制以及基於信用的流量控制（CBFC），都是由該領域的大公司推動的。"

贊助商廣告

最後，為了應對大規模AI訓練集群中的網路互連故障和相關I/O擁塞問題，OCP近期發布了一項開源的多路徑可靠連接（MRC）協議。

根據相關技術論文，"一種新型基於RDMA（遠程直接內存訪問）的傳輸協議MRC，能夠跨多條路徑分散傳輸並主動實現負載均衡，從而消除流量碰撞問題。"此外，MRC還能降低延遲、讓更多節點可在一跳內到達、降低成本和功耗、減少網路內部故障的影響，並且即使NIC到T0交換機的鏈路中斷，也不會導致訓練任務終止。

結語

在各個行業競相提供精準、極速AI能力的激烈競爭中，HPC系統或集群的每一個環節都承受著以最優狀態無故障運行的壓力。

"這些晶片的研發不是為了學術目的。"Cadence的Khan說，"你希望擁有最佳性能，展示出色的系統，大量銷售並獲得豐厚利潤，所以權衡取捨是多維度的。"

這意味著晶片架構師必須在I/O和封裝方案之間權衡各種選擇。"即便回到最簡單的情況——一個SoC被拆解——也是有代價的。"Khan指出，"你會增加延遲，在接口處增加功耗。那麼，這是否符合你的預算，還是單片集成方案更合適？"

歸根結底，選擇是多樣的。挑戰在於構建一個平衡的系統，使其在最重要的維度上為最終用戶實現最優化。"說到底，設計團隊都在努力解決一個多維度的問題，每種類型的I/O和先進封裝都有其自身的挑戰與優勢。"Synopsys的Shukla說。

參考資料

[1] 多路徑可靠連接（MRC）規範（開放計算項目）

[2] 基於MRC和SRv6的彈性AI超級電腦網路（AMD、博通、英特爾、微軟、英偉達和OpenAI聯合發布）

Q&A

Q1：I/O設計在AI晶片研發中有多重要？

A：I/O設計的重要性不亞於晶片本身的計算性能。設計人員對I/O連接器和互連協議的選擇，直接影響晶片的氣流管理、散熱效率、機架設計和供電方案，最終決定一款AI晶片能否在商業上取得成功。隨著多晶片組件和先進封裝技術的普及，I/O相關的決策數量成倍增加，任何一個環節的失誤都可能導致整個系統性能大打折扣。

贊助商廣告

Q2：HPC集群如何讓多個計算節點像一台電腦一樣協同工作？

A：核心在於高速、低延遲的互連技術。整個集群需要在處理器、內存和互連之間保持平衡，同時通過統一調度確保數據在正確時間送達正確位置。以英偉達NVL72系統為例，NVLink技術和NV交換機使大量GPU能夠協同工作，表現得如同一個巨大的單一GPU，而非多個獨立單元。關鍵挑戰在於晶片"海岸線密度"——即如何在有限的晶片邊緣面積上最大化數據傳輸頻寬。

Q3：OCP發布的MRC協議能解決AI訓練集群中的哪些問題？

A：MRC（多路徑可靠連接）協議主要針對大規模AI訓練集群中的網路互連故障和I/O擁塞問題。該協議基於RDMA傳輸，能夠跨多條路徑分散傳輸數據並主動進行負載均衡，從根本上消除流量碰撞。具體優勢包括：降低延遲、讓更多節點可在一跳內到達、降低成本與功耗、減少網路內部故障的波及範圍，並且即使某條NIC鏈路中斷，也不會導致整個AI訓練任務終止。