宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

GTC2026開幕在即|硬核拆解Vera Rubin:英偉達如何把整個機架變成一台機器

2026年03月10日 首頁 » 熱門科技

這是一期非常、非常、非常硬核的內容。

下周一(2026年3月16日),GTC 2026就要在聖何塞開幕了。所以在GTC開始之前,發一篇硬核的英偉達技術解讀,把今年1月CES 2026上黃仁勛對Vera Rubin平台做的完整介紹拆開來解讀一下,也算給GTC做個知識預熱了。當然,我們也計劃在GTC期間,做一個同期活動,感興趣的同學可以在文末掃碼進微信群。

這篇文章的核心內容,基於SemiAnalysis在2026年2月26日發布的深度報告《Vera Rubin – Extreme Co-Design》。SemiAnalysis是矽谷一家專注半導體與AI基礎設施的獨立研究機構,由Dylan Patel創辦,以技術深度和供應鏈資訊源著稱,付費報告在晶片行業、對沖基金和科技公司決策層中被廣泛引用。原文資訊密度極高,閱讀門檻也高,我在其基礎上增加了大量的背景說明和術語擴寫,希望能讓更多人讀懂這套系統的設計特點。

雖然Vera Rubin平台早在2025年3月的GTC上就首次亮相,但當時只有概要資訊,直到CES 2026黃仁勛做了完整披露。

GTC2026開幕在即硬核拆解VeraRubin英偉達如何把整個機架變成一台機器

現在Vera Rubin已進入量產階段,合作夥伴產品預計於 2026 年下半年上市/交付。SemiAnalysis拿到供應鏈數據做了詳細拆解,很多規格和工程細節開始進入公開視野。由於全文技術術語太多,難免疏漏,有衝突的地方,所以疊個甲,有不一致的地方,請以官方和SemiAnalysis原始表述為主。

當然,這篇拆解文章,也是對剛過去的三八國際婦女節的致敬。因為英偉達用Vera Rubin這個名字,實際上就是在向一位同名女性科學家的致敬。近年來,英偉達每一代GPU技術平台都以科學家命名——Ampere(安培)、Hopper(葛蕾斯·霍珀)、Blackwell(大衛·布蕾克維爾)——到了這一代,CPU叫Vera,GPU叫Rubin,合起來就是Vera Rubin,致敬的自然就是美國天文學家薇拉·魯賓(1928-2016)。

所以,我就先科普一下她的學術貢獻。一個詞,就是暗物質。

按照牛頓力學,星系外圍的恆星離中心遠、受到的引力弱,應該轉得比內側慢——就像太陽系裡海王星繞太陽一圈比水星慢得多。但魯賓和同事Kent Ford在1970年代觀測了60多個星系後發現,外圍恆星的速度和內側幾乎一樣快。

問題在於:如果外圍恆星維持同樣的高速,鑑於外圍的引力又很弱,可見物質產生的引力根本控制不住它們,外圍恆星早該像脫手的鏈球一樣飛散了。但它們穩穩地留在軌道上。唯一的解釋是:星系裡存在大量看不見的物質,它們產生的額外引力像一隻無形的手,把高速運轉的外圍恆星兜在軌道里。這就是暗物質存在的觀測證據之一。今天我們知道,暗物質占宇宙全部物質的85%以上——魯賓的發現從根本上改變了人類對宇宙組成的認知。《紐約時報》稱她的遺產"引發了哥白尼級別的宇宙觀變革"。她也被廣泛認為是諾貝爾物理學獎最大的遺珠之一。

回到技術本身。CES 2026上,黃仁勛把Vera Rubin平台的所有底牌都翻了出來:6款晶片、全新機架架構、無線纜計算托盤,外加一張燒到220千瓦的電費單。SemiAnalysis這篇報告是目前市面上資訊密度最高的Vera Rubin硬體拆解,覆蓋從晶片規格到供應鏈贏家、從散熱物理到TCO(Total Cost of Ownership,總擁有成本)財務模型的全鏈路。

它的核心判斷是:英偉達在做的事,已經不只是賣GPU了。

一個背景插曲:VR NVL72一開始其實叫VR NVL144。黃仁勛在GTC 2025上的算法是:每個Rubin GPU封裝里有2顆計算Die,72個封裝=144顆計算Die。這個命名在2025年12月底被改回VR NVL72,以72個GPU封裝為準,CES 2026上正式確認。

此外,Rubin同時覆蓋 8 卡級與機架級兩種形態:DGX/HGX Rubin NVL8 是 8 顆 Rubin GPU 的單節點系統,官方規格頁顯示其配套 2 顆 Intel Xeon 6776P 處理器和 8 個單埠 ConnectX-9;而 Vera Rubin NVL72 則是本文的主角,採用 Vera CPU 與 Rubin GPU 的機架級組合,面向更大規模的 rack-scale 部署(也不要和Rubin Ultra NVL576混淆——那預計是2027年下半年的下一代產品,採用全新的Kyber機架架構取代Oberon,單機架576顆GPU、600kW功耗)。

1)英偉達現在要"極致協同設計",整個機架才是產品單元

黃仁勛在CES上造了個詞:Extreme Co-Design(極致協同設計)。以前買英偉達,你買的是一塊GPU晶片;現在買英偉達,你買的是整個機架里的每一塊關鍵晶片。這一代Vera Rubin平台一次性更新了6顆晶片——不只是GPU,連CPU、網卡、交換晶片、數據處理器、以太網交換機全部重新設計,而且全部由英偉達自己出品。這在英偉達歷史上是第一次。

GTC2026開幕在即硬核拆解VeraRubin英偉達如何把整個機架變成一台機器

理解這六顆晶片,先要理解一個AI計算任務從頭到尾經歷了什麼:

數據從外部網路進來 → 被分配到某顆GPU → GPU和機架內其他71顆GPU協同完成計算 → 結果通過網路送出去。

這條路徑上,每個環節都需要專門的晶片:進來的門(ConnectX-9)、門衛(BlueField-4)、廠長(Vera CPU)、生產線(Rubin GPU)、廠內傳送帶(NVLink 6 Switch)、廠外公路網(Spectrum-6)。這六顆晶片各守一段,缺一不可,而且全部出自英偉達。

在繼續介紹每顆晶片之前,先建立一個速度參照系——因為後面會反覆出現800G、1.6T、22 TB/s這些數字,沒有參照就只是符號。

數據傳輸速度的數量級:

場景
速度
感受
家用寬帶(百兆光纖)
100 Mbps ≈ 12 MB/s
下載一部1GB電影約需83秒
千兆家用寬帶
1 Gbps ≈ 125 MB/s
下載同一部電影約需8秒
USB 3.0
5 Gbps ≈ 625 MB/s
下載同一部電影約需1.6秒
ConnectX-9伺服器網卡
800 Gbps = 100 GB/s
下載同一部電影約需0.01秒
NVLink 6機架內互聯
3.6 TB/s = 3,600 GB/s
每秒傳輸3,600部1GB電影
GPU HBM4顯存帶寬
22 TB/s = 22,000 GB/s
每秒傳輸22,000部1GB電影

具體說,六顆晶片的分工如下:

Rubin GPU(Graphics Processing Unit,圖形處理器):AI計算的本質是矩陣乘法——把一個巨大的數字表格和另一個巨大的數字表格對應位置相乘再求和,反覆執行數十億次。這件事CPU做不好,因為CPU核心數少、每個核心很"聰明",擅長處理複雜的邏輯判斷,但一次只能算一列;GPU有數千個簡單核心,同時算所有列,天然適合這種"重複但並行"的暴力計算。Rubin是英偉達最新一代GPU,機架里72顆並排工作,是整套系統存在的唯一理由——其他五顆晶片,本質上都是為了讓這72顆GPU算得更快、算得更順而存在的。

GTC2026開幕在即硬核拆解VeraRubin英偉達如何把整個機架變成一台機器

Vera CPU(Central Processing Unit,中央處理器):GPU只會算,不會管。它不知道下一批數據什麼時候來、來了該放在記憶體哪個位置、算完的結果該發給誰、系統報了錯該怎麼處理。這些"管理工作"需要一顆CPU來承擔。每兩顆Rubin GPU配一顆Vera CPU,Vera負責任務調度、記憶體分配、協調GPU與外部網路的通信,相當於72條流水線共用的一批車間主任。英偉達這代在Vera上投入了罕見的力氣——重啟了自研ARM核心架構"Olympus",88個核心、176線程、1.5 TB記憶體容量——因為AI推理任務越來越複雜,CPU作為"管家"的工作量也在同步膨脹。

NVLink 6 Switch(機架內互聯交換晶片):72顆GPU在同一個機架里並排工作,但它們不是各干各的——大模型訓練時,每顆GPU只負責模型的一部分,計算完成後必須把中間結果(梯度)分享給其他所有GPU,再各自更新參數。這相當於72個工人在流水線上協作,每人做完自己這道工序後,必須把半成品交給下一道工序的任何一個人。這種"任意兩人之間隨時高速直傳"的需求,就是NVLink 6 Switch存在的理由。機架里一共36顆NVSwitch,共同構成72顆GPU之間的全互聯高速網路——任意兩顆GPU之間都有專屬通道,不需要排隊等候,帶寬極高、延遲極低。這是英偉達機架區別於普通伺服器集群最核心的物理基礎。

ConnectX-9(NIC,Network Interface Card,網路接口卡):機架是一個相對封閉的計算單元,但數據必須從外部進來,結果也必須送出去,多個機架之間也需要互相通信。ConnectX-9是這扇"對外大門",負責以800G速率把數據送進送出。一台VR NVL72計算托盤配備8顆CX-9,等效每顆Rubin GPU擁有1.6 T的對外帶寬。CX-9不只是被動傳輸的管道——它同時支持InfiniBand(英偉達高性能互聯協議)和Ethernet(以太網)兩種網路協議,意味著同一塊網卡可以對接兩套生態,在超大規模集群里靈活切換組網方案。

BlueField-4(DPU,Data Processing Unit,數據處理單元):理解它的工作,先要想像沒有它的世界。每一個進入伺服器的數據包,都需要經歷一系列"入境檢查":這個包是合法的嗎?它屬於哪個租戶?需不需要解密?應該轉發到哪顆GPU?存儲請求怎麼轉換成NVMe協議?KV Cache該往哪裡搬?——這些工作加在一起,相當於一座繁忙海關的全部工作量。

如果讓CPU去做這些檢查,CPU就成了海關官員,沒時間管理GPU。如果讓GPU去做,更是暴殄天物——讓流水線工人去填報關單。

BlueField-4的本質是:把這座"海關"從CPU和GPU身上剝離出來,交給一顆專門為此設計的晶片獨立運行。它內部其實是一顆上代Grace CPU Die加一顆CX-9網卡的組合——注意不是Vera,而是復用了上代Grace的大型CPU裸晶片。BF-4有自己的128 GB LPDDR5x記憶體(容量是上代BlueField-3的4倍,但帶寬只有普通Grace的一半)和存儲,可以獨立運行作業系統,完全不依賴主機CPU。

它接管的具體工作分三塊:前端網路的進出流量管理(相當於南北向高速公路的收費站)、後端8顆CX-9網卡的統一調度(Astra架構,相當於同時管理8條出口通道)、以及KV Cache在本地SSD和GPU之間的搬運調度(CMX架構)。

報告預計,大多數超大規模客戶會用自研的輕量DPU或直接換成一塊CX-9來替代BF-4——因為貴。只有CoreWeave等自研能力有限的新興雲廠商才會保留完整配置。

Spectrum-6(以太網交換機):前五顆晶片解決的都是單個機架內部的問題。但一個機架只有72顆GPU,訓練最前沿的大模型需要數萬顆甚至數十萬顆GPU同時協作——這需要把成百上千個機架連成一張網。Spectrum-6就是架設在機架之上的"城際高速公路網",負責整個超大規模集群的骨幹組網。它有102.4 T的交換帶寬,通過CPO(共封裝光學)技術把光學收發器直接集成進晶片封裝,省掉了傳統可插拔光模塊,功耗降低約70%。四顆Spectrum-6晶片組合成一台SN6800交換機,單台可以支撐數十萬GPU規模的集群組網。需要注意的是,Spectrum-6本身不在VR NVL72機架里,它是機架與機架之間的基礎設施,是英偉達"端到端壟斷"野心最外延的一圈。

英偉達能端出一張完整的全家桶,可以看作是強有力的護城河。

2)Rubin GPU的性能數字,需要區分"真實的35"和"理論的50"

Rubin GPU標稱兩個算力數字:35 PFLOPS 和 50 PFLOPS。

先解釋單位。PFLOPS(Peta Floating Point Operations Per Second,每秒千萬億次浮點運算),1 PFLOPS = 每秒10¹?次計算——大約是全球70億人口每人每秒手算140億次才能匹敵的速度。35 PFLOPS是怎麼來的?

算力 = SM數量 × 每SM每時鐘運算次數 × 時鐘頻率

Rubin的SM(Streaming Multiprocessor,流式多處理器,GPU內部的基本計算單元)從160個增加到224個;每個SM內的Tensor Core(張量核,專為矩陣乘法優化的計算單元)在FP4精度下運算寬度翻倍,達到每時鐘32,768次FP4 MAC(Multiply-Accumulate,乘加運算,AI計算的基本操作:a×b+c);時鐘頻率從1.90 GHz提升到2.38 GHz(提升約25%)。三者相乘,密集FP4算力約提升3.5倍,達到35 PFLOPS。

35是真實數字,50是理論天花板。

50這個數字來自英偉達第三代Transformer引擎里的"自適應壓縮"技術。AI模型的計算矩陣里天然存在大量零值——把任何數乘以零結果都是零,跳過這些乘法不影響答案。零越多,越接近50 PFLOPS;零越少,越接近35 PFLOPS。所以50是晴天最高溫,實際氣溫取決於當天的雲層。

這背後是精度格式的演進。AI計算的精度格式好比照片壓縮比:

格式
全稱
位寬
每個數字能表示的範圍
類比
TF32
TensorFloat-32
19位
約6位有效數字
專業RAW格式
BF16
Brain Float 16
16位
約3位有效數字
無損PNG
FP8
8-bit Floating Point
8位
約2位有效數字
普通JPEG
FP4
4-bit Floating Point
4位
約1位有效數字
高度壓縮圖

"位寬"是說每個數字占幾個二進制位。4位(FP4)只能表示16種不同的數值(2?=16),而32位可以表示約42億種(2³²)。精度越低,每個數字占用的晶片面積越小,同樣大小的晶片就能同時處理更多數字,速度越快。Rubin的Tensor Core只在FP4和FP8維度翻倍,BF16和TF32保持與上代相同——英偉達押注未來的AI工作負載將主要跑在FP8和FP4上。

值得一提的是,這代Rubin完全取消了"稀疏FLOPs"(Sparse FLOPs)的獨立營銷概念。上一代Blackwell把稀疏算力單獨列出來翻倍宣傳,實際上沒人在低精度下用——AMD MI355X甚至直接在MXFP4等格式上放棄了稀疏支持以節省晶片面積。Rubin的自適應壓縮是另一條路:不強制清零,不改變模型精度,讓稀疏加速從"理論存在"變成"自動生效"。

顯存方面,Rubin配備第四代HBM4(High Bandwidth Memory 4,第四代高帶寬記憶體),理論帶寬22 TB/s,容量控制在288 GB(與上代持平)。值得注意的是,22 TB/s這個帶寬目標是從GTC 2025時宣布的13 TB/s大幅上調的,幾乎翻了一倍。為此,英偉達向記憶體供應商提出了遠高於JEDEC(聯合電子設備工程委員會,制定記憶體行業標準的國際組織)HBM4規範的pin速度要求。

帶寬提升的計算:HBM4將每個堆疊的總線寬度翻倍(相比HBM3e),同時提升數據傳輸速率到10.8 GT/s(Giga-Transfers per Second,每秒十億次傳輸),總帶寬約為上代Blackwell(8 TB/s)的2.75倍。

正是因為英偉達要求的pin速度超出行業標準規範,三星和SK海力士都面臨達標困難,初批出貨可能落在接近20 TB/s。Micron(美光,全球三大記憶體廠商之一)基本已經掉隊,大概率缺席Rubin的供應名單。單顆GPU的電晶體數量從上代的210億增加到336億,增長約60%。

3)Vera CPU:英偉達時隔多年回到自研ARM核心

Vera CPU不是配角。英偉達在這顆CPU上投入了相當大的力氣。

核心數量從Grace(上代CPU名稱)的72個增加到88個。這裡有個工程細節:物理上列印了91個核心,留出3個作為冗餘。晶片製造過程中,矽晶圓上的缺陷無法完全避免(可以想像晶圓是一塊面積約300mm的矽片,上面刻了數十億個零件,偶爾會有幾個區域出現材料雜質或刻蝕失誤)。多打3個核心,意味著即使有2-3個不良核心,整顆晶片依然能湊出88個良好核心出貨,而不必報廢整片晶片,顯著提升良品率。

這次重新啟用了英偉達自研的ARM核心設計"Olympus",並加入了類SMT(Simultaneous Multi-Threading,同步多線程,俗稱超線程)技術。SMT的原理:CPU核心在處理指令時,經常需要停下來等記憶體把數據搬來(記憶體延遲約100納秒,而CPU執行一條指令只需0.3納秒,相當於CPU在等待期間本可以執行約333條指令)。SMT趁這個等待空檔,讓核心去處理另一個線程的任務,相當於88個工人在等材料的間隙各自多接了一項活,總處理線程數達到176個。Grace CPU曾經關閉了SMT,Vera重新打開。

當然,英偉達官方技術部落格稱其為Spatial Multithreading,不是通常意義上的 SMT/Hyper-Threading。區別在於:它通過 physically partitioning resources instead of time-slicing 來實現兩線程/核。這與傳統 SMT 類似地提升線程並發,但實現方式不是普通時間片共享。

內部緩存L3(Level 3 Cache,三級緩存)擴大了40%至162 MB。緩存是什麼?晶片內部有一個從快到慢、從小到大的存儲體系:寄存器(最快最小,核心內部)→ L1緩存 → L2緩存 → L3緩存 → 主記憶體(最慢最大,晶片外部)。越靠近核心的存儲訪問越快但越貴,L3是最後一級片上緩存,相當於工廠樓層里的暫存貨架——貨架越大,工人出庫房取貨的次數越少,整體效率越高。

記憶體容量的數字關係:Vera支持8個SOCAMM(SO-DIMM for Compute Accelerator Memory Module,計算加速器專用記憶體插槽模塊)插槽。最大配置:8×192 GB = 1,536 GB ≈ 1.5 TB,是上代Grace最大576 GB的約2.6倍。記憶體總線寬度從512位翻倍到1,024位——"總線寬度"可以理解為記憶體和CPU之間的"馬路車道數",從512車道變成1,024車道,吞吐量自然翻倍。傳輸速率9,600 MT/s,總帶寬約是Grace的2.5倍。

與Rubin GPU之間的C2C(Chip-to-Chip,晶片到晶片直連)帶寬翻倍到1.8 TB/s,同時支持了PCIe 6(Peripheral Component Interconnect Express Generation 6,第六代高速外設互聯標準,CPU與網卡、存儲等外設的通用接口,每條Lane單向速度64 Gbps)和CXL 3.1(Compute Express Link 3.1,計算加速鏈路,術語表詳解)。Vera的電晶體數量是Grace的2.2倍,達到227億。

4)NVLink 6 Switch:帶寬翻倍,靠的不是更快的線,而是更聰明的用法

NVLink 6 Switch晶片本身的帶寬和上代相同,都是28.8 T(Tbps,每秒萬億比特)。帶寬翻倍的秘密在SerDes(Serializer/Deserializer,串行器/解串器,術語表詳解)層:

SerDes速度翻倍與埠減半的權衡:每條物理差分對(Differential Pair,DP,術語表詳解)的傳輸速率從NVLink 5的200 Gbps提升到NVLink 6的400 Gbps,同時埠數量減半。數學上:200 Gbps × 2倍埠 = 400 Gbps × 1倍埠——總帶寬不變,但整顆晶片無需擴大面積,設計複雜度維持不變,高帶寬交換功能繼續保留在單顆Die里。

布局和上代相同:晶片兩側負責I/O,中央是邏輯與Crossbar(交叉開關矩陣,術語表詳解),還集成了3.6 TFLOPS的SHARP(Scalable Hierarchical Aggregation and Reduction Protocol,可擴展層級聚合縮減協議,術語表詳解)網路內計算加速。

機架內NVSwitch數量翻倍到36顆,分布在9個交換托盤裡,每托盤4顆。交換托盤本身徹底去掉了飛線電纜——所有NVLink信號走PCB,這是與上代Blackwell NVLink 5交換托盤的最大不同。唯一保留飛線的地方是交換托盤與SMM(System Management Module,系統管理模塊)之間的PCIe連接,因為PCIe頻率低,對材料要求寬鬆,飛線在這裡風險可控。

5)ConnectX-9和BlueField-4:一顆晶片,兩種身份

ConnectX-9(CX-9)從外觀看是ConnectX-8的疊代版本:總帶寬相同(800G),PCIe 6接口支持48條Lane。

48條Lane意味著什麼:PCIe 6每條Lane單向速度64 Gbps,48條Lane雙向總帶寬 = 48 × 64 Gbps × 2方向 ≈ 6 TB/s的接口帶寬,足夠對接1塊800G網路埠。

真正的變化在協議支持——CX-8隻能在InfiniBand模式下跑800G以太網,CX-9在以太網模式下同樣支持800G,具體實現是4×200G PAM4串行鏈路。PAM4(Pulse Amplitude Modulation 4-level,四電平脈衝幅度調製)是一種在相同時間內傳遞更多比特的調製技術——普通信號只有高/低兩種電壓,代表0和1;PAM4使用四種電壓等級(比如0V/0.33V/0.67V/1V),分別代表00/01/10/11,每次傳輸2個比特而不是1個。好比莫斯碼里不只有點和劃(2種),而是增加到4種符號,單位時間資訊密度翻倍。

BlueField-4(BF-4)的設計思路更有意思:不單獨流片(Tape-out,將晶片設計文件交給晶圓廠製造的過程,每次成本動輒數千萬美元),而是直接復用上代Grace CPU的Die(裸晶片),旁邊封裝一顆CX-9,打包成一個DPU。板載128 GB LPDDR5x(Low Power Double Data Rate 5x,第五代加強版低功耗雙倍數據速率記憶體)記憶體,是上代BlueField-3的4倍,但帶寬只有普通Grace的一半。BF-4還可以作為存儲控制器使用,最多4顆BF-4可以構成一個CMX存儲系統。BF-4有個現實問題:貴。多數超大規模客戶會用自研的輕量DPU或直接換成一塊CX-9來替代。

5.5)一個值得注意的架構回退:NIC Direct被取消

上一代GB300引入了一項叫"NIC Direct"的特性——讓B300 GPU可以通過PCIe直接與ConnectX-8網卡通信,繞過Grace CPU,降低後端網路延遲。換句話說,CX-8同時有兩個"主人":Grace CPU和B300 GPU。

到了VR NVL72,這個設計被回退到與GB200相同的架構:Rubin GPU沒有足夠的PCIe帶寬同時直連兩顆CX-9,因此必須先通過C2C連接Vera CPU,再由Vera通過PCIe 6連接CX-9。CX-9重新只有一個主人——Vera CPU。

這是一個架構層面的退步,意味著Scale-out網路通信的延遲會比GB300時代略有增加。英偉達選擇接受這個取捨,原因是每GPU從1顆800G網卡翻倍到2顆——帶寬翻倍的優先級高於單鏈路延遲優化。

6)Spectrum-6:英偉達的超大規模以太網交換機,光纖長在晶片上

Spectrum-6不在VR NVL72機架內部,但它是構建超大規模Scale-out集群的關鍵一環。

設計結構與Spectrum-5相同:一顆主交換晶片,周圍8顆I/O小晶片(Chiplet)。

102.4 T帶寬的計算方式:512條SerDes × 每條200 Gbps = 102,400 Gbps = 102.4 Tbps = 102.4 T

最大的變化是引入了CPO(Co-Packaged Optics,共封裝光學):32個光學引擎(OE,Optical Engine)直接封裝在晶片載板上,每個引擎提供3.2 T帶寬,光纖連接器可直接插拔。32×3.2 T = 102.4 T,數字自洽。

交換機產品形態分兩種:SN6810是單晶片版本(102.4 T);SN6800是四晶片版本(4×102.4 T = 409.6 T,512個800G埠),內部集成了光纖打散(Fiber Shuffle,術語表詳解)。非CPO版本SN6600也會推出,SemiAnalysis預計SN6600市場占有率更高,因為CPO在數據中心現場部署和維護的經驗還需積累。

前面六節拆解了Vera Rubin平台的六顆晶片——它們各自是什麼、做什麼、比上代強在哪裡。但晶片只是原材料。接下來的問題是:這些晶片怎麼被裝到一起,裝在一起之後的供電、散熱、信號傳輸又如何解決?從第7節開始,我們進入機架的物理工程層面。

7)計算托盤從"拼電纜"變成"插模塊",組裝時間砍掉97%

這是整篇報告裡最有工程感的變化。

上一代Blackwell GB200的計算托盤內部有大量飛線電纜(Flyover Cable)——這是一種把信號從一塊板子"飛架"到另一塊板子的柔性細線纜,細、密、脆,狀態接近在密封盒子裡塞滿了麵條。輕微刮蹭就可能斷裂,組裝一個托盤要兩個小時,是良率和返工的主要痛點。

Vera Rubin NVL72的解法是徹底拆掉麵條:把所有內部連接改成板對板連接器(Board-to-Board Connector,B2B Connector),通過一塊叫做Midplane(中間背板)的電路板把前後模塊橋接在一起。每個功能模塊就像積木一樣,按位置插進去,信號自然導通,不需要任何人工布線。

組裝時間從兩小時降到五分鐘,降幅97%。

代價是PCB材料必須全面升級——原來靠飛線繞過去的信號完整性問題,現在要靠更貴的銅箔和介電材料扛住。ConnectX-9網卡的物理位置也移動了:

為什麼要移動CX-9的位置?原先CX-9在托盤後半部,以太網信號(200 Gbps/Lane的高頻信號)要走500mm才能到達前面板的OSFP光模塊籠口,這麼長的距離在PCB上衰減太大,必須用飛線電纜傳輸。把CX-9挪到前半部後,以太網信號只走短距離(接近籠口),而PCIe 6信號(64 Gbps/Lane,頻率低得多,約是以太網信號的1/3)走更長的路從Midplane傳過來。頻率越高衰減越快,所以讓高頻信號走短路、低頻信號走長路,這是整個重新布局的物理依據。

8)六個模塊,一個托盤——VR NVL72計算托盤的內部解剖

在介紹每個模塊之前,先把整機架的層級結構說清楚。

整個VR NVL72機架由兩類托盤組成:18個計算托盤和9個NVLink交換托盤。計算托盤是機架的主體,18個完全相同;NVLink交換托盤負責機架內72顆GPU的全互聯,每個托盤裝4顆NVSwitch晶片,9個合計36顆。

每個計算托盤內部由六類模塊拼合而成:後半部是2塊Strata模塊,每塊裝2顆Rubin GPU和1顆Vera CPU,因此每個托盤共有4顆GPU和2顆CPU;前半部是4塊Orchid模塊,每塊裝2顆CX-9網卡,每個托盤共有8顆CX-9;托盤中央垂直插著1塊Midplane;前部中央還有1塊BlueField-4模塊、1塊PDB電源分配板、1套SMM系統管理模塊。

把這個結構摺疊成整機架的晶片總數:18個計算托盤×4顆GPU=72顆Rubin GPU(這是NVL72名字的來源);18×2顆CPU=36顆Vera CPU;18×8顆CX-9=144顆CX-9;18×1顆BlueField-4=18顆;36顆NVSwitch來自9個交換托盤各4顆。

理解了這個層級之後,再看每個模塊的具體功能就有了坐標感。

VR NVL72計算托盤由六類模塊組成。

機箱後半部:Strata模塊(×2)

相當於上代Blackwell的Bianca板。每塊承載2顆Rubin GPU、1顆Vera CPU和8個SOCAMM記憶體插槽。整塊板的功耗高達約4,800瓦。

4,800瓦的構成:2顆Rubin GPU(最大2×2,300W=4,600W)+ 1顆Vera CPU(約200W)≈ 4,800W。開啟Power Sloshing(功率共享)時,GPU滿載時每顆分配2,300W,CPU壓縮到200W;GPU負載降低時,CPU可以臨時獲得更多功率,減少GPU等待時間。

機箱前半部:Orchid模塊(×4,左右各2塊疊放)

Orchid是VR NVL72新引入的模塊,每塊安裝2顆CX-9網卡、2個800G收發器籠口和1個E1.S SSD插槽(一種小型企業級固態硬盤規格)。4塊Orchid合計8顆CX-9,對應每顆Rubin GPU擁有1.6 T的Scale-out帶寬(8顆CX-9×800G÷4顆GPU=1.6 T/GPU)。

一個存儲拓撲的變化值得注意:在GB200/300時代,本地NVMe存儲由BlueField-3管理;VR NVL72將本地NVMe存儲的物理位置移到了Orchid模塊上,由CX-9負責管理。這是一個從DPU向NIC遷移存儲控制權的架構級變更。

居中垂直安裝:Midplane(中間背板,×1)

無線纜化設計的核心樞紐。它的兩面各有一排Paladin HD2(安費諾專為高速差分信號設計的板對板連接器系列)連接器:一面對接Strata模塊,另一面對接前部所有其他模塊。

前部中央區域:BlueField-4模塊(×1)、PDB(Power Distribution Board,電源分配板,×1)、SMM(×1套)

BlueField-4(內部為Grace CPU Die + CX-9,注意不是Vera)負責前端網路和KV Cache存儲管理。PDB負責將50V降至12V分配給前部各模塊。SMM(System Management Module,系統管理模塊)包含TPM(Trusted Platform Module,可信平台模塊,負責硬體級安全認證)和DC-SCM(Datacenter Secure Control Module,數據中心安全控制模塊),大多數超大規模客戶會替換為自研版本。

內部有一套液冷分液管路,各模塊的冷板通過MQD(Micro Quick Disconnect,微型快速接頭,口徑約6-8mm)連接到管路,冷卻液從機箱後左側經UQD(Universal Quick Disconnect,通用快速接頭)進入,帶走各模塊熱量後從後右側流出。

9)電源架構升級:從"12V進托盤"變成"50V直達Strata"

供電方式的變化比看起來重要得多。

上一代Blackwell的Bianca板,先由機架電源架把高壓交流電(AC,Alternating Current,家用插座里流動的那種周期性變向的電)轉換成12V DC(Direct Current,直流電,方向固定),再送進托盤。進了托盤後,晶片旁邊的VRM(Voltage Regulator Module,電壓調節模塊,將中間電壓精確降低到晶片工作電壓約1V的精密電源模塊)從12V降到1V。

VR NVL72改變了這個鏈條:50V直流現在直接從機架內部Busbar(母排,一種厚銅排,用於傳輸大電流)通過卡扣接入Strata模塊,在Strata板上先經IBC(Intermediate Bus Converter,中間總線轉換器,將50V降至12V的功率轉換模塊)降壓到12V,再交給VRM降到1V。

為什麼要把高壓轉換點移進Strata板?純粹是電學上的損耗計算:

功率 = 電壓 × 電流。同樣傳輸4,800W的功率:

用12V傳輸:電流 = 4,800÷12 = 400A(安培)
用50V傳輸:電流 = 4,800÷50 = 96A

導線上的熱損耗 = 電流² × 導線電阻(物理定律P=I²R)。電流是400A vs 96A,損耗比是400²÷96² = 160,000÷9,216 ≈ 17倍。

結論:把50V→12V的轉換點前移到Strata板上,縮短了大電流(從12V開始才有400A)的傳輸距離,傳輸損耗大幅降低。

機架級別的Busbar額定電流從上代的2,900A增加到5,000A以上。5,000A在導體裡流動產生的熱量(按I²R計算,5,000²=2,500萬是2,900²=840萬的約3倍)已足夠需要液冷散熱——Busbar本身需要冷卻液在旁邊循環。

機架內4個110kW電源架採用N+1冗餘設計:滿負荷220kW÷110kW=需要2個電源架,加1個備用=最少3個,英偉達配置了4個。

10)散熱從85%液冷升級到100%液冷,計算托盤裡的風扇被徹底拿掉

上一代GB300還有15%靠風冷(Air Cooling,空氣冷卻)。Vera Rubin NVL72是全液冷(Full Liquid Cooling)——托盤裡沒有風扇,每個功能模塊都有一塊冷板(Cold Plate)貼著發熱晶片,冷卻液在裡面循環帶走熱量。

需要指出的是,45°C進水溫度並非Rubin首創。Blackwell的Supermicro DLC-2系統已經能在40°C以上進水溫度下工作;Lenovo和HPE從2025年初就在討論100%液冷+45°C方案;HPE在2024年已發布工業冷卻系統。少數運營商(如Firmus)甚至在GB200上已經去掉了Chiller(冷水機)。英偉達在Rubin上是將這一趨勢正式化,而非技術突破。

Rubin GPU的冷板做了專項升級,叫做MCCP(Micro-Channel Cold Plate,微通道冷板)。要理解這個升級,先要搞清楚冷板的物理結構:

冷板內部長什麼樣,槽間距縮小有什麼用?

冷板是一塊金屬塊(通常是銅),內部加工了大量平行的流道——可以把它想像成一把倒扣的梳子,梳齒向下貼著發熱晶片,梳齒之間的縫隙就是冷卻液流動的通道。

槽間距(Slot Pitch)就是相鄰兩條梳齒之間的間距,也就是每條流道的寬度。Rubin GPU冷板的槽間距從150微米縮小到100微米(1微米=0.001毫米,150微米≈一根頭髮絲的直徑)。

槽間距越小,同樣面積內能容納的流道越多:

150μm間距:每毫米約6-7條流道
100μm間距:每毫米約9-10條流道

流道越多,冷卻液與金屬壁面的總接觸面積越大,就像換熱面積從一張餐巾紙變成了一塊海綿。

晶片封裝本身也做了升級:除了常規的Heat Spreader(導熱蓋,焊在晶片上方的金屬蓋,把晶片集中產熱均勻擴散到更大面積,原理就像鐵鍋能均勻傳熱),還新增了Stiffener(加強筋,焊在封裝邊緣的金屬框架,防止大面積晶片封裝在熱脹冷縮中翹曲變形,避免與冷板產生空隙導致散熱效率急劇下降)。

晶片與冷板之間夾了一層TIM2(Thermal Interface Material 2,二層熱界面材料):

熱界面材料的層次結構:

熱量從晶片Die傳到冷板的完整路徑:Die → TIM1 → Heat Spreader(導熱蓋)→ TIM2 → Cold Plate(冷板)→ 冷卻液。

TIM1
:Die與導熱蓋之間,通常是銦焊料或導熱膏,導熱係數約4-40 W/(m·K)
TIM2
:導熱蓋與冷板之間,Rubin用液態金屬銦基合金(Indium-based Alloy,銦是一種在室溫下保持液態的金屬),導熱係數約40-80 W/(m·K),是普通矽脂(約1-4 W/(m·K))的10-20倍

液態金屬的問題:銦在液態下會與銅發生化學反應,慢慢侵蝕銅面。解決方案是在所有銅接觸面電鍍金。

整機架TDP(Thermal Design Power,熱設計功耗)從Blackwell的120-140千瓦漲到180-220千瓦——大致相當於150台1.5匹家用冷氣同時全速運轉產生的熱量。每台CDU(Cooling Distribution Unit,冷卻分配單元)需要處理的熱量翻倍,CDU容量必須向3-6 MW升級。英偉達稱Rubin支持45°C進水溫度,理論上可以省掉機械壓縮機式Chiller(冷水機,用機械壓縮循環主動製冷的設備),改用更節能的Dry Cooler(乾冷塔,利用室外空氣自然冷卻,無需壓縮機,節能但受環境氣溫限制)。但報告指出大多數運營商目前仍保留Chiller以兼顧靈活性和冗餘。

冷板原來在L10(系統集成階段,將所有模塊裝入機架)才安裝,VR NVL72改為L6(PCBA板級加工完成後,PCBA=Printed Circuit Board Assembly,電路板焊接完成的狀態)就直接附著在模塊上,L10階段只需把完整模塊插進機架,進一步縮短現場裝配時間。

到這裡,計算托盤的物理層面——模塊怎麼拼、電怎麼供、熱怎麼散——已經講完。但72顆GPU坐在機架里,如果彼此之間不能高速通信,就只是72台獨立計算器。接下來四節(11-14)聚焦"網路":機架內部的GPU怎麼互聯(NVLink 6),信號走什麼材料(PCB升級),跨機架的集群怎麼組(CPO交換機),以及集群規模上限由什麼決定。

11)NVLink 6用了一個物理技巧讓帶寬翻倍,但不增加一根銅線

把NVLink Scale-up帶寬翻倍,常規思路就是銅纜數量翻倍——把背板里約5,000根銅線增加到約10,000根。這在工程上接近災難:更多線纜意味著更複雜的組裝、更高的故障概率,而Blackwell這一代5,000根線纜造成的可靠性問題還沒解決完。

英偉達的解法叫雙向SerDes(Simultaneous Bidirectional SerDes,同步雙向串行器/解串器):讓同一根銅線同時雙向傳輸信號。

雙向銅線通信是如何實現的?

想像兩個人在同一條管道里向對方喊話——兩邊的聲音在管道中間疊加在一起,每個人聽到的都是自己的聲音和對方聲音的混合。如何分辨出對方說的是什麼?

答案是:你知道自己剛才說了什麼,把"自己說的"從"聽到的混合聲"里減掉,剩下的就是對方說的。

電路實現這個過程的器件叫Hybrid(混合器,一種無源四埠耦合器):在收發兩端各裝一個混合器,混合器把本地發送信號的精確反相副本注入接收端電路,兩者疊加相消,理論上可以完美抵消本端回聲(Echo),剩下的就是對方發來的乾淨信號。這個過程叫Echo Cancellation(回聲消除)。

效果:同樣的銅線數量,帶寬翻倍。每個機架的NVSwitch從18顆翻倍到36顆,而銅線總數、連接器數量和每個連接器的差分對(DP)數量與上代完全相同。帶寬翻了一倍,銅線一根沒加。

12)PCB材料升級:一場圍繞"信號往哪裡跑"的材料戰

無線纜化設計把原來靠電纜承擔的高速信號路徑轉移到了PCB上。高速信號在PCB上跑的距離越長、頻率越高,能量損耗越大。這場損耗來自三個物理機制:

① 導體損耗(Conductor Loss):銅箔表面粗糙造成的電阻損耗。

高頻信號有個奇怪的物理現象叫趨膚效應(Skin Effect):直流電會均勻分布在導線的整個截面里流動,但頻率越高的交流電越會被"擠"到導線的表面流動,截面中心幾乎沒有電流。原因是高頻電流產生的交變磁場在導線內部感應出反向電流,把電流排斥到表面。

後果:電流只在極薄的表面層(10GHz時銅的趨膚深度約0.7微米)流動,如果銅箔表面粗糙,電流就要沿凹凸不平的路徑繞行,相當於路面坑窪的高速公路,電阻和損耗急劇增大。

解決方案:使用更光滑的銅箔。HVLP4(High-Velocity Low Profile 4,第四級超低輪廓銅箔)的表面粗糙度(Rz)約0.5微米,相比普通銅箔光滑了約12倍。

② 介電損耗(Dielectric Loss):PCB絕緣材料吸收高頻信號能量並以熱量散發。

PCB里的銅線嵌在絕緣介質(樹脂+玻璃纖維布,即CCL覆銅板)裡面。高頻信號傳播時,其周圍的電磁場會向絕緣材料"滲透",介質分子被高頻反覆極化(正負電荷被反覆拉開又合上),摩擦產熱,消耗了信號能量。Df(Dissipation Factor,損耗因子)就是衡量這種能量吸收程度的指標,Df越小越好。

石英布(Q glass,Quartz Cloth)的Df約為0.001,約是普通玻璃纖維布(Df約0.005)的1/5——相當於給電磁場的"泄漏通道"加了5倍的絕熱層。代價是加工難度高、良率低,成本高出數倍。

③ 幾何損耗(Geometry Loss):PCB上的過孔(Via)和換層引起的信號反射。

PCB有多層銅線(Rubin的NVLink 6 Switch板達32層),信號有時需要從這一層跑到另一層,必須通過過孔(Via)——一種在PCB上垂直鑽孔後填充金屬的導電通路,相當於樓宇里的樓梯。但過孔在高速信號看來是一個"突然的不連續點",像高速公路上突然出現的一個坑——信號在此處發生部分反射,反向傳回去的反射信號會干擾後續信號,造成損耗。

Rubin平台的材料升級方案:

升級項
上代規格
Rubin規格
解決的問題
信號層銅箔
HVLP2
Rz≈0.8μm
HVLP4
Rz≈0.5μm
減少導體損耗
電源層銅箔
標準厚銅箔
更厚銅箔
承載更大電流
主板CCL等級
M7
Df≈0.004
M8/M9
Df≈0.002-0.003
減少介電損耗
高端PCB總面積
基準值
增加約2.3倍
覆蓋全部新增模塊
爭議升級項
E-glass
Df≈0.005
Q glass石英布
Df≈0.001,待定
進一步減少介電損耗

PCB面積增加2.3倍的構成:GB300時代,高端PCB材料只覆蓋托盤後半部的Bianca板和NVSwitch板,前半部用普通材料。VR NVL72新增了4塊Orchid板(每塊約500mm長,PCIe 6信號傳輸距離最長)和1塊Midplane,全部採用高端材料,同時Strata板比Bianca板更大,高端PCB總面積增量主要來自Orchid板。

13)Scale-out組網出現了CPO交換機,這是英偉達GPU歷史上的首次商業部署

前兩節解決的是機架內部的信號傳輸問題——NVLink怎麼在銅線上翻倍帶寬、PCB材料怎麼抗住高頻信號的損耗。但一個機架只有72顆GPU。要把數十萬顆GPU連成集群,信號必須從銅線切換到光纖,從機架走向機房。

Scale-out(橫向擴展)指多個機架如何組成更大的GPU集群。

這代Vera Rubin首次引入CPO(Co-Packaged Optics,共封裝光學)交換機。

光模塊的演進歷史,以及CPO"切掉"了什麼:

數據中心兩台伺服器之間要用光纖傳信號,但晶片發出的是電信號,需要先轉換成光信號才能進光纖,到對端再轉回電信號。完成這個轉換的器件歷史上一直是插在交換機前面板上的可插拔光模塊(Pluggable Transceiver),像U盤一樣可以手動插拔更換。

CPO的做法是把光學引擎(OE,Optical Engine,包含雷射器、調製器、探測器的微型光電集成模塊)直接封裝進交換機晶片的基板上,信號不用離開封裝就完成電光轉換。相比可插拔模塊,功耗降低約70%(實現同等800G帶寬約5W vs 17W),成本降低約75%。

CPO還有一個隱性優勢:SN6800和Q3450等型號內置了Fiber Shuffle(光纖打散):

光纖打散是什麼?

在大型集群里,每顆GPU需要同時接入多個"網路平面"(Multi-plane,多平面,相當於多條獨立的高速公路,互不干擾)。傳統做法是在交換機外部放一個"光纖打散箱"(Shuffle Box)和密密麻麻的跳線,手動把從不同GPU來的光纖重新排列,連接到不同的交換平面。這就像一個巨型電話交換台,需要人工接線。

CPO的"內置光纖打散"是把這個交換台直接做進了交換機晶片的封裝里——來自一顆交換晶片某個埠的光信號,在封裝內部就被路由到對應的交換平面,從前面板出來的光纖已經是打散好的,無需外部跳線箱和複雜的手工布線。

可靠性數據:Meta在ECOC(European Conference on Optical Communications,歐洲光通信會議)大會上展示了CPO在1,500萬個400G埠設備小時內的運行結果,約等於15台CPO交換機連續運行約11個月,結果令人鼓舞,但距離大規模現場部署所需的置信度還有距離。

14)集群規模怎麼算:一個簡單公式背後的組網邏輯

理解為什麼VR NVL72每顆GPU配備兩個獨立的800G埠(而不是一個1.6T埠),需要理解一個關鍵公式:

在L層交換架構、每台交換機k個埠的網路里(假設下行和上行各占一半埠):

最大GPU數量 = (k/2)^L

需要注意,這裡的k是單顆交換ASIC的邏輯埠數,而非交換機箱體的物理埠數。例如Q3400雖然箱體有144個800G埠,但內部實際由4顆Quantum-3 ASIC組成,每顆ASIC等效約36個埠——箱體本身已經是一個4平面配置。

用單平面的邏輯埠數舉例:

邏輯埠配置
平面數
三層網路最大GPU數
說明
每GPU 1個1.6T埠
1平面
(k/2)³ ≈ 93,312
兩個800G埠合併成"一個"1.6T邏輯埠
每GPU 2個獨立800G埠(接2台不同交換機)
2平面
2×93,312 = 186,624
兩個埠各接不同交換機,集群規模直接翻倍

原文指出,如果使用512埠的SN6800交換機,2層網路即可支持131,072顆GPU,3層網路理論上可達3,355萬顆GPU。

關鍵結論: 把兩個800G埠分別接到兩台不同交換機(雙平面,Dual-Plane),集群可擴展規模直接翻倍,而不只是帶寬加倍。這是VR NVL72每GPU配置2×800G而非1×1.6T的真正原因。SN6800和Q3450內置光纖打散,讓雙平面甚至四平面成為標準操作,而無需在交換機外面再搭一套打散系統。

超大規模客戶的具體組網選擇正在分化:Meta計劃用Broadcom Tomahawk 6的Minipack-4交換機構建Non-Scheduled Fabric集群,NIC到TOR層用1.6T AEC(有源電纜)連接;xAI則計劃建設單平面網路,在葉、脊、核心各層全面使用1.6T AEC替代光收發器。1.6T AEC預計在2026年下半年進入規模量產。

15)ICMS / CMX:英偉達在GPU和硬盤之間塞入了第三層存儲

網路解決了GPU之間"怎麼通信"的問題,但推理場景還有一個瓶頸不在通信上,而在存儲上。

大語言模型推理時會產生大量KV Cache(Key-Value Cache,鍵值緩存):

KV Cache是什麼,為什麼它會讓記憶體撐爆?

現代大語言模型的核心機制叫Attention(注意力機制):每當模型生成一個新詞,它需要"回顧"之前所有詞,計算每個歷史詞與當前詞的相關性。為了不在每次生成新詞時都重新計算歷史詞的向量,模型會把每個詞的中間計算結果(即Key向量和Value向量,K和V)保存下來,下次直接調用——這就是KV Cache。

規模有多大?以 Llama-3 70B 這類模型為例,100萬 token 的長上下文,KV Cache 總量可以達到數百 GB 級別,接近甚至超過單顆 GPU 的 288GB HBM 容量。

現有存儲層級的困境:

存儲層級
設備
帶寬
容量
延遲
問題
G1
GPU HBM
22 TB/s
288 GB
~納秒
容量不夠
G3
Host DRAM(DDR5)
~500 GB/s
TB級
~百納秒
被單台伺服器限制
G3.5(新增) 本地SSD(NVMe E1.S) ~數十GB/s 數TB ~微秒 KV Cache專用層
G4
網路共享存儲
PB級
~毫秒
延遲太高

英偉達的ICMS(Inference Context Memory Storage,推理上下文記憶體存儲,正式發布時可能改名CMX,Context Memory eXtension)在G3和G4之間插入了新的G3.5層,專為KV Cache設計。BlueField-4充當G3.5層的控制器,通過NVMe-oF(NVMe over Fabrics,基於網路的NVMe,術語表詳解)和RDMA(Remote Direct Memory Access,遠程直接記憶體訪問,術語表詳解)管理KV Cache的高速搬運,不占用GPU和CPU的計算資源。

報告特別提示:業界對ICMS帶來的SSD出貨增量存在嚴重高估,SemiAnalysis推算實際需求遠小於市場傳言。存儲生態里可能受益的廠商:Weka、DDN、Dell、NetApp、VAST Data。

前面15節覆蓋了Vera Rubin平台的全部技術層面:晶片、組裝、供電、散熱、網路、存儲。最後四節轉向商業和生態問題:客戶能定製什麼(16)、花多少錢(17)、英偉達在推理端的下一步棋(18)、以及誰在這場升級里掙到了錢(19)。

16)超大規模客戶定製:英偉達限制了多少,放開了哪些

GB300時代,計算托盤的前半部(網卡、電源、管理模塊)基本上每家超大規模客戶都有獨特設計,Amazon甚至在GB300里用的是ConnectX-8而非標準配置。

VR NVL72的設計收緊了這個空間。無線纜化和模塊化設計帶來一個副作用:定製模塊必須符合英偉達規定的Form Factor(外形尺寸規範,包括長寬高、連接器位置、接口類型的標準化規定),才能正確對接Midplane上的Paladin HD2連接器和內部管路。

允許定製的模塊只有三類:

模塊
英偉達默認
客戶替換選項
PDB(電源分配板)
標準50V→12V方案
自研電源架構
BlueField-4
BF-4 DPU
自研DPU / 純CX-9
SMM(系統管理模塊)
標準管理方案
自研管理方案

Strata模塊和Orchid模塊基本沒有定製空間——那是英偉達自己的核心領地。Amazon為VR NVL72開發了特殊的JBOK/Nitro Box版本網卡,走的是自家Nitro卡(Amazon自研的網路與安全加速晶片,繞過軟體層直接處理網路和存儲I/O)路線。

17)TCO對比:Rubin比AMD MI4XX貴,但英偉達用實際推理性能數據反擊

資本支出(CapEx,Capital Expenditure,買硬體的一次性花費)對比:

系統
相對成本/GPU
GB300 NVL72
基準
VR NVL72
約+45%
AMD MI4XX Helios
約+14-15%(相對GB300);約-12%(相對VR NVL72)

但TCO(總擁有成本)= CapEx + OpEx(Operating Expenditure,運營支出,電費、運維等持續性費用),不只是買硬體的錢。

英偉達的記憶體直采對沖機制——一個容易被忽略的TCO結構性優勢:

VR NVL72採用SOCAMM標準化記憶體插槽,英偉達直接向記憶體供應商採購SOCAMM模塊,能以"VVIP"定價簽訂長期協議。這意味著英偉達把記憶體漲價風險從客戶端轉移到了自身——報告稱英偉達扮演的角色相當於"AI央行",為所有客戶對沖DRAM價格波動。

相比之下,AMD暴露度大得多。AMD Helios機架的DRAM總用量約是英偉達的2倍,其中LPDDR5由AMD採購,但DDR5由機架組裝商/ODM自行採購。AMD只能對沖LPDDR5部分的價格,DDR5部分完全暴露在記憶體漲價周期中。SemiAnalysis的AI Memory Model預測2026年第二季度LPDDR5和DDR5合約價格將顯著上漲——這對AMD系統TCO的衝擊遠大於英偉達。

SemiAnalysis自己的InferenceX基準測試給出了一個戲劇性數字:

在Deepseek R1推理任務(8K輸入token,1K輸出token,100並發)下:B300(Blackwell Ultra,上一代)實際吞吐量 ≈ AMD MI355的6.3倍B300的TCO ≈ AMD MI355的1.75倍性能/TCO比:B300優於MI355約(6.3÷1.75)≈ 3.6倍

兩款晶片的FP8峰值算力相近(B300:4,500 TFLOPS;MI355:5,000 TFLOPS),規格表差距僅10%,實際推理性能差距卻接近6倍。原因是MFU(Model FLOPs Utilization,模型FLOPs利用率,實際性能÷理論峰值)的差異:英偉達通過CUDA(Compute Unified Device Architecture,英偉達統一計算設備架構,歷經20年積累的GPU編程平台和軟體生態)生態積累了遠高於AMD ROCm(Radeon Open Compute,AMD的GPU計算平台,起步晚)的實際利用率。規格表數字相近,但把規格錶轉化成真實產出的軟體效率截然不同。

功耗方面:

配置
GPU TDP
整機架TDP
特點
Max-P(Maximum Performance,最大性能)
2,300W
220 kW
絕對性能優先,效率下降
Max-Q(Maximum Efficiency,最大能效)
1,800W
~180 kW
能效最優,運營成本比AMD MI4XX低約20%

兩檔是軟體可調的功率上限,相同硬體,不同設置。晶片級看,Max-P比Max-Q多消耗約28%的電(2,300÷1,800≈1.28);但在整機架級(包含NVSwitch、網卡等固定功耗),實際功耗增幅約為20%——因為機架內不受Max-P/Q影響的組件稀釋了差距。而實際算力增益遠小於20%——高功率狀態下的邊際收益遞減明顯,多用20%的電,換來的算力增益可能只有5-10%。

18)Groq技術將以"LPU解碼機架"形式亮相?

2025年平安夜,英偉達與AI晶片初創公司Groq達成技術授權協議。Groq由Jonathan Ross於2016年創立,Ross被廣泛認為是Google TPU的發明人。Groq的核心產品是LPU(Language Processing Unit,語言處理單元),一種專為AI推理設計的晶片,設計哲學與GPU截然不同——GPU是通用並行引擎,LPU則把所有晶片面積押注在推理的速度上。

為什麼英偉達需要一種完全不同於GPU的晶片技術?要回答這個問題,先要理解大模型推理的內部分工。

Prefill(預填充階段):模型接收到用戶輸入後,一次性並行處理所有輸入token(文字單元)。計算密集型,FLOPS是瓶頸。影響TTFT(Time To First Token,首字延遲,從發出請求到收到第一個輸出字符的時間)。

Decode(解碼階段):模型逐個生成輸出token:

自回歸(Autoregressive)生成是什麼意思?

大語言模型在生成文字時,每次只生成一個token,然後把這個新生成的token加入到"已有文字"里,再預測下一個token——就像寫文章時,每寫完一個字,都要重讀一遍已經寫的所有字,再決定下一個字寫什麼。這個"每次只生成一個、下一個依賴前面所有"的過程就叫自回歸。

後果:Decode不能並行——必須等第1個token生成完,才能生成第2個。這是Decode成為記憶體帶寬瓶頸的根本原因:每次生成一個token,都需要把整個模型的參數(70B模型約140GB數據)從HBM里加載一遍,而實際只做了極少量計算,絕大部分時間在等待記憶體讀取。

影響用戶體驗的指標是TPOT(Time Per Output Token,每輸出token延遲,決定"打字速度"),通常在10-100毫秒/token之間。

英偉達拿到Groq技術授權後,SemiAnalysis預測:英偉達將在GTC 2026發布基於LPU架構的專用解碼機架,每機架256顆LPU,採用三星4nm製程,跳過第二代直接上第三代。

LPU的核心差異:用大量片上SRAM(Static Random Access Memory,靜態隨機存取存儲器)代替HBM。SRAM和DRAM(HBM用的是DRAM)的區別:

SRAM vs DRAM:速度與成本的根本取捨

DRAM(動態RAM):每個存儲單元 = 1個電容 + 1個電晶體。電容會慢慢漏電,必須定期"刷新"(重新充電)才能保持數據,這引入了延遲。

SRAM(靜態RAM):每個存儲單元 = 6個電晶體,形成一個"鎖存器",不需要刷新,只要有電就一直保持數據。速度極快,延遲約1納秒(DRAM約100納秒,慢100倍),但每個單元占6個電晶體 vs DRAM的1個,面積是DRAM的6倍以上,成本也高出很多。

Groq LPU更像是把「高速緩存優先」的思路放大到了推理晶片層面,用更強的片上存儲與更低延遲去換decode速度;但容量受限、面積昂貴、成本更高。

另一條平行產品線是CPX:專為Prefill設計的加速器,最初計劃用GDDR7(Graphics Double Data Rate 7,圖形專用記憶體,成本低、無需2.5D封裝)降低成本,後隨DDR價格上漲,英偉達也在探索HBM版CPX。CPX最初計劃集成在VR NVL72機架內部,後改為獨立機架部署,允許超大規模客戶獨立擴展Prefill和Decode容量,減少故障域(Failure Domain,一次故障影響的系統範圍——兩個功能分離部署,一個出問題不會拖垮另一個)。

三件套推理工廠的最終形態:

用戶請求進來 → CPX機架:一次性並行處理全部輸入(讀題快)
結果交給 GPU機架:兼顧訓練和推理,均衡處理
輸出由 LPU機架:逐字生成,極低延遲(逐字答題快)
三類硬體各守一段流水線,整體效率最大化

19)供應鏈格局:這場機架升級里,哪些公司在贏

安費諾(Amphenol):連接器領域的最大贏家

VR NVL72計算托盤裡最核心的連接器供應商。PaladinHD2(Paladin High Density 2,安費諾專為高速差分信號和大電流混合布局設計的板對板連接器系列)幾乎壟斷了Strata-Midplane-Orchid之間的所有內部互聯。無線纜化設計非但沒有損害安費諾,反而把原來分散給多家電纜供應商的份額集中到了連接器上,單台價值量顯著提升。

高端PCB材料商:量價雙升

PCB總面積比GB300增加約2.3倍,全部採用M8/M9級CCL和HVLP4銅箔,是面積增量疊加材料升級的雙重驅動。石英布(Q glass)如果最終被採用,對應供應商將獲得額外增量,但目前尚存不確定性。

散熱:液冷設備全產業鏈

QD供應商
(Colder Products Company、Danfoss、Staubli、Parker Hannifin):流量增大→接頭口徑升級→ASP(Average Selling Price,平均售價)提升
冷板供應商
(AVC、Delta、Boyd、CoolIT、Auras):MCCP升級+鍍金處理→單件價值量提升
CDU供應商
(Delta、Schneider、Vertiv、nVent):單機架熱密度翻倍→CDU容量向3-6 MW升級
乾冷塔/絕熱冷卻塔
(SPX Technologies、BAC、Evapco):Chiller需求長期下滑,乾冷塔受益
Chiller供應商
(Johnson Controls、Carrier、Trane):中長期面臨需求壓力

電源半導體

單托盤功耗從約3,000W(Bianca)跳到約4,800W(Strata),VRM數量和功率等級同步提升。5,000A液冷母排帶來高電流連接件新需求,TE Connectivity等廠商受益。

組裝:ODM自動化壁壘

只有富士康(Foxconn)、廣達(Quanta)、緯創(Wistron)三家ODM(Original Design Manufacturer,原始設計製造商)具備Rubin計算托盤的L10自動化產線能力:

L10自動化的門檻是什麼?工業機械臂必須能精確完成Paladin HD2板對板連接器的盲插(Blind Mating,無法目視對準、完全依靠機械導引結構完成的連接器插合,類似插頭在黑暗中摸索插入插座)——公差在毫米級以內,同時完成MQD液冷快插不發生泄漏。這需要專門的夾具(Fixture,固定工件的精密工裝)、視覺定位系統和力反饋控制,是純靠經驗積累而非買設備就能複製的能力壁壘。

其他ODM要麼外包給這三家,要麼手動組裝。在百萬台規模的部署里,每台5分鐘 vs 每台20分鐘的效率差距會持續放大。

插播讀者群,再講技術術語:

GTC2026開幕在即硬核拆解VeraRubin英偉達如何把整個機架變成一台機器
接下來是術語圖譜:從一顆晶片到一個數據中心集群

沿著「晶片→板子→托盤→機架→集群」這條物理鏈條,逐層理解術語。每一層都有自己的核心問題,每一層的術語都在解決那個層次的問題。

第一層:晶片本身——算什麼,怎麼算得更快

GPU(Graphics Processing Unit,圖形處理器):本來用來渲染遊戲畫面,因為能同時執行海量並行計算,成為AI訓練和推理的主引擎。CPU有少量(幾十到幾百個)複雜核心,擅長複雜串行邏輯;GPU有數千個簡單核心,同時做大量重複計算(比如矩陣乘法:把兩個1000×1000的數字表格對應元素相乘再相加,GPU可以同時計算所有格子)。Rubin是英偉達最新一代GPU,單顆電晶體數量336億。

CPU(Central Processing Unit,中央處理器):伺服器的調度大腦。Vera是英偉達專為配套Rubin GPU設計的ARM架構CPU,88核、176線程,電晶體數量227億。

Die(裸晶片):晶圓(Wafer,一張直徑約300mm的圓形矽片,上面同時製造幾百顆晶片)切割後的單顆晶片實體。Die越大,製造中隨機出現的缺陷越可能落在這顆Die上,良品率(Yield,合格品/總生產數)越低。

Chiplet(小晶片):把晶片功能拆成多顆小Die分別製造,再通過先進封裝(如2.5D封裝,把多顆Die並排放在一塊高密度轉接板上)集成。好處:每顆小Die可以選用最適合自己功能的工藝節點(計算Die用先進3nm,I/O Die用成熟6nm,混搭使用),降低成本,提升良品率。Rubin GPU和Vera CPU都採用Chiplet架構,其中I/O功能(SerDes)拆成獨立Chiplet。

SM(Streaming Multiprocessor,流式多處理器):GPU內部的基本計算工廠,包含數十到上百個CUDA Core(基本計算單元)以及Tensor Core(專用矩陣乘法單元)。Rubin有224個SM,每個SM內的Tensor Core寬度在FP4/FP8下翻倍。

Tensor Core(張量核):英偉達從Volta架構(V100,2017年)起引入的專用矩陣乘法加速單元,專門處理AI計算中最核心的GEMM(General Matrix Multiply,通用矩陣乘法)操作。一次處理一個小矩陣的所有乘加運算,吞吐量遠超普通Core。隨精度降低而吞吐量倍增,這是FP4比BF16快8倍以上的硬體基礎。

SMT(Simultaneous Multi-Threading,同步多線程):讓一個物理CPU核心能同時執行兩個獨立線程,利用核心等待記憶體數據時的空閒窗口。Intel稱之為Hyper-Threading(超線程),原理相近。Vera CPU重新引入了此類技術。不過,官方將其稱為Spatial Multithreading,可理解為每核支持兩線程並發執行;從效果上看接近傳統SMT,但實現方式並不完全相同。

PFLOPS(Peta Floating Point Operations Per Second,每秒千萬億次浮點運算):1 PFLOPS = 10¹?次/秒。歷代英偉達GPU算力演進:A100(0.3 PFLOPS FP16)→H100(1 PFLOPS FP8)→B200(18 PFLOPS FP4密集)→Rubin(35 PFLOPS FP4密集,50 PFLOPS FP4自適應壓縮)。

FP4/FP8/BF16/TF32(浮點精度格式):"位寬"決定每個數字的精度和範圍。FP4隻能表示16種數值,BF16能表示65,536種,FP32約42億種。AI模型的權重參數在推理時被量化(Quantization,從高精度壓縮到低精度)到FP8或FP4,速度大幅提升,精度損失可控。

稀疏計算(Sparsity):神經網路權重矩陣中大量值為零,跳過零值計算可提升有效算力。歷史演進:A100的2:4結構化稀疏(強制每4個值有2個為零,算力翻倍但需重訓練,採用率極低)→Rubin的自適應壓縮(動態檢測真實零值,不改變模型權重,自動生效,精度無損)→AMD MI355X徹底放棄稀疏支持(節省晶片面積)。三條路代表三種不同哲學。

第二層:晶片的"記憶"——數據存哪裡,怎麼取得夠快

存儲體系有一個普遍規律:速度越快,容量越小,價格越貴。從片上SRAM到HBM到DDR到SSD,速度遞減、容量遞增、價格遞減。AI系統的設計本質上是在這條曲線上找平衡點。

HBM(High Bandwidth Memory,高帶寬記憶體):把多層DRAM晶片垂直堆疊,通過TSV(Through Silicon Via,矽通孔)實現層與層之間的電氣連接,直接封裝在GPU旁邊。

TSV(矽通孔)是如何工作的?

TSV字面意思就是"穿透矽晶片的導電通路":

在矽晶圓上用雷射或干法刻蝕(Dry Etching,用等離子體氣體轟擊矽表面,精確腐蝕出孔洞)垂直打孔,孔徑約5-10微米(頭髮絲直徑的1/10),深度貫穿整顆Die(通常50-100微米厚)
孔洞內壁先沉積一層絕緣材料(防止銅與矽直接接觸),再用電鍍(Electroplating,電化學方式在孔內填充銅)工藝填滿銅
晶片疊放時,下層晶片頂面的銅柱(Copper Pillar)對準上層晶片底面的焊球(Solder Bump),加熱回流焊接,兩層之間就有了導電通路

SOCAMM(SO-DIMM for Compute Accelerator Memory Module):英偉達為Vera CPU設計的標準化記憶體插槽,類似筆記本電腦的SO-DIMM(Small Outline Dual In-line Memory Module,小外形雙列直插記憶體模塊)但針對數據中心強化。英偉達統一採購SOCAMM記憶體,以"VVIP"定價簽訂長期協議,把記憶體價格風險從客戶端轉移到自身,同時為客戶提供對沖DRAM漲價的保護。

LPDDR5x(Low Power Double Data Rate 5x,第五代加強版低功耗雙倍數據速率記憶體):移動設備常用記憶體標準,功耗比伺服器DDR5低約30%。BlueField-4板載128 GB LPDDR5x,但帶寬僅為普通Grace的一半。"Double Data Rate(雙倍數據速率)"是指在時鐘信號的上升沿和下降沿各傳輸一次數據,相當於時鐘頻率相同的情況下傳輸速率翻倍。

KV Cache(Key-Value Cache,鍵值緩存):Transformer架構Attention機制的核心數據結構,保存每個已處理token的K(Key)和V(Value)向量,避免重複計算。隨上下文長度線性增長(100萬token ≈ 數百GB),是推理系統記憶體壓力的直接來源。

SRAM(Static Random Access Memory,靜態隨機存取存儲器):用電晶體鎖存器存儲數據,不需要刷新,速度更快,但面積更大、成本更高。CPU 的 L1/L2/L3 緩存和 GPU 的部分片上緩存都屬於 SRAM。Groq 這一路設計的特點,在於更強調片上 SRAM 與低延遲的數據流執行,因此更適合 decode 這類對單 token 響應速度敏感的推理場景;但代價是片上存儲容量受限、面積昂貴、成本更高。

CMX / ICMS(Inference Context Memory Storage,推理上下文記憶體存儲):英偉達在G3(主機記憶體)和G4(網路存儲)之間插入的KV Cache專用存儲G3.5層,用BlueField-4管理,通過NVMe-oF和RDMA高速搬運KV Cache數據。

NVMe-oF(NVMe over Fabrics,基於網路的NVMe):

NVMe-oF讓網路存儲"看起來像"本地存儲

NVMe(Non-Volatile Memory Express,非易失性記憶體快速接口)本是連接本地SSD的協議,延遲約100微秒。NVMe-oF把這個協議擴展到網路上(通過RDMA或TCP),讓伺服器訪問遠端SSD就像訪問本地SSD一樣——應用程序不需要修改,看到的還是"一塊本地磁盤",只是背後數據實際上在另一台伺服器的SSD里。延遲會增加網路延遲(約1-10微秒),但比傳統網路存儲協議(如NFS,延遲約毫秒級)快100倍。CMX架構用NVMe-oF把分布在多台伺服器上的SSD池化成一個統一的KV Cache存儲層。

第三層:板子和托盤——晶片怎麼連在一起,信號怎麼傳

PCB(Printed Circuit Board,印刷電路板):通過光刻和蝕刻工藝在絕緣基板上形成銅線路的電路板,現代高端PCB(如Rubin的NVLink 6 Switch板)多達32層,每層之間用過孔互聯,整體厚度約4-6mm。

CCL(Copper Clad Laminate,覆銅板):PCB的原材料,將玻璃纖維布浸入環氧樹脂固化後,兩面粘合銅箔而成。兩個關鍵參數:Dk(Dielectric Constant,介電常數,值越低,信號傳播速度越快,反射越少)和Df(Dissipation Factor,損耗因子,值越低,高頻信號能量損耗越少)。行業以Panasonic Megtron系列為等級參照:

CCL等級
Dk@10GHz
Df@10GHz
應用場景
FR4(普通)
~4.3
~0.020
消費電子
M7
~3.0
~0.004
Blackwell Bianca板
M8
~2.9
~0.003
Rubin Strata板
M9
~2.8
~0.002
Rubin NVLink Switch板
Q glass(石英布)
~2.5
~0.001
Rubin Orchid/Midplane(待定)

HVLP銅箔(High-Velocity Low Profile Copper Foil,超低輪廓銅箔):銅箔表面粗糙度分級,數字越大表面越光滑:Standard(Rz≈6μm)→ HVLP2(Rz≈0.8μm)→ HVLP4(Rz≈0.5μm)。表面越光滑,趨膚效應導致的導體損耗越低。

趨膚效應(Skin Effect):高頻交流電趨向在導體表面薄層內流動,而非整個截面均勻分布。原因:高頻電流產生的交變磁場在導線內部感應出反向電流,把電流排斥到表面。10GHz時銅的趨膚深度約0.7微米,銅箔表面越粗糙,這薄薄一層電流路徑越彎曲,電阻和損耗越大。

插入損耗(Insertion Loss,IL):信號從PCB一端走到另一端損失的功率,單位dB(分貝)。IL的三個來源:①導體損耗(與銅箔粗糙度和趨膚效應相關)②介電損耗(與CCL的Df相關)③幾何損耗(與過孔、換層相關)。典型要求:整個信道上的總IL應不超過約-20dB。

過孔(Via,垂直互聯通路):PCB不同銅層之間的導電通路,通過垂直鑽孔並填充銅實現,相當於樓宇里的電梯井。過孔在高速信號眼裡是一個"不連續點"——截面和幾何形狀突然變化,會引起信號反射(部分信號被彈回來),造成插入損耗。Via越多,高頻信號損耗越大。

差分對(Differential Pair,DP):高速信號傳輸的基本單元,由兩根走線組成,一根傳+信號,另一根傳完全反相的-信號。接收端用差分放大器計算兩者之差,將共模噪聲(兩根線上相同的干擾)自動抵消。1個DP = 2根導線 = 1條高速信號通道。NVLink背板里的約5,000"根"實際上是約5,000個DP,即約10,000根物理導線。

SerDes(Serializer/Deserializer,串行器/解串器):將晶片內部的並行數據流(多位同時傳輸)轉換為高速串行比特流(單DP依次傳輸)的電路,接收端逆向還原。內部包含:PLL(Phase-Locked Loop,鎖相環,生成高精度時鐘)、TX均衡(Pre-emphasis,發送端預補償)、CDR(Clock Data Recovery,時鐘數據恢復)、RX均衡(接收端均衡)。雙向SerDes在此基礎上增加Hybrid(混合器)和Echo Cancellation(回聲消除)電路。

飛線電纜(Flyover Cable):高密度細間距柔性互聯線纜,因"飛越"兩塊PCB之間空間而得名,優點是繞開了PCB長距離高速信號的IL限制,缺點是組裝時需要精確定位,柔性線纜容易受機械應力損傷,是Blackwell時代良率和返修的主要成本中心。VR NVL72全面改用板對板連接器取代。

板對板連接器(Board-to-Board Connector,B2B):連接兩塊PCB的直接物理接口,無需線纜。安費諾PaladinHD2(Paladin High Density 2)是VR NVL72的專用連接器,在極小空間內密集排布數百個高速信號觸點和大電流供電觸點。"盲插"(Blind Mating)指連接時無法目視對準、完全依靠機械導引結構引導觸點對準。

C2C(Chip-to-Chip,晶片到晶片互聯):同一封裝內或緊鄰封裝的晶片之間的超短距高速互聯,Rubin-Vera之間C2C帶寬1.8 TB/s,延遲納秒級,不走PCB。與NVLink(機架內,米級)、InfiniBand/Ethernet(跨機架,百米到千米)形成從近到遠的三級互聯體系。

PCIe 6(Peripheral Component Interconnect Express Generation 6,第六代高速外設互聯):CPU與GPU、網卡、SSD等外設的通用標準接口。演進:PCIe 3.0(8 GT/s/Lane)→ PCIe 4.0(16 GT/s)→ PCIe 5.0(32 GT/s)→ PCIe 6.0(64 GT/s,同時從NRZ編碼改為PAM4編碼,即每次傳輸2比特而不是1比特,速率翻倍)。

CXL(Compute Express Link,計算加速鏈路):建立在 PCIe 物理層之上的一致性互聯標準,可用於記憶體擴展、池化與共享。需要注意的是,在 Vera 與 Rubin 這對 CPU/GPU 組合里,英偉達官方重點強調的統一地址空間與一致性記憶體訪問,主要來自 NVLink-C2C。

第四層:機架內部組網——72顆GPU怎麼協同工作

NVLink(NVIDIA Link):英偉達自2016年引入的專有GPU互聯協議,專為取代PCIe在GPU間直傳數據而設計。演進:NVLink 1.0(160 GB/s雙向)→ 1.8 TB/s(NVLink 5,GB200時代)→ 3.6 TB/s(NVLink 6,Rubin時代,通過雙向SerDes實現帶寬翻倍而銅線數量不變)。

Scale-up(縱向擴展):通過NVLink把同一機架內的72顆GPU粘合成一個邏輯計算單元。Scale-up內GPU直接互相訪問顯存,延遲約幾百納秒,帶寬數十TB/s。當前機架級(72 GPU)規模受銅線信號完整性距離限制,跨機架的Scale-up需要光學NVLink(英偉達規劃中)。

NVSwitch(NVIDIA NVLink Switch ASIC):實現72 GPU全互聯的高基數交換晶片。

Crossbar(交叉開關矩陣):NVSwitch的核心電路,實現任意輸入直達任意輸出:

Crossbar是什麼?

想像一個有M個輸入、N個輸出的郵局:每個包裹進來時,可以發給任意一個輸出口,並且多個包裹可以同時發往不同目的地,互不阻塞(只要目的地不衝突)。Crossbar就是這樣一個"完全非阻塞交換矩陣",內部有M×N個交叉點,每個交叉點可以獨立開關,讓任意輸入直達任意輸出。

與"總線(Bus)"的區別:總線是大家共用一條路,同一時刻只能一輛車通過;Crossbar是每個輸入口有專屬通道,多路可以同時傳輸。NVSwitch的Crossbar讓72顆GPU任意兩顆之間都有"專屬通道",可以同時全部互相傳數據。

SHARP(Scalable Hierarchical Aggregation and Reduction Protocol,可擴展層級聚合縮減協議):

SHARP是什麼,它解決了什麼問題?

分布式AI訓練里,每顆GPU算完反向傳播後,需要把自己算出的"梯度"和其他所有GPU的梯度加總平均,這個操作叫AllReduce(全規約)。

傳統方式:所有GPU把梯度數據發給某顆"主GPU",主GPU加總後再分發回所有GPU——主GPU成為瓶頸,數據需要往返搬運兩次。

SHARP的做法:交換晶片在數據流經自己時,直接在傳輸途中做加法,數據不需要先集中再發散。就像快遞中途分揀站會把同方向的包裹合併打包,而不是都先拉回總部再分發。可節省約50%的AllReduce通信時間。NVLink 6 Switch內置3.6 TFLOPS的SHARP算力。

第五層:跨機架組網——更大的集群怎麼建

Scale-out(橫向擴展):通過以太網或InfiniBand把多個機架連成更大集群,理論上不受距離限制(光纖可達千米以上)。Scale-out與Scale-up的本質區別:Scale-up GPU共享顯存,訪問延遲100納秒級;Scale-out機架通過網路通信,延遲1微秒級,慢約10倍,因此Scale-out集群訓練需要精心的任務切分策略(如Tensor Parallelism張量並行、Pipeline Parallelism流水並行)。

InfiniBand(無限帶寬):起源於1999年,最初為HPC超算集群設計,特點:低延遲(約1微秒端到端)、高帶寬、支持RDMA。英偉達2019年以69億美元收購Mellanox後獲得InfiniBand全棧。Quantum-3是當前最新的InfiniBand交換ASIC。

Ethernet(以太網,IEEE 802.3標準):1973年由Xerox PARC發明,全球最通用的有線網路標準。AI數據中心以太網已從100GbE升級到400GbE、800GbE,下一代1.6TbE正在標準化。英偉達Spectrum-X和博通Tomahawk系列是AI以太網主要競爭方案。

RDMA(Remote Direct Memory Access,遠程直接記憶體訪問):

RDMA是如何"繞過作業系統"的,為什麼這很重要?

普通網路通信的數據路徑:應用程序數據 → 作業系統核心緩衝區 → 網卡驅動 → 網卡 → 網線 → 對端網卡 → 對端核心緩衝區 → 對端應用程序。數據至少被拷貝4次,每次拷貝都需要CPU參與,延遲約100微秒。

RDMA的數據路徑:應用程序登記一塊記憶體區域(告訴網卡"你可以直接讀寫這塊記憶體")→ 網卡直接從這塊記憶體讀數據發出去 → 對端網卡直接把數據寫到對端應用程序的記憶體里。全程CPU不參與,數據幾乎零拷貝,延遲降至約1微秒,CPU占用接近零。

在AI集群中,GPU訓練產生的梯度數據通過RDMA在伺服器間傳輸,不占用CPU。

CPO(Co-Packaged Optics,共封裝光學):將光收發功能集成進網路交換晶片封裝,省掉獨立可插拔光模塊(Pluggable Transceiver)。功耗降低約70%,成本降低約75%。含兩個關鍵子組件:OE(Optical Engine,光學引擎,含調製器和光探測器)和ELS(External Light Source,外部光源,提供雷射的獨立模塊)。SN6800和Q3450等型號內置Fiber Shuffle(光纖打散),在封裝內完成多平面拓撲的光纖路由,無需外部打散箱。

多平面組網(Multi-plane Network):將Scale-out網路物理上分成多個獨立子網路,每顆GPU同時接入多個平面。好處:①集群規模按平面數倍增 ②單平面故障不影響其他平面 ③流量負載均衡。VR NVL72的2×800G設計天然支持雙平面,是獲得更大集群規模上限而非單純更高帶寬的核心設計選擇。

AEC(Active Electrical Cable,有源電纜):內置信號放大和均衡晶片的銅質短距互聯線纜,用於機架內或相鄰機架間的≤3米連接。與DAC(Direct Attach Copper,無源銅纜)和AOC(Active Optical Cable,有源光纜)構成短距互聯三件套。1.6T AEC含Gearbox(變速器晶片,在200G/Lane和100G/Lane之間做SerDes速率轉換),是Meta等客戶連接伺服器與接入層交換機的選擇,預計2026年下半年進入規模量產。

第六層:散熱與供電——物理約束

TDP(Thermal Design Power,熱設計功耗):晶片或系統持續滿負荷工作時的最大發熱量設計值,是散熱系統設計的基準。TDP≠實際功耗(輕負載時遠低於TDP),也≠峰值功耗(極短時間尖峰可能略超TDP)。Rubin雙檔:Max-P(2,300W,最大性能)和Max-Q(1,800W,最大能效),軟體可調,相同硬體。

Max-P / Max-Q:英偉達命名傳統,P=Performance(性能),Q=Quiet/Quality(實為能效)。最初用於筆記本GPU(兩種不同硬體),Rubin時代延伸到數據中心(同一硬體的兩種功率配置)。晶片級Max-P比Max-Q多消耗約28%的電(2,300÷1,800≈1.28),但在整機架級實際功耗增幅約為20%(因機架內固定功耗組件稀釋了差距),實際算力增益遠小於20%,能效下降明顯。

熱界面材料體系(TIM,Thermal Interface Material):熱量從晶片Die傳到冷板的完整路徑:Die → TIM1 → Heat Spreader(導熱蓋,焊在Die頂部的薄金屬蓋,把晶片集中產熱均勻擴散到更大面積,就像鐵鍋受熱均勻)→ TIM2 → Cold Plate(冷板)→ 冷卻液。TIM1通常是銦焊料或導熱膏(導熱係數約4-40 W/(m·K));TIM2用液態金屬銦基合金(導熱係數約40-80 W/(m·K)),是普通矽脂的10-20倍,但會腐蝕銅,需要接觸面電鍍金(Electroplated Gold)保護。Stiffener(加強筋)是Rubin新增的封裝邊緣金屬框架,防止大面積封裝在熱脹冷縮中翹曲變形,避免與冷板產生空隙導致散熱效率下降。

MCCP(Micro-Channel Cold Plate,微通道冷板):內部流道寬度在100微米量級的金屬冷板:

槽間距(Slot Pitch)是什麼,100μm vs 150μm有多大區別?

冷板內部加工了大量平行流道,截面看起來像一把梳子倒扣:梳背貼著晶片表面,梳齒之間的空隙是冷卻液流動的通道。"槽間距"就是相鄰兩個梳齒之間的中心距,即每個流道的寬度。

150μm槽間距:每毫米約6-7條流道
100μm槽間距:每毫米約9-10條流道

流道數增加約50%,冷卻液總接觸面積相應增加約50%——就像換熱面積從一張餐巾紙變成了一塊海綿。更細的流道還使冷卻液從層流(Laminar Flow,整齊有序,換熱效率較低)轉變為湍流(Turbulent Flow,紊亂混合,換熱效率更高),進一步提升散熱能力。

CDU(Cooling Distribution Unit,冷卻分配單元):數據中心液冷系統的換熱樞紐,通過板式換熱器(PHE,Plate Heat Exchanger,數十到數百片薄金屬板疊合而成,冷熱兩路液體交替流過相鄰流道,通過金屬薄板傳熱,兩路液體互不接觸)將IT設備迴路的熱量轉移到設施冷卻迴路。一台CDU通常負責約10個機架,Rubin時代向3-6 MW容量升級。Delta領跑專業廠商市場。

QD(Quick Disconnect,快速接頭):液冷管路里的快拆連接器,插入時自動開啟閥門通液,拔出時自動關閉不漏液。VR NVL72體系里有兩種:UQD(Universal QD,連接機架與CDU的較大外部接口)和MQD(Micro QD,托盤內部模塊間的小型接口,口徑約6-8mm)。Rubin更高流量要求推動QD向更大口徑升級。

Chiller(冷水機):包含壓縮機、冷凝器、膨脹閥、蒸發器的機械製冷循環設備,本質是一台大型冷氣,能把冷卻水降至遠低於室外溫度(如5-15°C)。製冷效率用COP(Coefficient of Performance,性能係數=製冷量÷耗電量,典型值3-6)衡量。45°C進水溫度理論上不需要Chiller,只需Dry Cooler(乾冷塔,用空氣自然對流冷卻,無壓縮機,節能但受室外氣溫限制)——但這並非Rubin首創,Blackwell時代已有少數運營商實現無Chiller部署。

Busbar(母排/匯流排):銅或鋁製的矩形截面大導電排,用於大電流配電,截面積大、電阻低。VR NVL72的Busbar額定5,000A,產生的焦耳熱(P=I²R)約是GB300(2,900A)的3倍,必須液冷散熱。

IBC(Intermediate Bus Converter,中間總線轉換器):將50V降壓到12V的功率變換模塊,效率通常在97%以上,讓大電流段(12V→1V)的路徑儘量短,減少I²R損耗。

VRM(Voltage Regulator Module,電壓調節模塊):貼近晶片安裝的精密降壓電路,將12V降至約0.7-1.0V晶片工作電壓,同時在微秒級時間內響應晶片瞬時負載變化(Load Transient),維持電壓穩定。

HVDC/LVDC(High/Low Voltage Direct Current,高/低壓直流):HVDC(如800VDC或±400VDC)在數據中心配電中減少多級AC-DC轉換次數,系統效率可提升2-4%。VR NVL72機架內部使用50V LVDC,部分超大規模客戶在機架外部部署HVDC電源架後通過DC-DC模塊降壓到50V接入。Meta等客戶還集成BBU(Battery Backup Unit,電池備用單元,提供分鐘級備電)和CBU(Capacitor Backup Unit,電容備用單元,提供秒級備電但響應更快)以應對電網波動。AI訓練如果斷電會丟失最近一次Checkpoint(檢查點,定期把模型權重參數保存到存儲,以便斷電後從最近檢查點恢復訓練,否則只能從頭開始)之後的全部訓練進度。

第七層:推理的兩個階段——理解英偉達產品線布局的鑰匙

Prefill(預填充):Transformer推理第一階段,並行處理用戶輸入的全部token,生成KV Cache。Compute-bound(計算密集型),FLOPs是瓶頸。影響TTFT(Time To First Token,首字延遲,發出請求到收到第一個字符的時間)。

Decode(解碼):Transformer推理第二階段,自回歸(Autoregressive,每個新token以所有已有token為條件依次生成,天然無法並行)地逐個生成輸出token。Memory-bandwidth-bound(記憶體帶寬密集型),HBM帶寬是瓶頸(每生成一個token需要加載一次全部模型權重)。影響TPOT(Time Per Output Token,每輸出token延遲,即"打字速度"),通常在10-100毫秒/token之間。

LPU(Language Processing Unit,語言處理單元):Groq(2016年成立,由前Google TPU團隊核心成員創立)設計的專用推理晶片,核心特點:大量片上SRAM代替HBM,加上靜態數據流架構(Static Dataflow Architecture,編譯時確定所有數據路徑,消除運行時控制開銷)和確定性延遲(Deterministic Latency,每次推理耗時固定,無隨機抖動),極適合TPOT敏感的Decode場景。代價是成本極高、總吞吐量(Throughput)不如GPU。

MFU(Model FLOPs Utilization,模型FLOPs利用率):實際吞吐量 ÷ 理論峰值算力,通常以百分比表示,衡量晶片有多少理論算力被實際用到。A100訓練GPT-3時MFU約38-45%,H100約50-55%,B200接近60%。AMD MI350在DeepSeek R1推理中MFU顯著低於英偉達,主要原因是ROCm(Radeon Open Compute,AMD的GPU計算平台)的算子融合(Kernel Fusion,把多個小計算合併成一個高效大計算,減少記憶體往返次數)和記憶體訪問優化成熟度遠不及CUDA(已積累20年生態)。MFU是"規格表峰值"和"實際產出"之間的轉換係數,也是英偉達CUDA護城河最直觀的量化體現。

TCO(Total Cost of Ownership,總擁有成本) = CapEx(Capital Expenditure,資本支出,一次性買硬體的錢)+ OpEx(Operating Expenditure,運營支出,電費、運維、帶寬、機房租金等持續性費用)。典型4年折舊期內,AI集群CapEx約占TCO的40-50%,OpEx約50-60%(電費最大)。Max-Q比Max-P省約20%的機架級電費,4年內OpEx節省可觀,但CapEx相同——兩者的TCO差異主要體現在OpEx。

ODM(Original Design Manufacturer,原始設計製造商):負責從產品設計到量產製造全鏈條的代工廠,如富士康(Foxconn)、廣達(Quanta)、緯創(Wistron)。區別於OEM(Original Equipment Manufacturer,只貼牌生產別人設計的產品)。AI伺服器供應鏈:英偉達提供關鍵晶片和參考設計 → ODM負責L6(板級PCBA,Printed Circuit Board Assembly,電路板焊接)和L10(系統集成,將所有模塊裝入機架)→ 整機交付給Hyperscaler(超大規模雲廠商:AWS、Azure、GCP、Meta等)或Neocloud(新興AI專用云:CoreWeave、Lambda Labs、Crusoe等)。VR NVL72的L10自動化產線能力目前只有富士康、廣達、緯創三家具備,是供應鏈里最難被複製的壁壘。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新