2024 GTC 大會上,黃仁勛右手 B200,左手 H100,理所當然地有了新人忘舊人:「我們需要更大的 GPU,如果不能更大,就把更多 GPU 組合在一起,變成更大的虛擬 GPU。」
英偉達公布的 Blackwell 架構的 B200 GPU,親手把網紅顯卡 H100 拍在了沙灘上。
按照黃仁勛的介紹,B200 理論上的 AI 性能可達 20PFLOPS,是 H100 的五倍。相比 H100 的 800 億電晶體規模,B200 的電晶體規模高達 2080 億。

一般來說,晶片算力提升的最常用方法是採用先進制程,用更高的密度在晶片裡塞進更多電晶體。如摩爾定律所說:
集成電路上可以容納的電晶體數目,大約每經過 18 個月到 24 個月便會增加一倍。
比如採用 7nm 工藝的 A100 GPU,晶片(Die)面積為 826mm² ,內有 542 億電晶體;採用 5nm(台積電 N4)工藝的 H100,晶片面積縮小為 814mm² ,電晶體數量反而暴漲至 800 億。
然而,B200 在電晶體數量提高近三倍的同時,並沒有用更先進的 3nm 工藝,而是採用了和 H100 一樣的 5nm 工藝。
黃仁勛所說的「大」和「組合」,是字面意義上的:
從技術原理看,B200 其實是把兩塊晶片「拼」成了一個大晶片。
在英偉達的 PPT 演示里,兩顆 GPU 從邊緣「無縫粘合」在一起,面積 X2 的同時,算力翻倍。

1 1=2 的方法看似簡單粗暴,背後卻是一場在物理學邊緣的衝鋒與冒險。
1 1 有時候不等於 2
工廠提高生產力有兩種辦法:
一是擴建廠房,裝進更多的生產線;
二是升級生產線,在廠房面積不變的情況下,增加生產線數量。
晶片公司一直以來都在採用第二種方法:通過生產線創新(工藝製程),在有限的晶片面積里塞進更多電晶體,避免擴建廠房帶來的房租成本上漲。

但這種方式的局限性在於,生產線創新(工藝製程)對應的研發成本越來越高,甚至有高過房租的趨勢。
H100 採用的 5nm工藝,很可能就是 GPU 量產的極限制程,繼續下探到 3nm,很可能成本上吃虧。
擴建廠房的確是一個辦法,但放在晶片生產上,會遇到一個中國人很熟悉的問題:土地供應有限。
每一顆晶片都是從 12 寸的矽晶圓(土地)上「切」下來的,那麼晶片(廠房)面積越大,每塊晶圓能「切」出來的晶片就越少。
再考慮到良率和大面積晶片的散熱問題(施工事故),單個晶片成本會成倍提高。
由此衍生出了第三種思路:建一個一模一樣的廠房,讓兩個廠房同時生產,既避開了成本問題,又提高了生產效率。
這種方法聽上去簡單,但實踐起來難於登天。
晶片在執行計算任務時需要經歷兩個階段:數據傳輸和計算,數據傳輸花費時間過多,計算「空載」,就會造成算力的浪費。就像兩間廠房需要一個工頭傳達指示,工頭在 A 廠房發表講話時,B 廠房的工人都在摸魚。
這就導致在一塊主板上封裝 10 顆晶片,性能非但不會提高 10 倍,反而很可能連兩倍都不到。
2011 年,英偉達發布了 GTX590 顯卡,最大特點是在一個 PCB 板上裝了兩顆 GPU 晶片。
但在具體的遊戲中,想同時調用兩顆 GPU 的算力,不僅需要專門的軟體支持,性能也只有單顆晶片的 130% 左右。
原因就在於,大量的算力被低效的數據傳輸浪費了。
GTX 590 顯卡里有兩顆 GPU 晶片
為了解決產線工人趁著工頭不在消極怠工的問題,英偉達團隊在 2017 年發表論文,提出了名為「可組合封裝 GPU」的架構,核心在於將多顆 GPU 集成在同一個晶片封裝內。
傳統的晶片封裝是「先封再拼」,即兩顆晶片封裝完畢,再用導線連接。英偉達的方案是「先拼再封」,先把兩顆晶片拼成一個大晶片,再封裝到一起。
把晶片(廠房)之間的物理距離縮減到 0,工頭傳遞指示,兩邊的工人同時學習貫徹,降低數據傳輸時間,實現 1 1=2。

幾個月後,老對手 AMD 表示論文誰不會寫,刊發論文展示了 4 顆 GPU 集成在同一封裝內的設計,宣稱其性能比當時的最強 GPU 還要高 45.5%,並且 coming soon。
但無論是英偉達還是 AMD,都沒能把這個方案真正「soon」出來。
第一個讓 1 1=2 的,是蘋果。
蘋果的超能力就是有錢
2022 年,蘋果發布了 M1 Ultra 晶片,其最大特點是直接將兩顆 M1 Max 晶片「粘合」在一起,變成一張大晶片,業內戲稱「膠水大法」。
1 1=2 的意義正如蘋果在新聞稿中所說:
M1 Ultra 在工作時依然表現出一枚晶片的整體性,也會被所有軟體識別為一枚完整晶片,開發者無需重寫代碼就能直接運用它的強大性能。這在史上從無先例。

M1 Ultra 由兩顆一模一樣的 M1 Max 晶片拼接而成
蘋果之前,幾乎所有的「縫合」方案,都無法解決晶片在連接過程中產生的損耗,使得性能往往「1 1
M1 Ultra 的背後,是一個名為 Ultra Fusion 的「縫合技術」。
按照蘋果官方的說法,Ultra Fusion 由蘋果與台積電共同研發。但從經驗看,蘋果發揮的最大作用,是以「技術冠名費」的方式,報銷了台積電的研發開支。
兩顆晶片的縫合,核心是要解決晶片間的數據傳輸問題。
為了實現「無縫粘合」,蘋果用上了台積電最昂貴、最先進的封裝技術——第五代 CoWoS-S。
傳統的傳輸方式是將兩顆晶片封裝在一塊基板上,晶片之間的傳輸由引線解決。CoWoS 方案在基板和晶片之間加了一層矽中介層,通過在矽中介層里布線,間接將兩顆小晶片連接起來,連接密度是現有技術的兩倍。

這個技術的關鍵就在於矽中介層,也是燒錢的根源。
矽中階層本質上是一片矽晶圓,也就是「切」晶片的原材料。僅僅為了做連接,就要另加一層矽晶圓的費用,這手筆恐怕只有蘋果做得出來。
後來,英偉達在 H100 上採用了更成熟的 CoWoS,成本仍超過 4000 美元。蘋果作為最初的試錯者,成本只會更高。
除了 CoWoS,蘋果的錢還燒在了「縫合」技術上。
晶片製造的本質,是在矽晶圓上刻畫複雜電路。但在實際製造過程中,電路不是直接刻在矽晶圓上的,而是先刻在一個掩膜版上,再通過光刻和刻蝕把電路「轉移」到矽晶圓上。

英偉達當年遇到的問題是,GPU 晶片本身面積就大,一旦兩顆 GPU 拼接,就會超過正常掩膜版的大小(H100 的面積已經接近台積電 5nm 掩模版的極限),電路就無法被完整地刻畫。
蘋果提出的解決方案是,1 個掩膜版不夠,我直接上四個吧。
通過四個掩膜版「縫合」,將電路刻畫的面積增加到 2500mm² ,是英偉達同期 GPU 的 3 倍多(815mm² )。
在晶片製造中,很大一部分成本就來自掩膜版製作。
掩膜版生產需要 Mask Writer(掩膜版寫入機),精密程度堪比光刻機。而且 Mask Writer 只在掩膜版製作時使用,每種晶片只做一次,難以攤薄成本。
除此之外,由於 Ultra Fusion 用到了大量新技術,比如連接晶片的高縱橫比矽通孔(TSV)技術,用於散熱的新型非凝膠型熱界面材料(TIM)等,台積電都是拿著發票找蘋果報銷的。
M1 Ultra 發布時,業界都沒有準確的成本推算。
不是研究員水平不到位,實在是技術過於先進,算不出來。
高科技產業最關鍵的問題不是技術如何實現,而是誰來掏錢把論文和實驗室里的數據變成可以量產的產品。不知道看著 M1 Ultra 的拼接示意圖,會不會有久遠的記憶攻擊黃仁勛。

技術狂人的商業冒險
最早試圖解決的 1 1
2009 年,回歸台積電的張忠謀請回已經退休的蔣尚義。在後者帶領下,台積電以「後閘級」技術路線成功超越三星率先量產 28nm 工藝。但在研發過程中,蔣尚義發現電晶體單位製造成本不降反升,製程升級提升性能的性價比開始降低。

拿著張忠謀批的 1 億美元預算和 400 多人的工程師團隊,蔣尚義帶隊開始了「超越摩爾計劃」。
傳統互聯技術下,傳輸速率已經觸及天花板。蔣尚義開始嘗試一種新思路:
把兩顆晶片放到一起封裝,物理距離縮短了,傳輸速度自然提高。為了區別於傳統封裝,蔣尚義將其命名為「先進封裝」。
2011 年,台積電得到 FPGA 大廠賽靈思訂單,憑藉 CoWoS 以及共同開發的矽通孔(TSV)等技術,成功將 4 個 28nm FPGA 晶片拼接在一起,推出了史上最大的 FPGA 晶片。
然而,大部分客戶對 CoWoS 興致寥寥,賽靈思的訂單杯水車薪。
不是台積電技術不夠好,實在是先進封裝太貴了。
老客戶高通的高管在與蔣尚義共進午餐時直白表示,CoWoS 技術很好,但「我只願意為它花費 1 美分/平方毫米」,而台積電當時的售價是 7 美分/平方毫米。
據說英偉達也是台積電 CoWoS 的第一批目標客戶之一,因為數據傳輸的瓶頸一直是困擾 GPU 計算的核心問題。但聽到台積電的報價後,英偉達當場表示,老技術還能再湊合幾年。
另一方面,先進制程還在穩步推進,先進封裝的理念顯得過於超前,畢竟領導還在開卡羅拉,你就別急著換寶馬了。
因此,先進封裝團隊在台積電內部的一度邊緣化,甚至被當做老幹部療養院。後來跳槽三星的梁孟松,就認為自己被調往先進封裝業務屬於「下放」。
隨後,台積電開始給 CoWoS 做減法,掏出了替代方案「InFO」,將昂貴的矽中介層換成其他材料,犧牲了連接密度,但成本大幅下降。
緊接著,台積電遇到了可以靠一己之力改變供應商命運的超級甲方:蘋果。
2013 年前後,由於與三星在手機市場的競爭,蘋果開始將晶片代工交由台積電。
憑藉 InFO 方案,台積電在 16nm 工藝的基礎上,製造出了比三星 14nm 性能更強的 A10 處理器,貢獻了歷代 iPhone 中第二輕薄的 iPhone 7。
有了蘋果的大單的,台積電的先進封裝業務迅速盤活,並在 2022 年拿出了震驚業界的 M1 Ultra 晶片。2024 年開年,這個攻堅十多年的「膠水大法」,又被用在了英偉達的新核彈 B200 上。英偉達順勢拿下冠名權,將這項技術命名為「NV-HBI」。
先進封裝方案依然昂貴,但對今天的英偉達來說,成本兩個字怎麼寫,他們可能已經忘了。
尾聲
除了 CoWoS,另一個被生成式 AI 帶火的技術 HBM,其探索同樣可以追溯到十年前。
CoWoS 拿到賽靈思的第一筆訂單時,蔣尚義大喜過望,但賽靈思的動機卻讓他有些哭笑不得:把四個老晶片拼在一起,直接當成新產品加價賣,就不用自己開發新產品了。
在美國電腦歷史博物館的採訪中,蔣尚義回憶道:「我開發技術的初衷是解決性能瓶頸問題,在我看來,我的創新並沒有被用在好的地方」。
科技革命很難推動技術創新,反而是技術創新讓科技革命成為可能。創造歷史的人,永遠無法預見自己在歷史進程中的坐標。
在我們不曾踏足的物理學的邊境,還有無數偉大的創新尚在不為人知的角落。