在計算、網路和圖形技術發展史上,英偉達曾經先後做出過卓越而獨特的貢獻。但如今的英偉達正掌握著前所未有的巨量資金,並憑藉其自身架構、工程與供應鏈優勢而在生成式AI市場上處於領先地位,因此能夠隨心所欲地制定幾乎任何符合其發展規劃的技術路線圖。
其實從本世紀初開始,英偉達就已經成為市場上極為成功的創新廠商,單憑數據中心計算領域之外的消費級市場已經賺得盆滿缽滿。但高性能計算(HPC)研究人員還是成功將英偉達推向了加速計算領域,而後AI研究人員又憑藉GPU計算創造出一個全新市場。從歷史角度來看,這一市場已經醞釀了四十年,期待以合理的價格對超大規模數據執行海量計算,從而真正將愈發強大的思考機器帶入每一個人的日常生活。
這不禁讓我們想到Danny Hillis、Marvin Minksy和Sheryl Handler等行業先驅,他們早在上世紀80年代就曾嘗試製造這樣的機器,創立了Thinking Machines以推動AI處理,希望在傳統的HPC模擬與建模應用之外開闢出新的智能空間。還有Yann LeCun,他成功在AT&T貝爾實驗室創造出卷積神經網路。但當時的他們既沒有充足的數據,也不具備相應的計算能力來開發如今我們所熟知的現代AI。當時的黃仁勛還在存儲晶片製造商LSI Logic公司擔任董事,隨後成為AMD的CPU設計師。而就在Thinking Machines於90年代初陷入困境並最終破產之後,黃仁勛在聖何塞高速公路旁的一家Denny’s餐廳里遇見了Chris Malachowsky和Curtis Priem,三人最終聯合創立了英偉達。意識到研究領域及超大規模社區中蘊藏著新興的AI技術機遇,英偉達公司決定構建系統軟體及底層大規模並行硬體,希望能讓這場自計算技術發展之初就伴隨而生的AI革命之夢落地生根、開花結果。
AI可以說是人們一直以來所追求的終極計算形態,也代表著我們所期待的發展奇點。如果其他星球上也有生命,那這些生命也一定會進化至擁有大規模毀滅性武器、並創造出AI技術的水平,而且二者很可能是相輔相成、互為因果。也正是這道技術門檻,包括對這兩項技術的處理方式,將決定一個生物種群能否在大規模滅絕事件當中倖存下來。
前面聊的這些似乎跟本文討論晶片製造商路線圖的主旨有些偏離,但並非如此,我們正生活在一個前所未見的有趣時代。
在本屆於台北召開的年度Computex貿易展主題演講當中,英偉達公司聯合創始人兼CEO黃仁勛再次強調將生成式AI革命,也就是他所謂的第二次工業革命作為時代背景,希望一窺AI、特別是英偉達硬體的未來。我們也由此了解到英偉達的GPU與互連技術路線圖,而且據稱這些內容跟黃仁勛以往的演講一樣,都是在最後一刻才被確定下來。
技術革命已經不可避免
黃仁勛在演講中提醒我們,生成式AI的關鍵在於規模,並強調2022年底的ChatGPT時刻完全是技術和經濟雙重驅動下的必然結果。具體來講,要想實現ChatGPT這樣的突破性時刻,首先要求GPU性能實現大幅提升,之後要在此基礎上實現龐大的GPU產能。英偉達在性能層面確實取得了成功,而性能是決定AI訓練與推理可行性的前提。更重要的是,強大的性能顯著降低了大語言模型在生成響應token時所耗費的能耗。下面我們具體來看:
從「Pascal」P100 GPU到「Blackwell」B100 GPU之間相隔了八年,期間GPU性能提高了1053倍。最新的B100 GPU將於今年晚些時候正式出貨,並持續供應至2025年。(圖表上展示的數字為1000倍,但實際並不準確。)
其中部分性能提升是通過降低浮點精度實現的——具體降幅為四分之三,即由Pascal P100、Volta V100和Ampere A100 GPU中的FP16格式轉變為Blackwell B100中使用的FP4格式。如果忽略精度降低的部分,那麼實際性能提升將只有263倍,但精度降低並不會對大語言模型的性能造成顯著影響,而這要歸功於數據格式、軟體處理以及硬體層面的一系列數學「魔法」。另外這裡要強調,相較於這八年以來CPU每代核心性能提升10%到15%、核心數量增加25%到30%的成績,GPU的發展已經相當值得讚嘆。畢竟如果按兩年為一個升級周期計算,這八年間CPU的吞吐量僅僅增長了4到5倍。
從上圖中可以看到,單位工作負載的功耗降低成為另外一項關鍵指標。因為如果沒有足夠的能源支撐系統,自然也就沒有實用層面的價值。單個token的電力成本必須降低,也就是說大語言模型在生成每個token時所消耗電量的降幅,必須要比性能提升的速度更快。
在主題演講中,黃仁勛公布了更加深入的背景資訊。在Pascal P100 GPU上生成一個token需要1.7萬焦耳,大致相當於將兩隻燈泡點亮兩天的耗電量。而平均每個單詞大約對應3個token。所以如果要生成大量單詞,就相當於要點亮許許多多個燈泡!現在大家應該理解為什麼八年之前,我們根本不可能在現實任務上擁有運行良好的大語言模型了。下面來看由1.8萬億參數、8萬億token數據驅動並訓練的GPT-4混合專家大模型的當前運行功率:
如果使用P100 GPU集群,那麼這樣的模型運轉起來需要超過1000千兆瓦時,耗電量相當恐怖。
但黃仁勛解釋道,在Blackwell GPU的幫助下,企業客戶能夠在約10000張GPU上用約十天時間就訓練出這套GPT-4 1.8T混合專家模型。
而如果AI研究人員和英偉達沒有發現降低精度的秘密,那麼在這8年時間裡,性能提升只能達到250倍左右。
另外,降低能源成本跟降低系統成本還不一樣。在傳統摩爾定律的末期,這兩者的實現難度已經變得越來越高。所謂摩爾定律,是指每18到24個月電晶體的尺寸會進一步縮小,因此令晶片成本更低、性能更強。現如今,計算複合體的尺寸已經逼近光刻工藝的極限,單個電晶體的製造成本也變得越來越昂貴,自然拉動計算設備的價格水漲船高。而且除了先進封裝技術之外,HBM內存也成為成本結構中的又一個大頭。
以SXM版本的各代GPU(注意,不是PCI-E版本)為例,P100在初發布時的成本約為5000美元,V100成本約為10000美元,A100來到約1.5萬美元,而H100的成本則在2.5萬到3萬美元之間。最新一代B100的成本預計將在3.5萬至4萬美元之間——黃仁勛本人曾在今年早些時候接受採訪時,大致提到過Blackwell的這一價格區間。
黃仁勛並沒有在演講當中具體公布,各代產品需要多少張GPU來訓練GPT-4 1.8T混合專家模型,包括這些GPU在運行期間產生的電力成本。但我們根據他提出的大約需要1萬張B100、耗時10天訓練GPT-4 1.8T混合專家模型的結論,推衍製作出了下面這份電子表格。我們一起來看:
在過去8年當中,GPU的價格上漲了7.5倍,但性能卻提高了1000多倍。因此現在使用Blackwell系統能在十天左右時間裡訓練出GPT-4這樣擁有1.8萬億參數的大語言模型,但短短兩年前Hopper剛剛亮相之時,想在幾個月時間裡訓練出擁有數千億參數的模型都還十分困難。另外前後對比,兩年之間GPU集群的系統成本和運行電力成本基本相當。(GPU約占AI訓練系統成本的一半,因此採購1萬張Blackwell GPU系統大約需要8億美元,而運行10天的電費約為54萬美元。如果減少GPU採購量,那麼單位時間之內的電費當然可以相應降低,但總訓練時長也會隨之增加,同樣會令成本繼續上升。)
所以在客戶來看,GPU升級就成一塊既沒便宜可占、又沒辦法直接放棄的「雞肋」。
其實英偉達也面臨著類似的難題。黃仁勛在本屆Computex主題演講中坦言,哪怕打造出了Hopper H100 GPU平台這款「有史以來最成功的數據中心處理器」,英偉達也一刻都不能停止前進的腳步。
旁註:我們不妨將Hopper/Blackwell的投資周期跟六十年前的IBM System/360進行一番比較。我們之前曾經解釋過,IBM當時也押下了公司歷史上規模最大的賭注。1961年,IBM著手推動的「下一產品線」研發在那整個十年之間共燒掉了超過50億美元,而當時藍色巨人一年的總收入也只有22億美元。IBM之所以成為華爾街第一家藍籌公司,就是因為其投入整整兩年的收入和未來二十年的利潤來開發System/360。沒錯,最終成果仍有缺憾和不足,但還是徹底改變了企業數據處理的基本思路。當時按IBM最樂觀的想法,System/360應該能在60年代末為其帶來600億美元的銷售額(以換算之後的2019年美元購買力計算),但實際銷售額達到驚人的1390億美元,利潤則在520億美元左右。
英偉達無疑為數據中心計算的第二階段掀起了更大的波瀾。而這位新時代下的最大贏家,會不會成為綠籌企業中的典範?
一切抗拒都虛弱無力
無論是英偉達還是其競爭對手、包括客戶,都無法抗拒AI掀起的巨大引力以及潛在利潤與生產力增長的可能性。而且如今的生成式AI已經不是在用耳畔低語的方式「蠱惑人心」,而是站在房頂上衝著全世界「瘋狂布道」。
因此,英偉達必將加快步伐、突破極限。憑藉手上250億美元的現金流和年內預計超1000億美元的銷售額,還有未來大概率能夠實現的500億美元新增資金儲備,相信英偉達能夠引領我們開疆拓土、擁抱未來。
「在這個令人難以置信的增長時期,我們希望繼續堅守性能提升路線,不斷降低訓練成本和推理成本,並努力擴展AI功能以供更多企業使用。性能水平越高,成本的下降幅度也就越大。」
而從我們前面整理的表格來看,情況的確如此。
以下是更新之後的英偉達平台路線圖:
可能不太好理解,讓我們具體分析一番。
從Hopper一代開始,最早的H100發布於2022年,採用六層HBM3內存並配備一個擁有900 GB/秒埠的NVSwitch以實現互連,同時採用400 Gb/秒埠的Quantum X400(之前被稱為Quantum-2)與ConnectX-7網路接口卡。到2023年的H200,則升級為具有更高容量和帶寬的六層堆疊HBM3E內存,得以提高H200封裝中底層H100 GPU的實際性能。其時BluleField 3 NIC也已經問世,為網路接口卡添加了Arm核心以執行部分附加工作。
到2024年,Blackwell GPU當然會採用8層堆疊HBM3e內存,同時輔以1.8 TB/秒埠的NVSwitch 5、800 Gb/秒的ConnectX-8,以及採用800 GB/秒埠的Spectrum-X800及Quantum-X800交換晶片。
而從現在的路線圖中可以看到,2025年B200(即圖中的Blackwell Ultra)將採用高度為12層裸片的8層堆疊HBM3e內存。據推測,B100中的堆疊高度為8層裸片,換算下來Blackwell Ultra上的HBM內存容量至少會增加50%,實際可能更多,具體取決於所使用DRAM的容量。此外,該HBM3e內存的時鐘速率可能也會更高。英偉達對其Blackwell系列的內存容量一直含糊其辭,但從今年3月Blackwell發布會上的情況來看,B100估計將配備192 GB內存和8 TB/秒帶寬。而對於未來的Blackwell Ultra,相信內存速率將進一步提升,實際數字甚至可能達到288 GB容量加9.6 TB/秒帶寬。
我們還推測,Ultra版本在流式多處理器(SM)方面也將有所改進,因此其性能應該會略高於前代非Ultra產品。
英偉達還將在2025年推出基線性能更強的Spectrum-X800以太網交換晶片,可能配備6個ASIC來建立無阻塞架構,藉助這種主流設計思路將總帶寬再翻一倍。這意味著單一交換晶片所能支持的埠數量,或者每埠所能提供的帶寬也將隨之倍增。
2026年,我們將迎來英偉達的「Rubin」R100 GPU,這款產品在去年公布的路線圖中被稱為X100。當時我們就猜測,所謂X只是個臨時占位符,並沒有確切的含義。事實證明的確如此。Rubin GPU將採用HBM4內存並配合8層堆疊架構,每一層包含12個DRAM;而2027年的Rubin Ultra GPU將把HBM4內存堆疊數量提升至10層以上,甚至可能更高(但路線圖中並未展示)。
2026年還將有「Vera」CPU問世。作為「Grace」CPU的繼任產品,Vera代表英偉達推出的更加強大的Arm伺服器CPU。與之匹配的將是NVSwitch 6晶片,採用3.6 TB/秒埠,ConnectX-9埠的運行速率為1.6 Tb/秒。有趣的是,路線圖中還提到一款名為X1600 IB/以太網交換晶片的產品,這可能意味著英偉達正嘗試將InifniBand與以太網ASIC融合起來,這幾乎就是十年之前Mellanox的研發思路。又或者英偉達只是單純想要勾起觀眾們的好奇心。繼續將目光投向2027年,潛在的發展方向還包括Ultra Enthernet Consortium將全面支持NIC和交換晶片,甚至可能通過UALink交換機實現GPU在節點之內及跨機架間的連接。
作為八大科技巨頭共同打造的、用於對抗英偉達的交換技術,讓GPU巨頭採用UALink當然有點荒謬。但誰知道呢,畢竟技術行業從來不缺少出人意料的故事。