2024 年 3 月 18 日,2024 GTC大會上,NVIDIA 以高昂的姿態推出Blackwell 平台瞬間引爆全世界。這或許,是人類又一次向智能新時代宣誓——萬億參數規模的大語言模型(LLM)不再是遙不可及的夢想。
「1 1>2」 性能提升30倍
一直以來,NVIDIA 推出的GPU一般是兩種架構,其中面向遊戲的GeForce RTX系列GPU是Ada Lovelace架構,面向AI、大數據等應用的專業級顯卡是Hopper架構。風靡世界的H100就是基於Hopper架構。
而這一次,老黃卻說:「Hopper很棒,但我們需要更大的GPU,更需要將 GPU堆疊在一起。」
於是,同時用以上兩種架構類型的產品Blackwell誕生了,NVIDIA採用D2D將兩顆die互聯封裝,可以提供10TB/s的帶寬。Blackwell 在單晶片訓練方面的 FP8 性能是其上一代架構的 2.5 倍,在推理方面的 FP4 性能是其上一代架構的 5 倍。它具有第五代 NVLink 互連,速度是 Hopper 的兩倍,並且可擴展至 576 個 GPU。
所以,Blackwell不是一個晶片,而是一個平台。
NVIDIA GB200 Grace Blackwell 超級晶片則是通過 900GB/s 超低功耗的片間互聯,將兩個 NVIDIA B200 Tensor Core GPU 與 NVIDIA Grace CPU 相連。其巨大的性能升級,能為人工智慧公司提供20 petaflops或每秒2萬億次計算的AI性能,相較於H100,大語言模型性能提升30倍,同時能耗只有25分之一。
不難看出,Blackwell平台如此卓越的性能提升,是為了下一代生成式AI作準備。而從OpenAI最近發布的Sora和已經開始研發更強大、更複雜的GPT-5模型也能看出,生成式AI的下一步是多模態和影片,也就意味著更大規模的訓練。Blackwell 帶來了更多可能性。
面對新一代人工智慧,英偉達已經準備好了!
正如老黃所言: 「三十年來,我們一直深耕加速計算領域,力求實現像深度學習和 AI 這樣的變革性突破。生成式 AI 是我們這個時代的決定性技術,Blackwell GPU 是推動新一輪工業革命的引擎。通過與全球最具活力的企業合作,我們將實現 AI 賦能各行各業的承諾。」
從谷歌的無邊搜尋引擎,到亞馬遜的雲頂天堂,再到特斯拉的智能駕駛......目前,各大科技巨頭正紛紛加入 NVIDIA 的 Blackwell 陣營,開啟了一場令人興奮的 AI 加速計算盛宴!亞馬遜、谷歌、戴爾、Meta、微軟、OpenAI、Oracle、特斯拉和 xAI 等行業翹楚都在爭先恐後地布局,準備在 AI 新時代大展身手。
這些公司都看到了 Blackwell 在加速計算和生成式 AI 領域的無限可能,並強調將利用 Blackwell的超能力重塑產品與未來。
「當下的 AI 領域,NVIDIA硬體無可比擬。」特斯拉及 xAI 首席執行官 Elon Musk這樣說。
六大顛覆性新技術 加速AI未來
Blackwell GPU 架構具有六項變革性的加速計算技術,這些技術將助推數據處理、工程模擬、電子設計自動化、電腦輔助藥物設計、量子計算和生成式 AI 等領域實現突破,這些都是 NVIDIA 眼中的新興行業機遇:
史上最強「芯」
Blackwell 架構的 GPU 表現出了行業領先的技術創新和極限性能。擁有2080億個電晶體的B200晶片就基於Blackwell架構,在目前的技術背景下,無疑將其定位為市場上最強大的GPU之一。這一巨大數量的電晶體意味著極高的計算能力和複雜度,使其能夠處理最為複雜和要求苛刻的計算任務。
採用專門定製的「雙倍光刻極限尺寸 4NP TSMC工藝」進一步印證了該GPU在製程技術上的領先地位。4NP代表了當前半導體製造中的尖端水平,而「雙倍光刻極限尺寸」可能意味著它採用了更高精度的製造工藝,以實現更小的電晶體尺寸和更高的集成度。
此外,通過10 TB/s的片間互聯技術,將GPU裸片連接成一塊統一的GPU,這種設計思路在提高數據傳輸速度和降低延遲方面展現了顯著優勢。這種高速的片間互聯使得多個GPU裸片能夠高效協同工作,進一步放大了系統的總體計算能力。這樣的設計對於高性能計算、大規模並行處理任務以及AI和機器學習應用尤其關鍵,能夠提供前所未有的處理速度和數據吞吐量。
第二代 Transformer 引擎
第二代Transformer引擎在提高效率和處理能力方面進步顯著。得益於微張量縮放技術和NVIDIA的先進算法,這種新技術能夠在保持低位寬(如4位浮點數)的同時,顯著提升AI模型的推理性能和準確度。集成於NVIDIA TensorRT™-LLM和NeMo Megatron框架中,這些創新不僅增加了算力,還使得模型尺寸在不犧牲性能的前提下得以縮小,進一步推進了AI技術的邊界。這對於需要在有限硬體資源下運行大型AI模型的應用來說,尤其重要。未來,在移動設備和邊緣計算場景,或許能夠大規模使用。
第五代 NVLink
新一代的NVLink®技術顯著提高了大規模AI模型的運行效率,尤其是對於萬億級參數模型和混合專家AI模型。
通過為每塊GPU提供高達1.8TB/s的雙向吞吐量,確保了在多達576塊GPU之間的高速且無縫的通信。這種突破性的通信帶寬對於處理當前最複雜的大型語言模型(LLM)至關重要,這緣於它允許數據和模型參數以前所未有的速度在GPU之間傳輸。這不僅顯著加快了模型訓練和推理的速度,而且還提高了模型處理複雜任務時的能力,滿足了當今對高性能計算需求日益增長的挑戰。
RAS 引擎
RAS(可靠性、可用性和可維護性)引擎是Blackwell架構GPU的關鍵創新,為大規模AI部署提供了顯著的價值。通過整合專用引擎和晶片級功能,該架構不僅能夠運行診斷和預測維護任務,還利用AI技術進行預防性維護,從而顯著提升系統的穩定性和連續運行時間。這種先進的自我診斷和問題預測能力,能夠大幅減少意外停機時間,確保AI應用的連續性和高效性。對於那些要求極高可靠性和長時間運行的場景,如雲計算中心和大型數據分析,RAS引擎提供了一個強大的解決方案。它不僅延長了系統的正常運行時間,還有助於降低運營成本,為企業和研究機構提供了極大的經濟效益和操作彈性。
更安全的AI
通過引入先進的機密計算功能和本地接口加密協議,顯著提高了數據和AI模型的保護水平,而這一切又不會犧牲性能。這種技術的應用,對於需要處理高度敏感數據的行業(如醫療和金融服務行業)來說,具有極大的價值。它確保了數據在整個處理過程中的安全性和隱私性,即使是在數據使用階段也能防止未授權訪問,滿足了對數據保護要求極為嚴格的領域的需求。此外,支持全新本地接口加密協議進一步加強了數據傳輸過程中的安全性,為客戶提供了更為安全的數據環境。
解壓縮引擎
專用解壓縮引擎,將顯著提升了數據處理能力,特別是在數據分析和數據科學領域。通過支持最新的壓縮格式並加速資料庫查詢,它允許更快的數據訪問和處理,這對於處理大規模數據集尤其重要。隨著數據量的爆炸性增長,企業對於高效處理和分析數據的需求也隨之增加。GPU加速已成為滿足這一需求的關鍵技術。未來,隨著更多企業投資於數據處理技術,藉助GPU加速的成本效益和性能優勢將變得尤為顯著。專用解壓縮引擎的應用,不僅能夠提高企業的數據處理速度,還能在保證效率的同時降低運營成本,這將極大推動數據密集型應用,如機器學習和大數據分析的發展。
顛覆硬體,顛覆軟體,更顛覆行業
本次GTC上,NVIDIA除了帶來硬體上的突破,更有軟體的創新。
NVIDIA 的 NIM 軟體包,構建在其強大的加速計算庫和前沿的生成式 AI模型之上。
老黃充滿自信地表示,客戶可以輕鬆地採用 NIM 的即用型微服務,或者 NVIDIA 也樂於為客戶量身打造專屬的AI和 AI 助手,以滿足特定的業務需求,並培養出獨一無二的模型技能,從而開拓寶貴的新服務。
行業層面上,面向IT企業,老黃用「坐在金礦上」的比喻形容企業 IT 領域的現狀,強調利用這些年來累積的工具和數據,通過 AI 助手為用戶創造更多可能性的巨大潛力。
在電信領域,NVIDIA 6G 研究雲的推出,結合了 AI 和 Omniverse 力量的創新平台,旨在推動通信技術的下一代進化。該平台基於 NVIDIA 的 Sionna 神經無線電框架、Aerial CUDA 加速無線電接入網路和 Omniverse Digital Twin for 6G,為未來的通信提供強大的支持。
NVIDIA 在半導體設計和製造領域也有了新動作。與TSMC 和 Synopsys 的合作,將旗下的計算光刻平台 cuLitho 投入生產,預計將使半導體製造中的計算工作負載加速 40-60 倍。
NVIDIA 地球氣候數字孿生的推出,能夠進行交互式高解析度模擬的雲平台,旨在加速氣候和天氣預測的進展。
老黃還強調了AI 在醫療領域的巨大潛力。目前,NVIDIA 已經涉足了成像系統、基因測序設備,並與手術機器人的領先公司合作。隨著一系列新的生物學軟體微服務的發布,將使全球的醫療企業能夠利用生成式 AI 的最新成就,提供先進的成像、自然語言和語音識別,以及數字生物學的生成、預測和模擬能力。
在工業領域,NVIDIA 正在通過 API 形式提供 Omniverse Cloud,將這個領先的工業數字孿生和工作流創建平台的能力擴展到整個軟體生產生態系統。通過五個全新的 Omniverse Cloud API,開發者現在可以輕鬆地將 Omniverse 的核心技術集成進自己的數字孿生設計和自動化軟體應用中,或者用於測試和驗證機器人或自動駕駛汽車等自主機器的仿真工作流。
智能汽車行業是NVIDIA一項重要布局。目前,世界上最大的自動駕駛汽車公司比亞迪選擇 NVIDIA 的下一代計算平台為其自動駕駛汽車提供支持。
機器人更是本次GTC的「大招」,英偉達發布了人形機器人通用基礎模型Project GROOT,以及基於 NVIDIA Thor 系統級晶片(SoC)的新型人形機器人電腦Jetson Thor。並且,還對NVIDIA Isaac機器人平台進行了重大升級,包括生成式AI基礎模型和仿真工具,以及 AI 工作流基礎設施。
如此多的行業,如此繁複的創新,英偉達構建起越來越強大的AI生態,正在引領生成式AI的新紀元。
用老黃的話說,當電腦圖形學、物理學、人工智慧交匯,便衍生出NVIDIA的靈魂。