英偉達和Google的首席科學家得出一個結論：推理時代，AI底層架構要全拆開來做

GTC 2026 keynote結束的第二天，英偉達英偉達和Google的首席科學家得出一個結論推理時代AI底層架構要全拆開來做首席科學家Bill Dally和Google首席科學家Jeff Dean坐到了同一個台上。前一天黃仁勛剛給整屆大會定了調——"The inflection point of inference has arrived"，推理的拐點已經到來。整場keynote他提了近40次"推理"，"訓練"只出現了10餘次。ChatGPT、o1推理模型、Claude Code智能體，他把這三件事稱為過去三年AI行業的"三件大事"，共同指向一個趨勢：推理需求正在吞噬訓練需求。

贊助商廣告

Dally和Dean的對話就是在這個定調之後展開的技術深潛。兩人分別站在AI算力硬體和大規模AI系統的第一線。Dally是互連網路和並行計算領域的教科書級人物（他寫過這個領域的教科書），2009年加入英偉達後帶領團隊實現了GPU推理性能在十年間提升1000倍的工程路徑；Dean則是Google基礎設施的奠基者之一，從MapReduce、BigTable到TensorFlow再到TPU，他的名字貫穿了Google過去25年幾乎所有關鍵基礎設施節點。2025年，兩人分別獲得了英國女王伊麗莎白工程獎。

這場對話是Dally在GTC上的年度保留節目。GTC 2024他和斯坦福教授、ImageNet創始人李飛飛對談，GTC 2025和Meta首席AI科學家Yann LeCun對談，今年輪到了Dean。每年的話題都圍繞硬體和AI研究的交匯點，但今年有一個貫穿始終的新主題：過去那種用一種晶片、一套流程打天下的思路行不通了，推理時代的每一個環節都需要拆開來做。

1. 模型在變強，強在"有標準答案"的地方

三四年前，模型在八年級數學題上只能答對40%到50%，大家就已經覺得了不起了。Dean說，過去一年模型在數學和編程上的進步速度遠超預期。Gemini在國際數學奧林匹克IMO拿了金牌，在國際大學生編程競賽ICPC也拿了金牌，12道題解出了10道，其中包括一道所有人類隊伍都沒做出來的題。

這背後的關鍵是Dean所說的verifiable rewards，也就是模型能拿到明確對錯反饋的那類任務。數學題有對錯，代碼能跑能不跑，這種清晰的信號讓強化學習的訓練效率遠高於模糊領域。如何把這種"有標準答案"的訓練方法擴展到沒有標準答案的領域，Dean認為是當前最重要的開放問題之一。

贊助商廣告

與能力提升同步發生的是工作模式的變化。以前讓模型做事，幾分鐘就要人來接手。現在可以交給它一個持續數小時甚至數天的任務，它會自己執行、自我糾錯、繼續推進。Dean說這是一個本質性的變化：模型從"回答問題的工具"變成了"在後台獨立運轉的智能體"。

研究本身也在被智能體改變。Dean回顧了2017年Google Brain團隊做神經架構搜索的經歷，當時叫NAS，研究者需要用代碼定義搜索空間。現在可以直接用自然語言告訴模型"請探索新的蒸餾算法，試試我們目前沒用到的資訊"，它就會自己跑50個實驗，淘汰40個，在剩下10個裡做深入跟進。"想到有研究價值的點子其實不難，難的是跑實驗、解讀結果。如果智能體能承擔大量這類工作，那就是超強研究者和超強智能體之間的協作。"

2. 智能體的瓶頸不在模型，在工具鏈

智能體要高效運轉，推理速度只是一半問題。Dean指出了一個容易被忽視的瓶頸：智能體調用的工具大多是為人類交互速度設計的，而且跑在CPU上。C編譯器的啟動時間、電子表格和文檔的編程接口，這些工具的響應速度從來沒有人在意過，因為人類夠慢。但當智能體運行速度比人快50倍時，工具延遲就成了主導因素。

把模型推理做到無限快，端到端也只能加速兩三倍。這就是阿姆達爾定律的翻版：可加速的部分再快，不可加速的部分就成了天花板。Dean認為接下來需要對整條工具鏈做一次徹底的重新設計——編譯器、文件系統、API接口，所有為人類速度設計的東西都要為智能體速度重寫。

這個判斷讓對話自然轉向了硬體側：推理本身也需要拆開來做。

3. 推理不是一種計算，而是三種

Dally給出了一個直接的判斷：推理已經不是"開始變重要"，推理就是現在的核心任務。數據中心90%的電力消耗花在推理上。

但推理內部並不是均質的。Dally把它拆成了三個截然不同的階段。

贊助商廣告

Prefill階段接近訓練的計算模式，所有token可以並行處理，計算密集，通信能耗高。Decode階段則完全不同，是矩陣乘向量運算，極度依賴記憶體頻寬和延遲。而Decode內部還可以進一步拆開——每一層Transformer對每個token做兩件事：先做注意力計算，再過前饋網路。

注意力計算是"看哪裡"。當前token對上文每個位置打相關性分數，分數高的資訊權重大，不相關的被忽略，最終從上文中萃取出相關資訊。上文資訊存在KV cache里，每個已生成的token都留有一對Key-Value向量作為檔案。注意力自身參數不大，以LLaMA 3 8B為例只占模型總參數的約17%，真正的負擔在KV cache：上下文越長cache越大，百萬token級別可達幾十上百GB。

前饋網路是"看完怎麼理解"。它接手注意力交出的萃取物，分揀出哪些特徵和當前任務相關，放大重要的，壓掉沒用的，打包傳給下一層。前饋網路是模型里的大塊頭，占總參數的約70%，模型的事實性知識大部分就編碼在這裡。Mixture of Experts這種讓不同輸入激活不同參數子集的架構里更直觀：前饋網路被拆成幾十個專家，代碼相關的token路由到編程專家，歷史相關的路由到另一個專家。

兩步對硬體的需求截然不同。注意力需要大容量儲存來放KV cache，只有GPU的HBM撐得住。前饋網路參數量占七成，每生成一個token都要完整讀一遍，讀取量大但模式規律。Groq LPU把SRAM直接做在晶片上，讀取頻寬150TB/s，是GPU HBM 22TB/s的約7倍；256塊LPU組成LPX機架，總共128GB SRAM，用數量換容量。

Dally預測未來會出現至少三種不同配比的硬體：一種擅長訓練和Prefill，一種擅長Decode中的注意力計算，一種擅長Decode中的前饋網路。

Speculative decoding能稍微緩解Decode的頻寬困境。它的思路是"先猜後驗"：用一個小模型快速猜出幾個token，再用大模型一次性驗證，把原本逐個生成的矩陣乘向量變成矩陣乘窄矩陣。擴散語言模型可能做得更好，一次生成幾百個token的塊。

贊助商廣告

而Dally在對話中說的"Decode可能分化為注意力專用和前饋專用兩種硬體"，黃仁勛已經做成了產品。GTC 2026上發布的Dynamo調度系統把attention decode路由給Rubin GPU，把FFN和MoE decode路由給Groq LPU，兩種晶片協作處理同一個token的同一層，各干自己最擅長的那一半。

4. "別搬數據"：四個字背後的能耗算術

當你把推理優化到極致、batch size壓到最小來追求單用戶低延遲時，計算本身已經不是瓶頸了，通信延遲才是。Dally詳細拆解了兩層通信開銷。

片上通信方面，英偉達正在研究靜態調度的設計，取消路由開銷、排隊和仲裁，讓信號以接近光速傳播。晶片一角到另一角只需30納秒，而現在的方案要幾百納秒。片外通信方面，過去的高速互連為了最大頻寬做了極複雜的數字信號處理和前向糾錯，但如果把頻寬從每對400Gbps降到200Gbps，這些複雜處理全部消失，只剩下序列化延遲，幾個時鐘周期就能完成。Dally說他有信心做到每秒10000到20000 token的單用戶推理速度，前提是用對了架構。

然後他給出了一組讓全場安靜下來的能耗數字。

用NVFP4這種英偉達自研的4位浮點精度做一次乘加運算，大約消耗10飛焦耳，femtojoule，小數點後面跟14個零的那種小。但從HBM4外部儲存器讀取那4.5個比特的數據，按每比特3到4皮焦耳計算，總共約15皮焦耳。讀一個數字的能耗，是算一次的1000倍。

從片上SRAM讀數據呢？也是大約10飛焦耳，和計算本身一個量級。所以核心策略只有四個字：別搬數據。

"有人笑了，但我是認真的。" Dally說。英偉達在研究的方案是把矩陣的一行直接放在SRAM里，激活向量也在旁邊，就地做點積運算。1000次乘加不需要任何數據搬運，最後把1000個數縮減成1個輸出值。

SRAM雖好，但每比特的面積成本比DRAM高一個數量級。真正讓Dally興奮的技術是把DRAM直接堆疊到GPU晶片上方。讀DRAM的能耗大部分其實不是讀儲存單元本身，而是把比特從儲存位置搬到GPU引腳的那段路程。如果DRAM就在晶片正上方，比特直接垂直落下來，讀取能耗降一個數量級，頻寬升一個數量級，總功耗不變但性能大幅提升。Dally用了一個比喻：像彈珠機一樣，把你要的比特往下彈進運算單元。

贊助商廣告

數值精度的優化空間可能比想像中更大。Dean問了一個問題：有沒有考慮過用lookup table做數值表示？每個符號可以精確放在數軸上你想要的位置，但總共只有幾個符號可選。Dally說確實在研究，代價是計算邏輯會更複雜，但在某些場景下值得。

5. 注意力的未來：對萬億token做檢索，對百萬token做注意力

模型在變大，注意力窗口也在變長，但離真正想要的規模還差幾個數量級。Dean指出，理想狀態是模型能對所有資訊做注意力：網際網路上所有文檔，個人所有郵件和照片。

他給出的方案是分層過濾。先用輕量級檢索機制從萬億token中篩出大約一萬篇文檔，總量可能到一兩千萬token；然後用稍重一些的機制從中挑出約百萬token放進上下文窗口，再做全量注意力。本質上是用檢索代替注意力來覆蓋長尾資訊，只在最後一層用全量注意力處理真正相關的內容。

當前的注意力優化方案可以分成兩類。一類是分塊注意力，把token切成比如128個一組的塊，先粗篩哪些塊可能有用，再只對有用的塊做全量注意力，仍然是二次複雜度，但常數因子大幅縮小。另一類是聚類注意力，把注意力狀態做聚類，只看和當前查詢最相近的簇，理論上可以把複雜度從二次降下來。兩種方案的共同代價是相對於全量二次注意力會損失一些質量，所以這是一個工程權衡。

Dally從硬體視角補充了另一層拆解。模型趨勢是參數越來越多但越來越稀疏，每次推理只激活一小部分。這迫使硬體設計者在四種資源之間做取捨：算力、記憶體頻寬、記憶體容量、通信頻寬。當模型架構發生變化，比如從group query attention換成multi-head latent attention，這四種資源的最優配比就會跟著變。Dally坦言沒有辦法完全預測未來模型需要什麼配比，如果差異足夠大，英偉達可能會做不同配置的SKU來對沖這種不確定性。

6. 數據沒有枯竭，訓練範式需要重寫

贊助商廣告

Dally問了一個直接的問題：按照chinchilla scaling law，一定量的算力應該配多少參數和多少token的訓練數據，但數據快用完了怎麼辦？

Dean先做了一個重要澄清：chinchilla scaling law針對的是訓練效率最優，如果你把推理階段的性能也算進去，最優配比可能不一樣。業界慣用的"參數量乘以20等於token數"這條經驗法則，在推理成本占比越來越高的時代可能需要修正。

然後他明確反對"訓練數據快用完了"的說法。影片和關聯音頻數據、真實世界的機器人和自動駕駛數據、合成數據，這些都遠未被充分利用。Dally追問：合成數據不就是原有數據的另一種表達嗎？Dean承認存在這個問題，但指出如果生成合成數據的模型本身足夠強，產出的數據確實能幫助目標模型。此外，圖像模型時代常用的data augmentation，也就是對現有數據做旋轉、裁剪、加噪等變換來擴充訓練集，以及dropout、蒸餾等防止模型過擬合的技術，在LLM領域還遠未被充分探索。

Dean接著提出了一個更激進的觀點。當前預訓練的本質是：隨機初始化模型，把它"綁在板子上"，讓網際網路數據從面前流過，模型被動觀察學習，不與世界交互。他認為預訓練和後訓練之間的界限應該消失。未來應該在預訓練階段就讓模型採取行動，在模擬環境中操作，預測問題的答案，然後根據反饋調整下一步學什麼。模型還應該能自主選擇接下來看什麼數據，而不是被動接受預先排好的順序。

Dally直接把這和AlphaGo類比：能不能讓LLM互相對話來提升性能？Dean覺得方向是對的，但模型要先聰明到一定程度才能從這種交互中獲益。"給它看100億個token之後，它大概就能做點什麼了。"

7. 用AI設計AI的晶片：80人月變成一個GPU跑一晚

訓練範式在變，設計訓練硬體的方式本身也在變。Dally介紹了英偉達內部用AI做晶片設計的四個層面。

NVCell用強化學習自動生成標準單元庫，也就是晶片中最基礎的邏輯積木塊。每次換到新的半導體工藝節點，都需要把大約2500到3000個標準單元移植過去。以前需要8人團隊花10個月，合計80人月，現在一塊GPU跑一晚上就完成，而且在面積、功耗、延遲等指標上達到甚至超過人類設計。

贊助商廣告

PrefixRL用強化學習解決carry look-ahead chain的設計問題，這是加法器里決定進位信號怎麼傳播的關鍵電路，從1950年代就開始有人研究。AI把它當成Atari遊戲來玩，目標是做剛好滿足時序要求、同時面積和功耗最小的加法器。產出的設計人類工程師看著匪夷所思，但指標好了20%到30%。

ChipNeMo和BugNeMo是把通用LLM用英偉達所有歷代GPU的RTL代碼和架構文檔微調後得到的專用模型。RTL是寄存器傳輸級，晶片設計中用硬體描述語言寫成的源代碼，地位相當於軟體工程里的源碼。這兩個模型最大的價值在於充當一個極其耐心的導師：新工程師不用去問資深工程師"紋理單元怎麼工作"這類基礎問題了，直接問ChipNeMo，它會詳細解釋，還能回答追問。Bug歸屬判定、報告摘要等重複性工作也由它處理。

探索性架構搜索是最新的方向。用agentic系統提出各種設計方案的參數空間，跑簡單的架構實驗，縮小設計空間到人類可以審視的規模。Dally說，從探索階段結束到最終流片之間，最大的瓶頸是設計驗證，這也是他們重點用AI加速的環節。"我當然想說一句'幫我設計新GPU吧，我出去滑幾天雪'然後回來就好了。但離那一天還遠。"

Dean介紹了Google做TPU時的協同設計流程。ML研究者會告訴硬體工程師"我們兩三年後可能會大量做這類運算"，硬體工程師看了說"這個我們做不快，但如果改成另一種計算方式呢？"ML研究者拿到這個約束條件，去做原型驗證看是否可行。這種互動有時候會產生一些賭註：在矽片中放一些實驗性的加速功能，賭兩到四年後會用上。賭對了，某類運算能在硬體上加速10到20倍；賭錯了，那塊晶片面積就閒置，損失可控。

8. 網路拓撲：沒有一種網路對所有流量模式都好

Dean提到Google TPU使用的是2D/3D Torus直連網路，能擴展到數千塊晶片，但拓撲結構不同於英偉達基於交換機的全互連方案。Dally的回應資訊量極大，他寫過互連網路領域的標準教科書，這個問題正好在他的主場。

贊助商廣告

如果計算負載局部性強，直連網路效率高，一跳就到鄰居。但MoE模型的專家分散在各處，需要多跳才能到達目標，這時經過交換機一上一下反而更快。Dally透露英偉達研究部門曾做過一個實驗性推理系統，未量產，採用混合方案：近距離用flattened butterfly拓撲做直連，這種拓撲比Torus多幾條快捷鏈路、覆蓋範圍更廣；遠距離則通過交換機層級處理。

Dean總結得乾脆："給定一種流量模式，你能找到最優網路。但沒有一種網路對所有流量模式都好。"

這句話其實適用於這場對話討論的每一個層面。推理不是一種計算，需要拆成三種。能耗的解法不是一個策略，需要SRAM、DRAM堆疊、數值精度多管齊下。注意力的未來不是一種算法，需要分層檢索加分塊注意力的組合。訓練範式不是一套流程，需要把預訓練和後訓練的界限打破重來。

9. 教育、醫療，和4萬人公司的成長煩惱

兩人在AI社會影響上有高度共識。個性化教育輔導可以讓學習效果提升一到兩個標準差。Dean認為接下來幾年完全有可能做出不會直接給答案、但能幫學生更高效掌握概念的AI輔導系統。模型的跨模態能力讓這件事更可行：有人聽播客比讀課本更容易理解生物學，有人通過交互式遊戲比讀公式更容易建立物理直覺。

Dally則描述了他心目中的AI健康教練：一個坐在你肩膀上的小天使，在你第四次走進麥當勞時提醒你拐角有家沙拉店。他承認自己在黃仁勛的活動上只吃到了甜點當午餐，要是有個AI教練就好了。Dean提到他和多位合著者在2024年底發布了一篇論文，可以在shapingai.com上讀到，系統分析了AI在就業、教育、醫療、媒體、國家安全、科學等七個領域的潛在影響，並提出了18個具體的研究方向。

對話尾聲兩人聊到了大公司的成長代價。Dally從2003年就開始給英偉達做顧問，當時公司不到1000人，決策極快，零官僚。現在4萬多人，有了規則和層級，但黃仁勛仍然保持了創業公司的氛圍。Dean也有同感：他加入時Google員工全擠在Palo Alto一間T-Mobile店的樓上，現在18萬人，每次規模翻倍都會讓某些原來有效的做法失效。兩人的共識是：成長帶來了以前做不到的事情，但也要不斷想辦法避免官僚化吞噬執行力。

贊助商廣告

這場對話覆蓋的技術跨度極大，從飛焦耳級別的能耗計算到萬億token級別的注意力架構，從單個加法器電路到整個數據中心的網路拓撲。但貫穿始終的邏輯只有一條：AI進入推理時代後，過去那種用一種晶片、一套流程、一個架構打天下的思路走到頭了。每一個層面都需要拆開來做，每一個層面都需要專門化的解法。黃仁勛在keynote上說的"推理拐點"，Dally和Dean在這場對話里給出了它的技術註腳——拐點之後，分化開始。

核心問答

Q1: 推理為什麼突然變得比訓練更重要？數據中心90%的算力已經花在推理上。隨著智能體工作流從分鐘級擴展到天級，推理的總量和對延遲的要求同時在飆升。英偉達收購Groq、拆分推理硬體為多種專用晶片，都是這個趨勢的產物。對開發者來說，未來的性能優化重心會從"怎麼訓得更快"轉向"怎麼推理得更快更省"。

Q2: 降低AI能耗最有效的槓桿是什麼？搬數據的能耗是計算本身的1000倍。從片上SRAM就地計算能把數據搬運降到零，但SRAM面積成本太高。把DRAM堆疊在計算晶片正上方是兩人都認可的最有前景的方向，能同時提升一個數量級的頻寬和降低一個數量級的能耗。更高效的數值表示也是一個槓桿，英偉達的NVFP4已經把精度壓到4位浮點，lookup table方案可能走得更遠。

Q3: 模型自我改進離現實還有多遠？Dean說"整套流程還沒完全到位，但已經能看到苗頭了"。現在可以用自然語言告訴模型"去探索這個方向上的改進方案"，它能自主跑幾十個實驗並做初步篩選。完全自主的"模型設計下一版自己"可能還需要數年，但研究者生產力的提升已經是現實。關鍵突破點在於：如何把可驗證獎勵領域的RL訓練方法擴展到更廣泛的、沒有標準答案的研究領域。