過去幾年,外界看AI基礎設施,習慣了先看GPU的性能、HBM容量、先進封裝、單卡峰值算力和整機櫃密度。而到了Agentic AI階段,這套方法開始有了局限性。
原因很簡單。模型停留在生成回答時,GPU吞吐和顯存是主要問題;但是,模型開始調用工具、執行代碼、訪問資料庫、檢查結果並繼續推理以後,系統壓力會向外擴散。CPU調度、內存頻寬、網路互連、安全運行時、電力管理、本地終端和物理仿真,都會進入同一條任務鏈路。
Agent是Agentic AI的核心執行單元。Agent一出現,AI基礎設施的短板就從單卡性能擴展到了整個系統。
黃仁勛在GTC台北提到一句話:「Agentic AI has arrived」。這句話的背後的含義也指向的是AI負載的變化。AI正在從問答界面進入任務流程。一次Agent任務包含計劃、工具調用、沙箱執行、結果回傳、再次推理等多個步驟。計算資源能否穩定產出Token,比單張晶片參數更接近客戶每天要算的運營指標。

在GTC台北上,NVIDIA在產品技術更新中,透露出的一個變化也在這方面。其實,NVIDIA的業務口原本就覆蓋伺服器、PC、機器人、自動駕駛等。但是當Agent成為新負載以後,這些業務被重新收攏,並指向同一個路徑——怎樣讓有限的能源、晶片、軟體和終端設備,持續轉化為可收費、可交付、可驗證的Token產出。
這也是黃仁勛經常提到的「五層蛋糕」中的核心理念之一。
01 重估Token「KPI」,從「生成」到「任務完成度」
Agentic AI執行的並非是某一次回答,而是一連串動作。
當模型開始規劃步驟、調用工具、執行代碼、訪問資料庫,再把結果送回模型繼續推理,一個任務被拆成多少輪,每一輪消耗多少Token,工具調用有沒有走彎路,CPU和外部系統讓GPU等了多久,都會影響最終的任務完成時間。
這也是Token需要在Agentic AI階段被重新定義的原因。對雲服務商來說,Token關係到API、訂閱和算力服務的計費;對企業來說,Token會進入代碼生成、數據查詢、客服工單、研發驗證、仿真評估等流程。只有這些任務能穩定跑起來,Token才會從模型輸出變成可衡量的生產力。
簡單來說,企業要算的不是「生成了多少字」,而是「完成了多少任務」。
於是,NVIDIA把這條工程鏈路拆成了Agentic inference循環。GPU負責生成下一步動作,CPU負責執行工具調用和沙箱任務,外部系統返回結果以後,模型再繼續推理。循環越短,Agent完成任務越快。同樣的晶片和電力,也就能支撐更多任務。強化學習系統也一樣,單位時間內完成的評估越多,模型改進的速度才會更快。
沿著這條工程鏈,Agent的軟體棧也可以拆開來看。模型負責推理,Harness
負責讓模型協調瀏覽器、終端、儲存和子Agent,工具負責具體執行,skills規定工具應該怎樣調用,運行時則管理權限、安全和長時間任務。這裡的每一層都會影響Token成本,因為Agent一旦走錯步驟,就會多消耗一次推理、多等待一次外部系統,也多占用一段算力。
這也是為什麼企業落地Agent時,通常不會先做一個萬能助手。就比如,Cadence、CrowdStrike和ServiceNow這些企業,分別把Agent用於晶片設計、安全運營和IT服務管理。它們對應的都是具體崗位、具體流程和明確工具鏈。Agent越專用,執行路徑就越重要;路徑越清楚,Token消耗和任務時延才越容易控制。
NVIDIA Skills優化的就是這段路徑。NVIDIA Skills 是NVIDIA 構建的AI智能體能力生態系統,包含三大核心組件:面向大模型能力增強的NeMo Skills、面向智能體安全治理的Verified Agent Skills,以及2026年GTC 剛發布的物理AI技能庫。其解決了 AI 智能體「能做什麼」 和「怎麼安全地做」 兩大核心問題,是NVIDIA Agentic AI 戰略的關鍵落地載體。
NVIDIA Skills可為CUDA-X庫、數據科學優化、企業知識、模型構建、AI、物理仿真和量子等方向,提供可由Agent讀取的任務說明。對Agent來說,Skill的作用是告訴它調用什麼工具、按什麼步驟執行、怎樣減少無效嘗試。

截取自:NVIDIA
坦白講,少走一步彎路,就少燒一段Token。
具體來看以CUDA-Q Skill為例,運行在Claude Agent中的工作流速度提升30%,步驟減少40%;NeMo Evaluator Skill可以把評估配置速度提升10倍,把自定義基準從數天壓縮到數分鐘。這些數字對應是任務路徑被壓短以後,Token消耗、等待時間和人工介入一起下降。
再往下,Token成本還關乎電力問題。傳統數據中心通常按最大峰值簽訂電力合同,峰值里包含計算峰值、冷卻冗餘和突發負載預留。但AI負載並不總在滿功率運行,預留電力如果沒有用於Token生成,就會變成空置產能。
NVIDIA更新的DSX MaxLPS處理的正是這類問題。其可以實時監測每塊GPU、每個機架和每排設備的功耗與配置,讓運營方在固定電力包絡內安全部署更多GPU。NVIDIA給出的數字是,同樣電力包絡內最多可多部署40%的GPU,對應40%更多計算、Token和收入。

截取自:NVIDIA developer
黃仁勛在現場說:「如今,AI已成為利潤引擎,也是GDP引擎。」這句話放到AI工廠里,含義是,晶片採購價解釋的是初始投入,單位電力能否穩定產出更多Token,系統故障和生命周期會不會抬高單位Token成本,這才是AI工廠運營者需要長期計算的部分。
02 消除GPU空轉,Vera全面投產,打破AI工廠的「木桶短板」
Agent任務變長以後,GPU生成只是第一步。
代碼要編譯,資料庫要查詢,沙箱要運行,外部系統要回傳結果,安全系統還要判斷Agent能不能讀取數據。這些工作大多發生在CPU和系統軟體側。原因在於,GPU擅長並行生成和矩陣計算,但Agent每生成一個動作以後,後續步驟往往要進入作業系統、資料庫、網路、儲存和安全策略。CPU要負責調度這些任務,執行大量分支判斷和I/O操作,再把結果送回模型繼續推理。
如果CPU處理這些步驟的速度跟不上,GPU就只能等待下一輪上下文和執行結果。這個等待放在單次任務里可能很短,放到大規模Agent和強化學習系統里,就會變成吞吐損失。
GPU負責生成下一步,CPU要把下一步儘快執行出來。
在GTC台北上,NVIDIA宣布Vera已經全面投產,並將從今年秋季開始由系統構建商和雲合作夥伴陸續推出。
Vera面向的正是智能體AI、強化學習和數據處理等。NVIDIA給出的數字是,Vera的任務完成速度比傳統x86 CPU快1.8倍。Anthropic、OpenAI、Space、xAI等AI實驗室,以及字節跳動、CoreWeave、Lambda、Nebius、Nscale和OCI等雲服務商,都已計劃採用Vera。

截取自:NVIDIA
具體來看,Vera採用88個NVIDIA自研的Olympus核心,單核心每周期指令數相比Grace提升50%,配備1.2TB/s LPDDR5X內存頻寬,並通過3.4TB/s片上互連讓核心訪問其他核心和緩存。在Python、代碼分析、代碼編譯等常見Agentic工具上,Vera相比x86提供1.8倍性能。
如果把Vera放到Agent的任務鏈路中看。其88個Olympus核心決定的是並發能力,Olympus的單核心每周期指令數相比Grace提升50%,意味著每個核心在同樣時鐘周期內能處理更多指令。對Agent來說,這會影響Python執行、代碼分析、代碼編譯和工具調度這些高頻任務。
內存頻寬同樣重要。Vera配備1.2TB/sLPDDR5X內存頻寬,作用是讓CPU核心更快拿到數據。Agent運行時會頻繁讀取上下文、腳本、工具返回結果和外部數據,如果內存頻寬不足,CPU核心即使數量很多,也會因為取不到數據而持續等待。另外,Vera通過3.4TB/s片上互連,讓核心訪問其他核心和緩存。
此外,Vera是Vera Rubin平台的主機CPU。通過NVLink-C2C讓CPU與GPU之間實現高達1.8TB/s的相干頻寬。所謂相干頻寬,意思是CPU和GPU共享數據時,可以保持緩存和內存視圖一致,減少反覆複製和同步開銷。Agent任務循環越多,CPU和GPU之間交換上下文、執行結果和中間狀態的次數越多,這條通道就越重要。
截取自:NVIDIA
這一方式,對Agent很重要。Agent任務會在CPU和GPU之間來回切換:GPU推理,CPU執行工具,CPU拿到結果後再交給GPU繼續推理。CPU和GPU之間的數據通道越快,任務循環越容易縮短。
在安全上,Vera把NVIDIA機密計算擴展至機架規模。機密計算保護的是數據在執行過程中的安全,而不只是儲存或傳輸時的安全。Agent會代表用戶訪問敏感數據、調用高權限工具,如果安全只靠事後審計,風險發生時已經晚了。而把保護能力放進執行路徑,才能在Agent讀取數據、調用工具、跨節點運行時減少越權和數據暴露。
此次更新的Vera BlueField-4 STX錨定的是網路、儲存和安全部分。其把Vera CPU與網路、儲存加速和晶片級安全能力結合起來,為AI原生數據平台提供支撐。
放到場景里,Agent需要頻繁檢索數據、保存中間狀態、調用外部服務,如果這些I/O任務的全部壓力都在主CPU上,CPU會被數據搬運拖住。BlueField-4 STX的作用,就是把一部分網路、儲存和安全工作從主CPU里分擔出來,讓CPU把更多時間留給任務執行。
再往集成層看,Vera負責CPU側執行和調度,Rubin GPU負責大規模推理與訓練,Vera BlueField-4 STX處理數據、網路和安全,Spectrum-6 SPX以太網機架處理AI工廠內部的網路流量。

截取自:NVIDIA
這或許才是Vera Rubin的重點。其把Agent任務經過的幾段路徑提前放到同一套系統里設計。任務鏈越長,客戶越不能只靠機房裡的臨時拼接來解決性能、可靠性和運維問題。
量產能力方面,Vera Rubin平台已經進入全面生產階段。NVIDIA表示,其量產體系依託超過150家供應鏈合作夥伴,覆蓋數百個製造站點和數百萬平方英尺工廠空間。
這背後對應的是AI工廠建設周期的問題。
因為AI工廠並不是採購晶片之後就能立即產生Token。客戶還需要完成系統組裝、測試驗證、部署上線以及後續穩定運行。供應鏈規模越大、協同能力越強,系統交付的不確定性就越低,客戶從建設到投產的周期也越容易控制。
為了進一步縮短這一周期,NVIDIA還重新設計了機架結構。
過去,組裝一套Grace Blackwell機架大約需要兩小時。Vera Rubin機架通過減少電纜和液冷軟管數量,並採用定製PCB直接連接機架兩側,將裝配時間壓縮到約5分鐘。組裝流程越簡單,連接點越少,潛在故障點也越少,系統上線速度隨之提升。
從這個角度看,5分鐘縮短的是客戶開始產生計算產出、啟動業務回報的時間。
而當系統真正投入運行後,關注點會從建設階段轉向運營階段。
為此,NVIDIA推出了面向AI工廠運營的模組化開源軟體平台DSX OS,用於基礎設施的配置、運行和監測。其中,DSX Exchange負責打通計算、供電和冷卻系統,通過統一API實現協同管理;DSX Flex把數據中心負載與電網信號連接起來,使AI工廠能夠根據電力供應情況動態調整負載;DSX MaxLPS則在既定電力預算下提升可部署GPU數量,減少電力資源閒置帶來的浪費。
如果把Vera CPU、Vera Rubin平台以及DSX軟體體系放在一起看,會發現Vera解決的是計算節點,Vera Rubin負責系統級集成,DSX則負責數據中心的運營和調度。它們共同覆蓋了AI工廠從建設、部署到運行的完整鏈路。
這背後對應的也是Agentic AI帶來的變化。當AI執行任務,決定效率的是整個系統能否持續、穩定地完成任務流轉。CPU、GPU、網路、儲存、電力以及供應鏈等環節,都會影響任務完成速度,並最終影響單位Token成本。
03 Agent「下沉」,走向「雲端協同」
數據中心解決的是大規模Token產出,但企業日常任務還有另一段路徑。
Agent要處理任務,還要在權限邊界內訪問本地數據。但是其很多動作不能完全留在雲端完成。原因很簡單,雲端可以提供模型能力,但企業流程發生在用戶的設備、應用、賬號和權限體系里。Agent如果進不去這些路徑,就很難真正替用戶完成工作。
所以,企業Agent,僅靠模型本身並不夠。模型擅長推理和生成內容,但執行任務還需要能夠調用瀏覽器、終端、文件系統、代碼工具以及各種外部服務。負責協調這些能力的框架,被稱為Harness。
可以把Harness理解為Agent的執行層。沒有它,模型只能給出建議;有了它,模型才有機會把建議拆解成一系列可執行動作。Agent從「會說」走向「會做」,中間依賴的正是這類協調機制。
NVIDIA Agent Toolkit瞄準的就是這一層能力。其整體方案包含Nemotron模型、Agent開發庫、Skills能力模組、NemoClaw藍圖以及OpenShell運行時環境。
在這套體系中,Nemotron負責推理和決策,決定下一步應該執行什麼任務;NemoClaw幫助開發者基於OpenClaw、Hermes等開放Harness構建Agent;Skills定義Agent如何調用不同工具和服務;OpenShell則負責運行時管理,對敏感數據和高權限工具的訪問進行控制。
換句話說,NVIDIA提供的是一套讓模型能夠接入工具、執行任務並安全運行的Agent基礎設施。
Nemotron負責解決Agent的執行效率問題,OpenShell處理的則是Agent進入生產環境後的安全問題。
長時間運行的Agent會代表用戶訪問企業數據、調用資料庫、讀取文件甚至執行代碼。傳統軟體的權限體系主要圍繞人和應用設計:用戶發起一次操作,系統完成一次授權和審計。但Agent可在幾分鐘內連續執行數百次工具調用,如果仍然依賴事後審計,很難跟上它的執行速度。
因此,Agent的安全控制需要從應用層下沉到運行時和作業系統層。
OpenShell承擔的正是這一角色。它被集成到Canonical Ubuntu、Red Hat OpenShift以及Microsoft Windows等平台中,使Agent在訪問文件、調用工具和執行代碼時,能夠直接受到作業系統權限體系和安全策略的約束。

(OpenShell 的自主代理架構其核心組件包括沙箱、策略引擎和隱私路由器)
截取自:NVIDIA developer
而當運行時安全問題得到解決後,Agent才具備大規模部署的基礎。目前,Windows生態覆蓋超過10億台活躍設備,Red Hat OpenShift則廣泛運行於大型企業環境之中。對於NVIDIA而言,把OpenShell嵌入這些平台,實際上是在為Agent進入現有企業基礎設施鋪路。
Nemotron和Agent Toolkit解決的是Agent如何完成任務,OpenShell解決的是Agent如何安全完成任務,那麼接下來的問題則是:這些任務的執行載體是什麼?
其實,並非所有Agent的任務都適合在數據中心完成。
當Agent需要理解螢幕內容、處理本地文件、調用作業系統權限、響應語音指令時,數據往返AI工廠會帶來額外的網路延遲、數據傳輸,以及安全問題。對於很多實時交互任務而言,執行位置本身已經成為效率的一部分。
因此,Agent時代的計算架構開始從單純依賴雲端推理,轉向雲端與本地協同。
在這一背景下,NVIDIA把RTX Spark和RTX Station放進了Agent體系里。
RTX Spark是面向個人智能體PC。NVIDIA表示,其可讓輕薄Windows筆記本和緊湊型桌面主機具備1 Petaflop AI性能,由MediaTek聯合打造,運行微軟Windows系統,面向始終在線、始終本地運行的個人Agent。RTX Spark的作用,就是把部分Agent執行能力留在本地,讓雲端模型能力與個人工作流形成協同。

截取自:NVIDIA
面向企業團隊,NVIDIA也進一步更新了DGX Station(for Windows)。
與個人終端不同,企業研發、設計和軟體開發團隊往往需要同時運行多個模型和多個Agent,並持續共享代碼、數據和中間狀態。此時,瓶頸不再只是推理能力,而是模型、數據和Agent之間能否高效協同。
DGX Station基於GB300架構,將Grace Blackwell級基礎設施帶入Windows生態,最高支持748GB一致性內存、20 Petaflops FP4計算性能以及800Gb/s ConnectX網路,可運行萬億參數模型並編排數百個Agent。
在多Agent協作場景下,模型、代碼和數據需要頻繁共享上下文。如果CPU與GPU之間無法高效訪問同一份數據,系統就需要不斷進行數據複製和搬運。DGX Station優化的,正是這種本地協同成本。
04 物理AI落地,先過數據、驗證「兩道關」
如果說Agent AI解決的是數字世界裡的任務執行,那麼物理AI面對的則是另一個問題:如何讓機器人、車輛和工業系統學會在真實世界中行動。
與語言模型主要學習人類已經產生的知識不同,物理AI需要學習的是現實世界的運行規律。機器人邁出一步後是否會失去平衡,車輛變道後周圍交通會如何變化,機械臂抓取物體時目標會不會滑落,這些問題都不是語言問題,而是物理世界狀態變化的問題。
因此,物理AI需要的不僅是模型,更需要一套覆蓋數據生成、環境構建、模型訓練、策略驗證和邊緣部署的完整開發體系。
為此,NVIDIA此次更新了開源物理AI技能與工具集合。其中,Omniverse負責構建基於OpenUSD的仿真與數字孿生環境;Cosmos負責物理世界的推理與生成;Isaac面向機器人仿真和學習;Metropolis提供視覺AI能力;Alpamayo服務自動駕駛開發;Jetson則負責將訓練完成的模型部署到邊緣設備運行。
這些產品看起來分散,但實際上對應著物理AI開發鏈路上的不同環節。
而在整條鏈路中,Cosmos 3是最核心的基礎模型之一。

截取自:Github
Cosmos 3是一款面向物理AI的開放世界模型,採用混合Transformer架構,能夠同時處理文本、圖像、影片、聲音、觀察數據以及動作資訊,並預測未來場景的發展變化。
在此基礎上,NVIDIA提出了「世界推理(World Reasoning)」能力。
簡單來說,世界推理回答的是這樣一個問題:如果執行某個動作,接下來會發生什麼?
例如機器人向前邁一步會不會跌倒,自動駕駛車輛變道後周圍車輛會如何響應,工廠設備調整參數後是否會影響後續工序。
而「世界動作模型(World Action Model)」則進一步把這種預測轉化為可學習的經驗,讓機器人、車輛和工業系統能夠從中學習如何決策。
事實上,對於物理AI而言,這種能力的重要性在於解決訓練數據的問題。因為物理AI所需的數據,與網際網路時代的大模型截然不同。
機器人需要學習抓取和移動,自動駕駛需要學習道路交互,工業系統需要學習設備運行狀態。而很多極端場景在現實世界裡既昂貴又難以採集。真實道路上的危險駕駛場景不會每天發生,工廠里的異常故障也不可能為了訓練模型反複製造。
所以,NVIDIA將Cosmos與Omniverse結合,開發者能夠生成大量原本難以獲得的訓練樣本,用合成數據擴大訓練覆蓋範圍,並減少真實環境中的數據採集和人工標註成本。
這條路徑目前已經進入實際產業場景。
和碩利用缺陷圖像生成技能,將模型訓練和部署時間縮短67%;台達電子利用合成缺陷數據檢測金屬母線過度焊接,檢測率提升17%;英業達將筆記本電腦機箱製造中的缺陷數據收集工作量減少30%;Foxconn則與DeepHow合作,將一次通過率提升約3%。
這些場景中,均是先利用生成式AI擴大訓練覆蓋範圍,再減少真實產線上的數據採集和標註負擔。
數據只是第一步,對於自動駕駛、機器人以及先進制造而言,更大的挑戰在於驗證。因此,物理AI還需要一個能夠反覆試錯的數字世界,這也是Omniverse和數字孿生體系存在的原因。
輔助駕駛場景就是典型案例。
理想汽車、千里科技和元戎啟行正在利用Omniverse NuRec進行神經場景重建和渲染,每天生成超過1000個重建場景以及30多萬次渲染與仿真。
這一過程中,Omniverse NuRec的作用,是把真實車隊採集到的道路數據重建為可交互、可仿真的三維環境。

Omniverse NuRec(截取自:NVIDIA)
這樣一來,開發團隊就能夠在同一個路口、同一段道路上反覆測試不同的傳感器配置、駕駛策略以及長尾場景,而不必每次都重新回到真實道路採集數據。
先進制造業同樣遵循這一邏輯。NVIDIA透露,台積電還在探索基於Omniverse構建FabTwin數字孿生晶圓廠。
當數據和環境都具備之後,就來到了物理AI最關鍵的難關——讓系統學會決策。這是開環訓練與閉環訓練的差別。開環訓練檢驗的是模型面對歷史數據時預測是否準確;閉環訓練則會把模型做出的動作重新反饋到環境中,讓下一輪觀察受到這個動作影響。
現實世界裡的錯誤往往會不斷累積,因此閉環訓練比單純預測更接近真實環境。
針對這一環節,對應的是NVIDIA即將更新的Alpamayo 2 Super和AlpaGym。
Alpamayo 2 Super是一款320億參數的開放推理模型,用於自動駕駛場景中的推理、規劃、標註和評估;AlpaGym則提供開源閉環強化學習框架,讓開發者能夠在仿真環境中持續訓練和優化自動駕駛策略。
場景上,NVIDIA與宇樹科技聯合推出Unitree H2 Plus人形機器人參考設計,搭載先進五指靈巧手(Sharpa Wave 觸覺五指手,22 自由度)、Jetson Thor以及Isaac GR00T相關能力,並計劃於10月推出。

截取自:NVIDIA
05 「AI工廠」開始比拼運行邏輯
到這裡,GTC 台北 2026的核心邏輯已然逐漸清晰。
過去幾年,AI基礎設施競爭討論最多的是晶片。行業習慣比較參數、比較算力規模、比較集群數量。算力越強,似乎就意味著競爭力越強。
但Agentic AI的出現,正在改變這套邏輯。一個Agent完成任務的過程中,需要訪問數據、調用工具、執行代碼、與其他Agent協同,並不斷根據環境變化調整行動。此時,決定效率的因素是整個系統能否穩定地完成任務流轉。
這也是為什麼黃仁勛在整場演講中反覆強調Token。
Token產生得越快、成本越低、質量越穩定,AI工廠的運營效率就越高。從這個角度看,AI工廠的競爭也正在發生變化。固定電力預算下能夠產生多少計算產出,任務執行過程中有多少等待時間,資源利用率能做到多高,系統擴展時會不會影響穩定性,安全治理能否跟上自主Agent的執行速度,這些問題開始變得和晶片性能同樣重要。
因為對於企業而言,採購只是一次性支出,而運營才是長期成本。企業最終關心的,仍然是投入的資源,能夠轉化為多少實際業務價值。
而這恰恰也是AI工廠與傳統數據中心最大的區別。
前者衡量的是容量,後者衡量的是產出。
因此,當下的產業邏輯是,當AI進入Agent時代之後,基礎設施競爭開始從「誰擁有更強的算力」,逐漸轉向「誰能夠把算力變成持續運行的生產力」。
而後者,正在成為下一階段AI產業競爭的新起點!






