GTC台北｜Token成為AI工廠新「kpi」，NVIDIA圍繞「每瓦Token」展開全棧升級

過去幾年，外界看AI基礎設施，習慣了先看GPU的性能、HBM容量、先進封裝、單卡峰值算力和整機櫃密度。而到了Agentic AI階段，這套方法開始有了局限性。

贊助商廣告

原因很簡單。模型停留在生成回答時，GPU吞吐和顯存是主要問題；但是，模型開始調用工具、執行代碼、訪問資料庫、檢查結果並繼續推理以後，系統壓力會向外擴散。CPU調度、記憶體頻寬、網路互連、安全運行時、電力管理、本地終端和物理仿真，都會進入同一條任務鏈路。

Agent是Agentic AI的核心執行單元。Agent一出現，AI基礎設施的短板就從單卡性能擴展到了整個系統。

黃仁勛在GTC台北提到一句話：「Agentic AI has arrived」。這句話的背後的含義也指向的是AI負載的變化。AI正在從問答界面進入任務流程。一次Agent任務包含計劃、工具調用、沙箱執行、結果回傳、再次推理等多個步驟。計算資源能否穩定產出Token，比單張晶片參數更接近客戶每天要算的運營指標。

GTC台北Token成為AI工廠新kpiNVIDIA圍繞每瓦Token展開全棧升級

在GTC台北上，NVIDIA在產品技術更新中，透露出的一個變化也在這方面。其實，NVIDIA的業務口原本就覆蓋伺服器、PC、機器人、自動駕駛等。但是當Agent成為新負載以後，這些業務被重新收攏，並指向同一個路徑——怎樣讓有限的能源、晶片、軟體和終端設備，持續轉化為可收費、可交付、可驗證的Token產出。

這也是黃仁勛經常提到的「五層蛋糕」中的核心理念之一。

01 重估Token「KPI」，從「生成」到「任務完成度」

Agentic AI執行的並非是某一次回答，而是一連串動作。

當模型開始規劃步驟、調用工具、執行代碼、訪問資料庫，再把結果送回模型繼續推理，一個任務被拆成多少輪，每一輪消耗多少Token，工具調用有沒有走彎路，CPU和外部系統讓GPU等了多久，都會影響最終的任務完成時間。

這也是Token需要在Agentic AI階段被重新定義的原因。對雲服務商來說，Token關係到API、訂閱和算力服務的計費；對企業來說，Token會進入代碼生成、數據查詢、客服工單、研發驗證、仿真評估等流程。只有這些任務能穩定跑起來，Token才會從模型輸出變成可衡量的生產力。

贊助商廣告

簡單來說，企業要算的不是「生成了多少字」，而是「完成了多少任務」。

於是，NVIDIA把這條工程鏈路拆成了Agentic inference循環。GPU負責生成下一步動作，CPU負責執行工具調用和沙箱任務，外部系統返回結果以後，模型再繼續推理。循環越短，Agent完成任務越快。同樣的晶片和電力，也就能支撐更多任務。強化學習系統也一樣，單位時間內完成的評估越多，模型改進的速度才會更快。

沿著這條工程鏈，Agent的軟體棧也可以拆開來看。模型負責推理，Harness GTC台北Token成為AI工廠新kpiNVIDIA圍繞每瓦Token展開全棧升級負責讓模型協調瀏覽器、終端、儲存和子Agent，工具負責具體執行，skills規定工具應該怎樣調用，運行時則管理權限、安全和長時間任務。這裡的每一層都會影響Token成本，因為Agent一旦走錯步驟，就會多消耗一次推理、多等待一次外部系統，也多占用一段算力。

這也是為什麼企業落地Agent時，通常不會先做一個萬能助手。就比如，Cadence、CrowdStrike和ServiceNow這些企業，分別把Agent用於晶片設計、安全運營和IT服務管理。它們對應的都是具體崗位、具體流程和明確工具鏈。Agent越專用，執行路徑就越重要；路徑越清楚，Token消耗和任務時延才越容易控制。

NVIDIA Skills優化的就是這段路徑。NVIDIA Skills 是NVIDIA 構建的AI智能體能力生態系統，包含三大核心組件：面向大模型能力增強的NeMo Skills、面向智能體安全治理的Verified Agent Skills，以及2026年GTC 剛發布的物理AI技能庫。其解決了 AI 智能體「能做什麼」和「怎麼安全地做」兩大核心問題，是NVIDIA Agentic AI 戰略的關鍵落地載體。

NVIDIA Skills可為CUDA-X庫、數據科學優化、企業知識、模型構建、AI、物理仿真和量子等方向，提供可由Agent讀取的任務說明。對Agent來說，Skill的作用是告訴它調用什麼工具、按什麼步驟執行、怎樣減少無效嘗試。

截取自：NVIDIA

坦白講，少走一步彎路，就少燒一段Token。

贊助商廣告

具體來看以CUDA-Q Skill為例，運行在Claude Agent中的工作流速度提升30%，步驟減少40%；NeMo Evaluator Skill可以把評估配置速度提升10倍，把自定義基準從數天壓縮到數分鐘。這些數字對應是任務路徑被壓短以後，Token消耗、等待時間和人工介入一起下降。

再往下，Token成本還關乎電力問題。傳統數據中心通常按最大峰值簽訂電力合同，峰值里包含計算峰值、冷卻冗餘和突發負載預留。但AI負載並不總在滿功率運行，預留電力如果沒有用於Token生成，就會變成空置產能。

NVIDIA更新的DSX MaxLPS處理的正是這類問題。其可以實時監測每塊GPU、每個機架和每排設備的功耗與配置，讓運營方在固定電力包絡內安全部署更多GPU。NVIDIA給出的數字是，同樣電力包絡內最多可多部署40%的GPU，對應40%更多計算、Token和收入。

截取自：NVIDIA developer

黃仁勛在現場說：「如今，AI已成為利潤引擎，也是GDP引擎。」這句話放到AI工廠里，含義是，晶片採購價解釋的是初始投入，單位電力能否穩定產出更多Token，系統故障和生命周期會不會抬高單位Token成本，這才是AI工廠運營者需要長期計算的部分。

02 消除GPU空轉，Vera全面投產，打破AI工廠的「木桶短板」

Agent任務變長以後，GPU生成只是第一步。

代碼要編譯，資料庫要查詢，沙箱要運行，外部系統要回傳結果，安全系統還要判斷Agent能不能讀取數據。這些工作大多發生在CPU和系統軟體側。原因在於，GPU擅長並行生成和矩陣計算，但Agent每生成一個動作以後，後續步驟往往要進入作業系統、資料庫、網路、儲存和安全策略。CPU要負責調度這些任務，執行大量分支判斷和I/O操作，再把結果送回模型繼續推理。

如果CPU處理這些步驟的速度跟不上，GPU就只能等待下一輪上下文和執行結果。這個等待放在單次任務里可能很短，放到大規模Agent和強化學習系統里，就會變成吞吐損失。

贊助商廣告

GPU負責生成下一步，CPU要把下一步儘快執行出來。

在GTC台北上，NVIDIA宣布Vera已經全面投產，並將從今年秋季開始由系統構建商和雲合作夥伴陸續推出。

Vera面向的正是智能體AI、強化學習和數據處理等。NVIDIA給出的數字是，Vera的任務完成速度比傳統x86 CPU快1.8倍。Anthropic、OpenAI、Space、xAI等AI實驗室，以及字節跳動、CoreWeave、Lambda、Nebius、Nscale和OCI等雲服務商，都已計劃採用Vera。

截取自：NVIDIA

具體來看，Vera採用88個NVIDIA自研的Olympus核心，單核心每周期指令數相比Grace提升50%，配備1.2TB/s LPDDR5X記憶體頻寬，並通過3.4TB/s片上互連讓核心訪問其他核心和緩存。在Python、代碼分析、代碼編譯等常見Agentic工具上，Vera相比x86提供1.8倍性能。

如果把Vera放到Agent的任務鏈路中看。其88個Olympus核心決定的是並發能力，Olympus的單核心每周期指令數相比Grace提升50%，意味著每個核心在同樣時鐘周期內能處理更多指令。對Agent來說，這會影響Python執行、代碼分析、代碼編譯和工具調度這些高頻任務。

記憶體頻寬同樣重要。Vera配備1.2TB/sLPDDR5X記憶體頻寬，作用是讓CPU核心更快拿到數據。Agent運行時會頻繁讀取上下文、腳本、工具返回結果和外部數據，如果記憶體頻寬不足，CPU核心即使數量很多，也會因為取不到數據而持續等待。另外，Vera通過3.4TB/s片上互連，讓核心訪問其他核心和緩存。

此外，Vera是Vera Rubin平台的主機CPU。通過NVLink-C2C讓CPU與GPU之間實現高達1.8TB/s的相干頻寬。所謂相干頻寬，意思是CPU和GPU共享數據時，可以保持緩存和記憶體視圖一致，減少反覆複製和同步開銷。Agent任務循環越多，CPU和GPU之間交換上下文、執行結果和中間狀態的次數越多，這條通道就越重要。

截取自：NVIDIA

這一方式，對Agent很重要。Agent任務會在CPU和GPU之間來回切換：GPU推理，CPU執行工具，CPU拿到結果後再交給GPU繼續推理。CPU和GPU之間的數據通道越快，任務循環越容易縮短。

贊助商廣告

在安全上，Vera把NVIDIA機密計算擴展至機架規模。機密計算保護的是數據在執行過程中的安全，而不只是儲存或傳輸時的安全。Agent會代表用戶訪問敏感數據、調用高權限工具，如果安全只靠事後審計，風險發生時已經晚了。而把保護能力放進執行路徑，才能在Agent讀取數據、調用工具、跨節點運行時減少越權和數據暴露。

此次更新的Vera BlueField-4 STX錨定的是網路、儲存和安全部分。其把Vera CPU與網路、儲存加速和晶片級安全能力結合起來，為AI原生數據平台提供支撐。

放到場景里，Agent需要頻繁檢索數據、保存中間狀態、調用外部服務，如果這些I/O任務的全部壓力都在主CPU上，CPU會被數據搬運拖住。BlueField-4 STX的作用，就是把一部分網路、儲存和安全工作從主CPU里分擔出來，讓CPU把更多時間留給任務執行。

再往集成層看，Vera負責CPU側執行和調度，Rubin GPU負責大規模推理與訓練，Vera BlueField-4 STX處理數據、網路和安全，Spectrum-6 SPX以太網機架處理AI工廠內部的網路流量。

截取自：NVIDIA

這或許才是Vera Rubin的重點。其把Agent任務經過的幾段路徑提前放到同一套系統里設計。任務鏈越長，客戶越不能只靠機房裡的臨時拼接來解決性能、可靠性和運維問題。

量產能力方面，Vera Rubin平台已經進入全面生產階段。NVIDIA表示，其量產體系依託超過150家供應鏈合作夥伴，覆蓋數百個製造站點和數百萬平方英尺工廠空間。

這背後對應的是AI工廠建設周期的問題。

因為AI工廠並不是採購晶片之後就能立即產生Token。客戶還需要完成系統組裝、測試驗證、部署上線以及後續穩定運行。供應鏈規模越大、協同能力越強，系統交付的不確定性就越低，客戶從建設到投產的周期也越容易控制。

為了進一步縮短這一周期，NVIDIA還重新設計了機架結構。

過去，組裝一套Grace Blackwell機架大約需要兩小時。Vera Rubin機架通過減少電纜和液冷軟管數量，並採用定製PCB直接連接機架兩側，將裝配時間壓縮到約5分鐘。組裝流程越簡單，連接點越少，潛在故障點也越少，系統上線速度隨之提升。

贊助商廣告

從這個角度看，5分鐘縮短的是客戶開始產生計算產出、啟動業務回報的時間。

而當系統真正投入運行後，關注點會從建設階段轉向運營階段。

為此，NVIDIA推出了面向AI工廠運營的模組化開源軟體平台DSX OS，用於基礎設施的配置、運行和監測。其中，DSX Exchange負責打通計算、供電和冷卻系統，通過統一API實現協同管理；DSX Flex把數據中心負載與電網信號連接起來，使AI工廠能夠根據電力供應情況動態調整負載；DSX MaxLPS則在既定電力預算下提升可部署GPU數量，減少電力資源閒置帶來的浪費。

如果把Vera CPU、Vera Rubin平台以及DSX軟體體系放在一起看，會發現Vera解決的是計算節點，Vera Rubin負責系統級集成，DSX則負責數據中心的運營和調度。它們共同覆蓋了AI工廠從建設、部署到運行的完整鏈路。

這背後對應的也是Agentic AI帶來的變化。當AI執行任務，決定效率的是整個系統能否持續、穩定地完成任務流轉。CPU、GPU、網路、儲存、電力以及供應鏈等環節，都會影響任務完成速度，並最終影響單位Token成本。

03 Agent「下沉」，走向「雲端協同」

數據中心解決的是大規模Token產出，但企業日常任務還有另一段路徑。

Agent要處理任務，還要在權限邊界內訪問本地數據。但是其很多動作不能完全留在雲端完成。原因很簡單，雲端可以提供模型能力，但企業流程發生在用戶的設備、應用、賬號和權限體系里。Agent如果進不去這些路徑，就很難真正替用戶完成工作。

所以，企業Agent，僅靠模型本身並不夠。模型擅長推理和生成內容，但執行任務還需要能夠調用瀏覽器、終端、文件系統、代碼工具以及各種外部服務。負責協調這些能力的框架，被稱為Harness。

可以把Harness理解為Agent的執行層。沒有它，模型只能給出建議；有了它，模型才有機會把建議拆解成一系列可執行動作。Agent從「會說」走向「會做」，中間依賴的正是這類協調機制。

贊助商廣告

NVIDIA Agent Toolkit瞄準的就是這一層能力。其整體方案包含Nemotron模型、Agent開發庫、Skills能力模組、NemoClaw藍圖以及OpenShell運行時環境。

在這套體系中，Nemotron負責推理和決策，決定下一步應該執行什麼任務；NemoClaw幫助開發者基於OpenClaw、Hermes等開放Harness構建Agent；Skills定義Agent如何調用不同工具和服務；OpenShell則負責運行時管理，對敏感數據和高權限工具的訪問進行控制。

換句話說，NVIDIA提供的是一套讓模型能夠接入工具、執行任務並安全運行的Agent基礎設施。

Nemotron負責解決Agent的執行效率問題，OpenShell處理的則是Agent進入生產環境後的安全問題。

長時間運行的Agent會代表用戶訪問企業數據、調用資料庫、讀取文件甚至執行代碼。傳統軟體的權限體系主要圍繞人和應用設計：用戶發起一次操作，系統完成一次授權和審計。但Agent可在幾分鐘內連續執行數百次工具調用，如果仍然依賴事後審計，很難跟上它的執行速度。

因此，Agent的安全控制需要從應用層下沉到運行時和作業系統層。

OpenShell承擔的正是這一角色。它被集成到Canonical Ubuntu、Red Hat OpenShift以及Microsoft Windows等平台中，使Agent在訪問文件、調用工具和執行代碼時，能夠直接受到作業系統權限體系和安全策略的約束。

（OpenShell 的自主代理架構其核心組件包括沙箱、策略引擎和隱私路由器）

截取自：NVIDIA developer

而當運行時安全問題得到解決後，Agent才具備大規模部署的基礎。目前，Windows生態覆蓋超過10億台活躍設備，Red Hat OpenShift則廣泛運行於大型企業環境之中。對於NVIDIA而言，把OpenShell嵌入這些平台，實際上是在為Agent進入現有企業基礎設施鋪路。

Nemotron和Agent Toolkit解決的是Agent如何完成任務，OpenShell解決的是Agent如何安全完成任務，那麼接下來的問題則是：這些任務的執行載體是什麼？

其實，並非所有Agent的任務都適合在數據中心完成。

贊助商廣告

當Agent需要理解螢幕內容、處理本地文件、調用作業系統權限、響應語音指令時，數據往返AI工廠會帶來額外的網路延遲、數據傳輸，以及安全問題。對於很多實時交互任務而言，執行位置本身已經成為效率的一部分。

因此，Agent時代的計算架構開始從單純依賴雲端推理，轉向雲端與本地協同。

在這一背景下，NVIDIA把RTX Spark和RTX Station放進了Agent體系里。

RTX Spark是面向個人智能體PC。NVIDIA表示，其可讓輕薄Windows筆記本和緊湊型桌面主機具備1 Petaflop AI性能，由MediaTek聯合打造，運行微軟Windows系統，面向始終在線、始終本地運行的個人Agent。RTX Spark的作用，就是把部分Agent執行能力留在本地，讓雲端模型能力與個人工作流形成協同。

截取自：NVIDIA

面向企業團隊，NVIDIA也進一步更新了DGX Station（for Windows)。

與個人終端不同，企業研發、設計和軟體開發團隊往往需要同時運行多個模型和多個Agent，並持續共享代碼、數據和中間狀態。此時，瓶頸不再只是推理能力，而是模型、數據和Agent之間能否高效協同。

DGX Station基於GB300架構，將Grace Blackwell級基礎設施帶入Windows生態，最高支持748GB一致性記憶體、20 Petaflops FP4計算性能以及800Gb/s ConnectX網路，可運行萬億參數模型並編排數百個Agent。

在多Agent協作場景下，模型、代碼和數據需要頻繁共享上下文。如果CPU與GPU之間無法高效訪問同一份數據，系統就需要不斷進行數據複製和搬運。DGX Station優化的，正是這種本地協同成本。

04 物理AI落地，先過數據、驗證「兩道關」

如果說Agent AI解決的是數字世界裡的任務執行，那麼物理AI面對的則是另一個問題：如何讓機器人、車輛和工業系統學會在真實世界中行動。

與語言模型主要學習人類已經產生的知識不同，物理AI需要學習的是現實世界的運行規律。機器人邁出一步後是否會失去平衡，車輛變道後周圍交通會如何變化，機械臂抓取物體時目標會不會滑落，這些問題都不是語言問題，而是物理世界狀態變化的問題。

贊助商廣告

因此，物理AI需要的不僅是模型，更需要一套覆蓋數據生成、環境構建、模型訓練、策略驗證和邊緣部署的完整開發體系。

為此，NVIDIA此次更新了開源物理AI技能與工具集合。其中，Omniverse負責構建基於OpenUSD的仿真與數字孿生環境；Cosmos負責物理世界的推理與生成；Isaac面向機器人仿真和學習；Metropolis提供視覺AI能力；Alpamayo服務自動駕駛開發；Jetson則負責將訓練完成的模型部署到邊緣設備運行。

這些產品看起來分散，但實際上對應著物理AI開發鏈路上的不同環節。

而在整條鏈路中，Cosmos 3是最核心的基礎模型之一。

截取自：Github

Cosmos 3是一款面向物理AI的開放世界模型，採用混合Transformer架構，能夠同時處理文本、圖像、影片、聲音、觀察數據以及動作資訊，並預測未來場景的發展變化。

在此基礎上，NVIDIA提出了「世界推理（World Reasoning）」能力。

簡單來說，世界推理回答的是這樣一個問題：如果執行某個動作，接下來會發生什麼？

例如機器人向前邁一步會不會跌倒，自動駕駛車輛變道後周圍車輛會如何響應，工廠設備調整參數後是否會影響後續工序。

而「世界動作模型（World Action Model）」則進一步把這種預測轉化為可學習的經驗，讓機器人、車輛和工業系統能夠從中學習如何決策。

事實上，對於物理AI而言，這種能力的重要性在於解決訓練數據的問題。因為物理AI所需的數據，與網際網路時代的大模型截然不同。

機器人需要學習抓取和移動，自動駕駛需要學習道路交互，工業系統需要學習設備運行狀態。而很多極端場景在現實世界裡既昂貴又難以採集。真實道路上的危險駕駛場景不會每天發生，工廠里的異常故障也不可能為了訓練模型反複製造。

所以，NVIDIA將Cosmos與Omniverse結合，開發者能夠生成大量原本難以獲得的訓練樣本，用合成數據擴大訓練覆蓋範圍，並減少真實環境中的數據採集和人工標註成本。

贊助商廣告

這條路徑目前已經進入實際產業場景。

和碩利用缺陷圖像生成技能，將模型訓練和部署時間縮短67%；台達電子利用合成缺陷數據檢測金屬母線過度焊接，檢測率提升17%；英業達將筆記本電腦機殼製造中的缺陷數據收集工作量減少30%；Foxconn則與DeepHow合作，將一次通過率提升約3%。

這些場景中，均是先利用生成式AI擴大訓練覆蓋範圍，再減少真實產線上的數據採集和標註負擔。

數據只是第一步，對於自動駕駛、機器人以及先進制造而言，更大的挑戰在於驗證。因此，物理AI還需要一個能夠反覆試錯的數字世界，這也是Omniverse和數字孿生體系存在的原因。

輔助駕駛場景就是典型案例。

理想汽車、千里科技和元戎啟行正在利用Omniverse NuRec進行神經場景重建和渲染，每天生成超過1000個重建場景以及30多萬次渲染與仿真。

這一過程中，Omniverse NuRec的作用，是把真實車隊採集到的道路數據重建為可交互、可仿真的三維環境。

Omniverse NuRec（截取自：NVIDIA）

這樣一來，開發團隊就能夠在同一個路口、同一段道路上反覆測試不同的傳感器配置、駕駛策略以及長尾場景，而不必每次都重新回到真實道路採集數據。

先進制造業同樣遵循這一邏輯。NVIDIA透露，台積電還在探索基於Omniverse構建FabTwin數字孿生晶圓廠。

當數據和環境都具備之後，就來到了物理AI最關鍵的難關——讓系統學會決策。這是開環訓練與閉環訓練的差別。開環訓練檢驗的是模型面對歷史數據時預測是否準確；閉環訓練則會把模型做出的動作重新反饋到環境中，讓下一輪觀察受到這個動作影響。

現實世界裡的錯誤往往會不斷累積，因此閉環訓練比單純預測更接近真實環境。

針對這一環節，對應的是NVIDIA即將更新的Alpamayo 2 Super和AlpaGym。

Alpamayo 2 Super是一款320億參數的開放推理模型，用於自動駕駛場景中的推理、規劃、標註和評估；AlpaGym則提供開源閉環強化學習框架，讓開發者能夠在仿真環境中持續訓練和優化自動駕駛策略。

贊助商廣告

場景上，NVIDIA與宇樹科技聯合推出Unitree H2 Plus人形機器人參考設計，搭載先進五指靈巧手（Sharpa Wave 觸覺五指手，22 自由度）、Jetson Thor以及Isaac GR00T相關能力，並計劃於10月推出。

截取自：NVIDIA

05 「AI工廠」開始比拼運行邏輯

到這裡，GTC 台北 2026的核心邏輯已然逐漸清晰。

過去幾年，AI基礎設施競爭討論最多的是晶片。行業習慣比較參數、比較算力規模、比較集群數量。算力越強，似乎就意味著競爭力越強。

但Agentic AI的出現，正在改變這套邏輯。一個Agent完成任務的過程中，需要訪問數據、調用工具、執行代碼、與其他Agent協同，並不斷根據環境變化調整行動。此時，決定效率的因素是整個系統能否穩定地完成任務流轉。

這也是為什麼黃仁勛在整場演講中反覆強調Token。

Token產生得越快、成本越低、質量越穩定，AI工廠的運營效率就越高。從這個角度看，AI工廠的競爭也正在發生變化。固定電力預算下能夠產生多少計算產出，任務執行過程中有多少等待時間，資源利用率能做到多高，系統擴展時會不會影響穩定性，安全治理能否跟上自主Agent的執行速度，這些問題開始變得和晶片性能同樣重要。

因為對於企業而言，採購只是一次性支出，而運營才是長期成本。企業最終關心的，仍然是投入的資源，能夠轉化為多少實際業務價值。

而這恰恰也是AI工廠與傳統數據中心最大的區別。

前者衡量的是容量，後者衡量的是產出。

因此，當下的產業邏輯是，當AI進入Agent時代之後，基礎設施競爭開始從「誰擁有更強的算力」，逐漸轉向「誰能夠把算力變成持續運行的生產力」。

而後者，正在成為下一階段AI產業競爭的新起點！