GTC 2026｜「千萬缺口」之下，NVIDIA把AI嵌入了醫療行業

世界衛生組織預測，2030年，全球醫療系統將面臨高達1100萬的專業醫護人員短缺。與此同時，在基礎設施層面，全球運行著16萬家醫院、40萬間手術室，承載著超過800萬台醫療設備，每年需要執行7.2萬種極為複雜、非標準化的醫療程序。

贊助商廣告

這帶來一個很明顯的變化是：

一邊，是醫療數據正在變得越來越「重」——影像、語音、文本、結構化指標全面疊加，多模態數據不僅體量大，而且彼此之間強耦合。

另一邊，是算力需求同樣在飆升，大模型推理天然傾向於集中化的高性能算力中心。但問題在於，醫療行業的數據根本「動不了」，隱私、合規、智慧財產權，決定了數據必須被鎖在本地局域網或受控私有雲里。

這就出現了一個矛盾——算力集中，但數據必須本地化。

這也是為什麼，簡單把雲上的大模型「搬下來」是行不通的。而真正可行的路徑，其實是把模型能力、推理優化和系統工程能力整體下沉，直接嵌入企業自身的IT基礎設施里。

NVIDIA在GTC 2026上發布的Nemotron開源模型家族（（Nemotron 3 Ultra、Omni、VoiceChat），以及配套的NeMo框架，正好提供了一整套可以落地的本地化Agentic AI底座。

01 醫療Agent突破從三重瓶頸

進一步拆解，Nemotron優先解決的，是幾個具體的系統瓶頸。

第一個瓶頸是吞吐量。醫療場景中Agent的作用是長鏈路、多步驟的任務執行，即病歷生成、文獻檢索、路徑驗證，其本質上是持續的高強度推理負載。而這類任務會迅速放大Token消耗，使系統長期運行在高並發運行狀態。

另外，為了保證穩定性與推理能力，採用的需要大模型是FP16或BF16精度。但這種「高精度」的代價，是顯示記憶體占用和記憶體頻寬壓力同步上升。一旦進入高並發場景，很快就會觸碰硬體極限，吞吐量隨之下降。

而Blackwell架構適配的NVFP4四位量化模型 Nemotron 3 Super提供了更有利的部署路徑。NVIDIA 最新發布的 Nemotron 3 Super採用混合Mamba-Transformer MoE架構，具備120B 總參數和12B 活躍參數（每token調用12B ，所以不會大量占用顯示記憶體），並在訓練與推理階段引入NVFP4 優化。

贊助商廣告

這樣一來，更低的數據位寬能夠直接減少權重、激活值和相關計算過程帶來的顯示記憶體占用與頻寬壓力，從而讓同一套硬體支撐更大的batch和更高並發，提升整體吞吐效率。

截取自NVIDIA

第二個瓶頸，是時交互場景中的延遲。傳統AI語音交互採用串行管線。ASR轉錄、LLM生成、TTS合成，每一步都會有額外延遲。但是，在醫療場景中，這種延遲是災難性的。

而Nemotron 3 VoiceChat將語音識別、理解與生成融合在單一系統中，並行處理，進而延遲下降。但更重要的是，其讓交互模式發生變化，系統可以一邊「聽」，一邊「理解」，一邊生成響應，從而支持打斷、插話等更接近真實醫患溝通的交互行為。

截取自NVIDIA

在同一層面上，新推出的Nemotron 3 Omni進一步統一了多模態感知，將音頻、視覺與語言理解歸納到同一潛在空間中，減少了外部模型調用與調度複雜度，也提高了跨模態資訊提取的一致性。

第三個瓶頸，是可靠性。

在強監管的場景下，醫療場景中Agent的風險在於「生成錯誤資訊卻無法被察覺」。因此，單純依賴模型本身的能力無法滿足要求，必須在系統層引入安全機制。

Nemotron在這一層採用的是「雙層控制」。一層是模型安全，對多模態輸入輸出進行實時檢測；另一層是檢索增強生成（RAG），將外部權威知識庫與生成過程強綁定，確保輸出具備可追溯依據。

這實際上是在把生成式AI，從「概率輸出」轉變為「受約束的生成」。

當這些底層模型通過NVIDIA Agent Toolkit（包含NeMo Gym、NeMo RL、TensorRT、Triton以及CUDA-X數據科學庫如cuDF、cuML、cuVS）集成後，產生了顯著的系統級的降本增效。

截取自GitHub

目前，Heidi Health通過Nemotron Speech模型進行臨床文檔記錄，將系統延遲壓縮75%，同時降低64%的運營成本。IQVIA依託該架構部署了超150個專業智能體用於縮減臨床試驗中心選址等複雜工作負載。

02 「算力換數據」重構生命科學的計算底座

贊助商廣告

Nemotron解決了是醫療Agent進入真實工作流時的系統問題。這一層處理的是部署端，即模型如何在高強度、強監管場景下穩定運行。

但對NVIDIA來說，沿著同樣的路徑，其正在把GPU、模型框架與推理優化能力繼續向生命科學更上游推進，覆蓋蛋白質結構預測、分子生成設計以及大規模基因組數據處理。

這一場景對應的是另一類計算挑戰：一部分數據生成過慢，一部分候選空間過大，還有一部分數據處理鏈路本身已經逼近傳統CPU體系的上限。

NVIDIA給出的解法，仍然是用底層計算重寫任務流程，再把原本受限於實驗周期或串行處理能力的環節，壓縮進GPU加速的統一管線里。

最先被改寫的是蛋白質結構預測。在真實生物系統中，蛋白質很少以孤立單體存在，更多功能依賴複合體層面的相互作用。但從單體結構走向複合體預測，計算複雜度會快速上升，對模型表達能力、空間約束建模和推理效率都提出更高要求。

圍繞這一問題，NVIDIA聯合DeepMind、EMBL-EBI以及首爾大學團隊，對AlphaFold資料庫進行了大規模擴展，一次性生成約3000萬個蛋白質複合物結構預測，並新增170萬個高置信度結果。

這其中的意義在於其呈現了NVIDIA在生命科學上的一條明確技術路徑：通過GPU算力、等變神經網路庫和推理優化框架協同，把高複雜度結構預測任務轉化為可規模化執行的數據生成流程。

這其中，cuEquivariance承擔的是底層建模優化。傳統方法需要通過大量訓練去逼近三維空間中的旋轉和平移不變性，這會帶來參數冗餘和額外計算開銷。cuEquivariance這類等變神經網路庫，則是在算子層直接引入物理對稱性，讓模型從起點就滿足空間約束，減少無效計算。

再疊加TensorRT對推理鏈路的壓縮與優化，整個OpenFold管線實現了超過100倍的速度提升。對應到結果層面，這3000萬個複合物結構預測，本質上形成了一批可直接調用的預計算結構數據。

贊助商廣告

這正是「以算力換數據」在NVIDIA生命科學技術棧中的一個落點——通過對模型、算子和推理框架的重寫，把原本高度受實驗供給限制的結構空間，先用計算批量展開。

同樣的邏輯繼續延伸到生成式生物設計場景中。

在BioNeMo體系中，模型不再是「一次推理給出答案」，而是引入了「測試時計算」（Test-Time Compute）機制。以維亞生物與NVIDIA合作，優化的Proteina Complexa模型為例，在生成候選結合劑結構之後，系統不會直接輸出結果，而是通過內置的物理與熱力學評分體系進行多輪評估與疊代優化。

推理時間在這裡不再是成本，而是能力的一部分——計算資源投入越多，搜索空間覆蓋越充分，生成結果越接近真實物理約束。

這意味著，模型從「生成答案」，轉向「生成並驗證答案」。原本屬於實驗階段的一部分篩選工作，被前移到計算過程中完成，從而顯著縮小進入濕實驗驗證的候選空間。

基因編輯與RNA藥物的突破，依賴於大規模、高吞吐量的基因組學分析。但傳統基於CPU集群的BWA-GATK比對變異調用在面對海量數據時往往陷入宕機。

Basecamp Research構建的Trillion Gene Atlas項目，其BaseData數據集規模已擴展至所有公共資料庫總和的10倍以上。為處理高達千萬億級的DNA鹼基對，其系統全面接入NVIDIA Parabricks計算套件，通過對深度學習變異檢測算法進行底層GPU並行化重寫，提供了10倍的數據處理加速，將原本需要20年的分析任務強行壓縮至兩年內完成。

在單細胞系統生物學領域，構建具備高度動態仿真能力的「虛擬細胞模型」需要大量多組學訓練矩陣。Tahoe Therapeutics構建了全球最大規模獨立單細胞數據集Tahoe-100M，涵蓋1億個細胞的高維度特徵數據。

03 3500塊Blackwell，羅氏製藥的AI工廠「底座」

當底層計算在單一節點釋放出巨大效能後，跨國製藥巨頭面臨的挑戰迅速就轉向了系統整合。

具體來說，就是如何將AI能力深度嵌入藥物發現、診斷到生產製造的全價值鏈。要完成這種規模化耦合，零散採購雲服務遠遠不夠，企業須建設可承載核心研發與製造任務的專屬計算底座，即「企業級AI工廠」。

贊助商廣告

目前，羅氏正在推進制藥與診斷行業已公開最大規模的AI基礎設施部署之一。其算力底座橫跨美國與歐洲，採用融合公有雲與本地數據中心的混合架構，整體GPU規模已超過3500塊NVIDIA Blackwell。

這樣的設計邏輯，在於中心化集群承擔大模型訓練與高吞吐計算任務，全球研發節點則在本地環境中處理敏感數據、執行微調與推理，從而兼顧算力集中調度、低延遲交互與合規要求。

算力底座成形後，最先被重塑的是藥物發現流程。羅氏及其子公司Genentech持續強化「實驗室—數據—模型」閉環戰略（Lab-in-the-Loop），將實驗反饋、數據積累與模型疊代納入統一迴路。目

目前，Genentech近90%的合格小分子項目已整合進AI研發流程。依託BioNeMo平台，研究人員能夠結合內部專有數據微調分子模型，在更大化學空間中開展搜索與篩選。計算能力正在直接折算為研發時間：某腫瘤降解劑分子的設計效率提升約25%，某備用候選分子的開發周期也被壓縮至7個月。

說研發端解決的是「更快找到候選品」，製造端面對的則是「更穩定的做出來」。在複雜生物製劑生產中，物理產線上的試錯、停機與重排代價極高。羅氏因此在製造網路中引入數字孿生體系，利用NVIDIA Omniverse相關能力對工廠設計與流程進行高保真建模、仿真和優化。

在診斷場景的核心任務中，需要從海量數據中提取微弱而關鍵的疾病信號。羅氏部署了NVIDIA Parabricks以加速大規模數據洞察，在數字病理領域則藉助相關視覺分析能力處理高解析度圖像，識別細微疾病模式。與此同時，為提高數字健康場景中對話式AI的可靠性與合規性，羅氏還引入了NVIDIA NeMo Guardrails，對模型輸出建立系統級安全護欄。

由此可見，AI在醫療產業中的落地，已經不再局限於模型訓練中心或單一業務系統，而是進一步深入到實驗室、工廠和診斷終端等真實業務現場。

贊助商廣告

也正是在這一層面上，新的問題隨之浮現，當AI開始進入高度動態、強約束、需要實時感知與連續動作執行的物理環境中，原有的軟體式智能框架已經難以覆蓋，醫療體系對「Physical AI」的需求開始迅速抬升。

04 真實數據+合成數據+仿真環境Physical AI進入「手術室」

「Physical AI」在醫療體系中的定位，也許是最難被改造的部分。

手術操作、器械協同、院內物流、床旁服務等任務面對的是高動態環境、多傳感器輸入、強安全約束和低時延執行要求。

然而，NVIDIA在GTC 2026給出的新方向，是以面向醫療場景的Physical AI全棧工具鏈，把數據、仿真、策略訓練和邊緣部署接成一條閉環。

這套框架的起點，是先解決真實訓練數據不足的問題。

NVIDIA在GTC 2026發布的Open-H定義為全球最大的醫療機器人數據集，由約35家合作方共同構建，包含776小時手術影片、11類機器人系統形態和4類手術適應症。其意義在於為視覺流、操作過程與機器人動作之間建立統一的訓練基座，讓醫療機器人第一次擁有足夠規模的真實世界先驗。

在真實數據之外，第二層是可擴展的物理世界生成能力。

NVIDIA推出的Cosmos-H 模型家族，其中包括Cosmos-H-Surgical，基於NVIDIA Cosmos用於面向醫療場景的物理約束合成數據生成。

具體來說，這一模型族可依據文本提示、參考圖像或影片，以及配對的機器人運動學資訊生成手術影片；其不只服務於數據擴增，也可用於評估機器人策略，方法是在給定當前狀態和動作條件下，預測手術環境的未來狀態。目前，Johnson & Johnson MedTech已將 Cosmos 與 Isaac for Healthcare 的解剖仿真結合，用於MONARCH泌尿外科平台的後訓練數據增強。

第三層是把語義理解直接映射到機器人動作控制。NVIDIA在GTC 2026發布的 GR00T-H，是基於 NVIDIA Isaac GR00T N的視覺—語言—動作模型（VLA）。其能夠接收臨床任務的文本指令，並生成運動命令（也就是action tokens），用於訓練和評估在醫療環境中執行複雜物理動作的機器人。

贊助商廣告

為了讓這些模型能在接近真實醫院的環境中反覆試煉，NVIDIA又在Isaac for Healthcare 中提供了Rheo blueprint。Rheo blueprint可用於構建精確的醫院仿真環境，覆蓋臨床流程、設備交互、人員走動和院內物流，並支持兩條仿真路徑。

一條偏向快速拼裝環境與任務的Isaac Lab-Arena，適合院內移動、搬運、協作等大場景任務；另一條偏向精細操作與大規模強化學習後訓練的Isaac Lab，適合高精度操作策略開發。

這樣一來，開發者無需從零搭建底層仿真框架，就能把環境構建、任務定義、評測與訓練連接起來。