CES 2026 │ 重大更新：NVIDIA DGX Spark開啟「雲邊端」模式

算力日益增長的需求與數據搬運效率之間的矛盾，在過去兩年尤為尖銳。當開源模型的參數量級邁過 100B（千億）門檻， MoE（混合專家）架構成為主流，數百萬開發者和科研人員尷尬地發現，他們被卡在了「雲端太遠、本地太窄」的夾縫中。

贊助商廣告

01 個人超算DGX Spark開啟「雲地穿梭」模式

針對這一問題，幾個月之前，NVIDIA推出了一款桌面級的AI超算——NVIDIA DGX Spark，其所搭載的 NVIDIA Grace Blackwell 10 Superchip（下稱GB10），是針對這一瓶頸給出的物理層解法。

GB10是高度集成的SoC，其在同一矽基底座上，集成了20個Arm架構的CPU核心（10 個Cortex-X925超大核與10個A725能效核），以及一顆Blackwell架構 CES2026重大更新NVIDIADGXSpark開啟雲邊端模式的GPU。

另外，在 NVIDIA DGX Spark中，其128GB LPDDR5x不被區分為「系統記憶體」與「顯存」。CPU與GPU共享同一物理地址空間，記憶體位寬達到256-bit，總帶寬為 273 GB/s。對計算單元而言，模型參數可以存在一個地方，無需在多個存儲層級之間反覆複製。

這直接改變了模型推理的運行方式。

在傳統工作站上，Zero-Copy更多是種軟體層面的優化手段，需要精細控制記憶體映射和數據生命周期。而在GB10的統一記憶體架構下，零拷貝成為硬體層面的固有屬性。

當一個70B甚至100B級別的Llama-4模型運行在NVIDIA DGX Spark上時，模型參數可一次寫入統一記憶體。CPU完成分詞與前處理後，Blackwell GPU直接對同一地址空間發起計算請求，無需顯存換入、換出。

也正因為如此，NVIDIA DGX Spark成為少數能夠在桌面尺度上，原生裝載並持續運行千億參數級模型的設備之一。

然而，128GB的記憶體終究是有物理邊界。當本地開發跑全量預訓練，或者需要驗證更大規模的模型時，就會出現算力缺口。

而NVIDIA此次CES 2026更新的NVIDIA Brev，就可以作為跨「雲、端」的環境編排器。

NVIDIA Brev的核心功能 Launchables（可啟動對象），徹底解決了「在本地能跑，在伺服器上跑不通」問題。開發者在DGX Spark上定義的GPU資源類型、容器鏡像、Git倉庫配置，可以被封裝為一個Launchable。當本地算力不足時，開發者可以通過NVIDIA Brev將Launchable一鍵投遞到AWS 或Google Cloud 的H100集群上。環境的一致性被嚴格保證，計算任務實現了從桌面到雲端的無縫「熱遷移」。

贊助商廣告

需要指出的是，相關雲端服務在不同地區的落地節奏存在差異，在中國市場或將結合 NVIDIA及其生態夥伴的整體規劃逐步推進，具體以實際服務形態為準。

此外，在企業級部署場景下，NVIDIA Brev 給出的並不是「全雲化」的策略，而是混合拓撲架構，通過內置的智能路由機制，系統本身成為了一道網關，對不同類型的推理請求進行主動分流。

該留在本地的，絕不外流。涉及財務報表、核心源代碼、醫療記錄等高敏感數據的請求，會被送回本地的NVIDIA DGX Spark處理，數據始終停留在企業內網之中。

該用雲的，毫不猶豫。而對於通用知識問答、複雜邏輯推理這類「吃參數、吃規模」的任務，則直接轉發至雲端的超大模型，避免本地資源被消耗。

這套機制的價值，在隱私合規與模型能力之間劃出了一條清晰的分界線，成為企業接入AI時代的「安全閥」。

02 「雙節點」拉起兩千億參數MOE模型

雲、端的熱遷移，為大模型提供了跨尺度的算力延展能力。不過，對一些開發者而言，真正高頻發生的工作仍集中在本地環境中。模型調試、推理路徑驗證、精度對比、性能剖析等絕大多數都需要在可控、可反覆的本地條件下完成。而在這一過程中，模型在節點內的執行效率，依舊是影響開發、疊代速度的關鍵變量。

長期以來，桌面級或工作站環境運行大模型的主流手段是Int4量化。通過將權重壓縮到4-bit，得以在有限顯存中把模型「裝進去」。

但是，這種方式本質上是存儲層的妥協，並非計算路徑的優化。

一方面，注意力層、歸一化層，以及MoE路由中的誤差會被放大，推理精度難以穩定；另一方面，Int4不能被Tensor Core直接執行，模型權重在計算前須被反量化回FP16或FP8，這一步引入的額外計算，顯著增加了顯存訪問和Cache壓力。

然而，由於Blackwell架構對FP4精度模型的原生支持，讓硬體直接理解的浮點精度，權重便可以4-bit 浮點形式進入Tensor Core，並在同一精度域內完成運算，整個計算鏈路中不再存在反量化階段。

贊助商廣告

這種變化帶來的收益一方面是存儲密度的提升。相較 FP16，FP4可將模型參數體積壓縮約70%，這意味著直接改變了系統內部的數據流動方式，更多參數可以常駐顯存或更高層級cache，跨GPU、跨節點傳輸的數據規模同步下降，為激活參數值和中間狀態留出了更充裕的空間。

另一方面，是計算吞吐的同步放大。在相同的時鐘周期內，Tensor Core能處理更多低精度浮點運算，算術密度提高、訪存壓力下降，推理延遲隨之降低，尤其在小batch、交互式場景中效果更加明顯。

以Qwen-235B的本地推理為例，2350億參數即便在雙路高端工作站上，也很難完整承載，更不用說在合理功耗和延遲下進行實時推理。傳統方案往往只能通過模型剪枝或犧牲交互性來勉強運行。

而在NVIDIA DGX Spark上，對NVFP4的支持，帶來了更高存儲密度，使得模型權重進可被系統全面映射，而Qwen-235B本身就採用MoE架構，在推理階段具備天然的稀疏激活特性（每個token實際只會調用少量專家），真正參與計算與訪存的參數規模小於模型名義上的參數體量。

當兩台NVIDIA DGX Spark通過高速互聯(NVIDIA DGX Spark可實現200Gbps的高速互連，兩台NVIDIA DGX Spark可以使用DAC線纜直接連接，在邏輯上組合為一個擁有256GB 統一記憶體池的計算節點)，就能形成邏輯統一的記憶體與計算域，專家權重按層級與路由策略分布式加載，避免了傳統pipeline並行中頻繁而昂貴的跨節點同步。

最終的結果是，Qwen-235B可以被完整映射進統一記憶體池，並實現連續、可交互的推理響應，運行在NVIDIA DGX Spark雙節點集群上。

03 DGX Spark資源庫更新工作流開箱即用

除了個人端，對於企業級用戶而言，NVIDIA DGX Spark的核心價值在於其在桌面尺度上，打通了「開發環境」與「生產環境」之間長期存在的隔離。

NVIDIA DGX Spark預裝的DGX OS，完整承載NVIDIA AI Enterprise（NVAIE）的全棧軟體平台。這意味著，開發者在本地進行開發時，工程原生可以運行在與數據中心一致的軟體棧之中，並直接延續到生產階段，無需重複遷移與重構。

贊助商廣告

具體來說，在AI開發實踐中，真正消耗時間的是工程前期的環境配置（Environment Setup）。驅動版本選擇、依賴衝突排查、容器編排與硬體適配，通常會占據工程師30%以上的時間成本，成為創新效率的主要阻力。

在CES 2026上，NVIDIA更圍繞NVIDIA DGX Spark更新資源庫——DGX Spark playbooks 新增6個playbook和4項重大更新，涵蓋最新的NVIDIA Nemotron 3 Nano模型、機器人訓練、視覺語言模型等。

針對科研場景，通過Nemotron 3 Nano Playbook，研究人員可以在本地沙盒中一鍵拉起完整的MoE實驗環境，用於驗證路由算法或進行LoRA微調，全程無需占用雲端資源，也無等待共享算力隊列。

針對多模態應用場景，Live VLM WebUI Playbook可直接打通底層硬體路徑。網路攝影機的影片流通過DMA機制直接進入GPU 顯存，視覺語言模型可完成實時推理並生成描述，為安防、零售分析等場景提供了開箱即用的底層技術框架。

生命科學計算領域，Parabricks Playbook可將原本依賴CPU集群運行的基因測序流程遷移至GPU平台，使分析周期從以「天」為單位，壓縮至以「小時」為單位。

04 場景深化 DGX Spark企業級多維實戰

現在，NVIDIA DGX Spark已經真正走向場景一線。

在CES 2026現場展示的Reachy Mini，也讓我們看到，NVIDIA DGX Spark在具身智能 CES2026重大更新NVIDIADGXSpark開啟雲邊端模式（Embodied AI）領域核心價值所在。

通過線纜直連，NVIDIA DGX Spark可作為機器人的高性能邊緣計算節點。本地運行的 Isaac Sim仿真環境和「視覺—語言」模型，幫助機器人實現毫秒級的動作修正和指令響應。同時，邊緣本地的部署也規避了雲端控制不可避免的網路抖動問題，讓機器人從「按腳本執行」進化為自主、實時的交互。

更為關鍵的是，所有數據能在本地完成閉環處理並即時銷毀，從根本上消除了家庭陪護、醫療輔助等高敏感場景中的隱私風險。

對內容創作者而言，NVIDIA DGX Spark 正在演變為一台強大的 Sidecar（邊車）計算單元(邊車模式的核心是將控制和邏輯分離)。

贊助商廣告

在實際演示中，一台正在進行8K影片剪輯的MacBook Pro，通過局域網插件將高負載的 AI補幀與紋理生成任務（如 Qwen-Image）卸載至DGX Spark 執行。結果極具衝擊力：影片生成速度相較本機提升8倍，而主力設備的UI操作依舊流暢，絲毫沒有卡頓。

這種「前台輕量創作、後台重載計算」的分離式架構，或許能重塑數字內容生產的流水線邏輯。

在企業的實踐方面，在JetBrains與IBM 的實際部署案例中，NVIDIA DGX Spark被安置在企業內網，作為私有化的 AI 代碼助手伺服器運行。

NVIDIA DGX Spark在其中提供了接近GitHub Copilot級的代碼補全和智能提示體驗。但由於是本地的，其完全規避了源代碼上傳至公有雲所帶來的合規與泄密風險。對於金融、軍工、晶片設計等智慧財產權高度敏感的行業而言，這種物理隔離（Air-gapped）+強大AI能力，幾乎是有關企業擁抱大模型輔助編程為數不多的可行路徑。

05 寫在最後

這次更新，讓我對NVIDIA DGX Spark有了新的改觀。現在，我並不認為NVIDIA DGX Spark 是「雲的對立面」。恰恰相反，它讓雲邊端的界限不再像以往一樣割裂。

如果一定要給它一個技術上的定位，我願稱之為：這是大模型時代一個桌面尺度數據中心級的「前置驗證節點」

為什麼這麼說？NVIDIA DGX Spark的核心能力邊界，其實是確保在單機條件下，模型的參數布局、KV Cache和MoE路由邏輯不會因為架構限制被迫改寫。這也是它在推理、調試和post-training階段比傳統工作站更有價值的原因。

甚至說，NVIDIA DGX Spark並不適合大規模並行訓練，更長於驗證工程上到底「值不值得被規模化，模型結構是否合理、上下文長度是否還能繼續拉長、專家數量是不是已經越過拐點。

或許也正因為如此，NVIDIA DGX Spark在整個「雲—邊—端」體系中，呈現出相當明確、且難以被簡單替代的位置。