算力日益增長的需求與數據搬運效率之間的矛盾,在過去兩年尤為尖銳。當開源模型的參數量級邁過 100B(千億)門檻, MoE(混合專家)架構成為主流,數百萬開發者和科研人員尷尬地發現,他們被卡在了「雲端太遠、本地太窄」的夾縫中。
01 個人超算DGX Spark開啟「雲地穿梭」模式
針對這一問題,幾個月之前,NVIDIA推出了一款桌面級的AI超算——NVIDIA DGX Spark,其所搭載的 NVIDIA Grace Blackwell 10 Superchip(下稱GB10),是針對這一瓶頸給出的物理層解法。

GB10是高度集成的SoC,其在同一矽基底座上,集成了20個Arm架構的CPU核心(10 個Cortex-X925超大核與10個A725能效核),以及一顆Blackwell架構
的GPU。
另外,在 NVIDIA DGX Spark中,其128GB LPDDR5x不被區分為「系統記憶體」與「顯存」。CPU與GPU共享同一物理地址空間,記憶體位寬達到256-bit,總帶寬為 273 GB/s。對計算單元而言,模型參數可以存在一個地方,無需在多個存儲層級之間反覆複製。
這直接改變了模型推理的運行方式。
在傳統工作站上,Zero-Copy更多是種軟體層面的優化手段,需要精細控制記憶體映射和數據生命周期。而在GB10的統一記憶體架構下,零拷貝成為硬體層面的固有屬性。
當一個70B甚至100B級別的Llama-4模型運行在NVIDIA DGX Spark上時,模型參數可一次寫入統一記憶體。CPU完成分詞與前處理後,Blackwell GPU直接對同一地址空間發起計算請求,無需顯存換入、換出。
也正因為如此,NVIDIA DGX Spark成為少數能夠在桌面尺度上,原生裝載並持續運行千億參數級模型的設備之一。
然而,128GB的記憶體終究是有物理邊界。當本地開發跑全量預訓練,或者需要驗證更大規模的模型時,就會出現算力缺口。
而NVIDIA此次CES 2026更新的NVIDIA Brev,就可以作為跨「雲、端」的環境編排器。
NVIDIA Brev的核心功能 Launchables(可啟動對象),徹底解決了「在本地能跑,在伺服器上跑不通」問題。開發者在DGX Spark上定義的GPU資源類型、容器鏡像、Git倉庫配置,可以被封裝為一個Launchable。當本地算力不足時,開發者可以通過NVIDIA Brev將Launchable一鍵投遞到AWS 或Google Cloud 的H100集群上。環境的一致性被嚴格保證,計算任務實現了從桌面到雲端的無縫「熱遷移」。
需要指出的是,相關雲端服務在不同地區的落地節奏存在差異,在中國市場或將結合 NVIDIA及其生態夥伴的整體規劃逐步推進,具體以實際服務形態為準。
此外,在企業級部署場景下,NVIDIA Brev 給出的並不是「全雲化」的策略,而是混合拓撲架構,通過內置的智能路由機制,系統本身成為了一道網關,對不同類型的推理請求進行主動分流。
該留在本地的,絕不外流。涉及財務報表、核心源代碼、醫療記錄等高敏感數據的請求,會被送回本地的NVIDIA DGX Spark處理,數據始終停留在企業內網之中。
該用雲的,毫不猶豫。而對於通用知識問答、複雜邏輯推理這類「吃參數、吃規模」的任務,則直接轉發至雲端的超大模型,避免本地資源被消耗。
這套機制的價值,在隱私合規與模型能力之間劃出了一條清晰的分界線,成為企業接入AI時代的「安全閥」。
02 「雙節點」拉起兩千億參數MOE模型
雲、端的熱遷移,為大模型提供了跨尺度的算力延展能力。不過,對一些開發者而言,真正高頻發生的工作仍集中在本地環境中。模型調試、推理路徑驗證、精度對比、性能剖析等絕大多數都需要在可控、可反覆的本地條件下完成。而在這一過程中,模型在節點內的執行效率,依舊是影響開發、疊代速度的關鍵變量。
長期以來,桌面級或工作站環境運行大模型的主流手段是Int4量化。通過將權重壓縮到4-bit,得以在有限顯存中把模型「裝進去」。
但是,這種方式本質上是存儲層的妥協,並非計算路徑的優化。
一方面,注意力層、歸一化層,以及MoE路由中的誤差會被放大,推理精度難以穩定;另一方面,Int4不能被Tensor Core直接執行,模型權重在計算前須被反量化回FP16或FP8,這一步引入的額外計算,顯著增加了顯存訪問和Cache壓力。
然而,由於Blackwell架構對FP4精度模型的原生支持,讓硬體直接理解的浮點精度,權重便可以4-bit 浮點形式進入Tensor Core,並在同一精度域內完成運算,整個計算鏈路中不再存在反量化階段。
這種變化帶來的收益一方面是存儲密度的提升。相較 FP16,FP4可將模型參數體積壓縮約70%,這意味著直接改變了系統內部的數據流動方式,更多參數可以常駐顯存或更高層級cache,跨GPU、跨節點傳輸的數據規模同步下降,為激活參數值和中間狀態留出了更充裕的空間。
另一方面,是計算吞吐的同步放大。在相同的時鐘周期內,Tensor Core能處理更多低精度浮點運算,算術密度提高、訪存壓力下降,推理延遲隨之降低,尤其在小batch、交互式場景中效果更加明顯。
以Qwen-235B的本地推理為例,2350億參數即便在雙路高端工作站上,也很難完整承載,更不用說在合理功耗和延遲下進行實時推理。傳統方案往往只能通過模型剪枝或犧牲交互性來勉強運行。
而在NVIDIA DGX Spark上,對NVFP4的支持,帶來了更高存儲密度,使得模型權重進可被系統全面映射,而Qwen-235B本身就採用MoE架構,在推理階段具備天然的稀疏激活特性(每個token實際只會調用少量專家),真正參與計算與訪存的參數規模小於模型名義上的參數體量。
當兩台NVIDIA DGX Spark通過高速互聯(NVIDIA DGX Spark可實現200Gbps的高速互連,兩台NVIDIA DGX Spark可以使用DAC線纜直接連接,在邏輯上組合為一個擁有256GB 統一記憶體池的計算節點),就能形成邏輯統一的記憶體與計算域,專家權重按層級與路由策略分布式加載,避免了傳統pipeline並行中頻繁而昂貴的跨節點同步。
最終的結果是,Qwen-235B可以被完整映射進統一記憶體池,並實現連續、可交互的推理響應,運行在NVIDIA DGX Spark雙節點集群上。
03 DGX Spark資源庫更新 工作流開箱即用
除了個人端,對於企業級用戶而言,NVIDIA DGX Spark的核心價值在於其在桌面尺度上,打通了「開發環境」與「生產環境」之間長期存在的隔離。
NVIDIA DGX Spark預裝的DGX OS,完整承載NVIDIA AI Enterprise(NVAIE)的全棧軟體平台。這意味著,開發者在本地進行開發時,工程原生可以運行在與數據中心一致的軟體棧之中,並直接延續到生產階段,無需重複遷移與重構。
具體來說,在AI開發實踐中,真正消耗時間的是工程前期的環境配置(Environment Setup)。驅動版本選擇、依賴衝突排查、容器編排與硬體適配,通常會占據工程師30%以上的時間成本,成為創新效率的主要阻力。
在CES 2026上,NVIDIA更圍繞NVIDIA DGX Spark更新資源庫——DGX Spark playbooks 新增6個playbook和4項重大更新,涵蓋最新的NVIDIA Nemotron 3 Nano模型、機器人訓練、視覺語言模型等。
針對科研場景,通過Nemotron 3 Nano Playbook,研究人員可以在本地沙盒中一鍵拉起完整的MoE實驗環境,用於驗證路由算法或進行LoRA微調,全程無需占用雲端資源,也無等待共享算力隊列。
針對多模態應用場景,Live VLM WebUI Playbook可直接打通底層硬體路徑。網路攝影機的影片流通過DMA機制直接進入GPU 顯存,視覺語言模型可完成實時推理並生成描述,為安防、零售分析等場景提供了開箱即用的底層技術框架。
生命科學計算領域,Parabricks Playbook可將原本依賴CPU集群運行的基因測序流程遷移至GPU平台,使分析周期從以「天」為單位,壓縮至以「小時」為單位。
04 場景深化 DGX Spark企業級多維實戰
現在,NVIDIA DGX Spark已經真正走向場景一線。
在CES 2026現場展示的Reachy Mini,也讓我們看到,NVIDIA DGX Spark在具身智能
(Embodied AI)領域核心價值所在。
通過線纜直連,NVIDIA DGX Spark可作為機器人的高性能邊緣計算節點。本地運行的 Isaac Sim仿真環境和「視覺—語言」模型,幫助機器人實現毫秒級的動作修正和指令響應。同時,邊緣本地的部署也規避了雲端控制不可避免的網路抖動問題,讓機器人從「按腳本執行」進化為自主、實時的交互。
更為關鍵的是,所有數據能在本地完成閉環處理並即時銷毀,從根本上消除了家庭陪護、醫療輔助等高敏感場景中的隱私風險。
對內容創作者而言,NVIDIA DGX Spark 正在演變為一台強大的 Sidecar(邊車)計算單元(邊車模式的核心是將控制和邏輯分離)。
在實際演示中,一台正在進行8K影片剪輯的MacBook Pro,通過局域網插件將高負載的 AI補幀與紋理生成任務(如 Qwen-Image)卸載至DGX Spark 執行。結果極具衝擊力:影片生成速度相較本機提升8倍,而主力設備的UI操作依舊流暢,絲毫沒有卡頓。
這種 「前台輕量創作、後台重載計算」 的分離式架構,或許能重塑數字內容生產的流水線邏輯。
在企業的實踐方面,在JetBrains與IBM 的實際部署案例中,NVIDIA DGX Spark被安置在企業內網,作為私有化的 AI 代碼助手伺服器運行。
NVIDIA DGX Spark在其中提供了接近GitHub Copilot級的代碼補全和智能提示體驗。但由於是本地的,其完全規避了源代碼上傳至公有雲所帶來的合規與泄密風險。對於金融、軍工、晶片設計等智慧財產權高度敏感的行業而言,這種物理隔離(Air-gapped)+強大AI能力,幾乎是有關企業擁抱大模型輔助編程為數不多的可行路徑。
05 寫在最後
這次更新,讓我對NVIDIA DGX Spark有了新的改觀。現在,我並不認為NVIDIA DGX Spark 是「雲的對立面」。恰恰相反,它讓雲邊端的界限不再像以往一樣割裂。
如果一定要給它一個技術上的定位,我願稱之為:這是大模型時代一個桌面尺度數據中心級的「前置驗證節點」
為什麼這麼說?NVIDIA DGX Spark的核心能力邊界,其實是確保在單機條件下,模型的參數布局、KV Cache和MoE路由邏輯不會因為架構限制被迫改寫。這也是它在推理、調試和post-training階段比傳統工作站更有價值的原因。
甚至說,NVIDIA DGX Spark並不適合大規模並行訓練,更長於驗證工程上到底「值不值得被規模化,模型結構是否合理、上下文長度是否還能繼續拉長、專家數量是不是已經越過拐點。
或許也正因為如此,NVIDIA DGX Spark在整個「雲—邊—端」體系中,呈現出相當明確、且難以被簡單替代的位置。






