
幾個月前,在一台 M3 Ultra 的 Mac Studio 成功部署了 671B 的 DeepSeek 的本地大模型(4-bit 量化版)。相比傳統 GPU 方案需要複雜的內存管理和數據交換,蘋果 512GB 的統一內存可以直接將整個模型加載到內存中,避免了頻繁的數據搬運。
而如果把 4 台頂配 M3 Ultra 的 Mac Studio,通過開源工具串聯成一個「桌面級 AI 集群」,是否就能把本地推理的天花板再抬高一個維度?
這正是來自英國創業公司 Exo Labs 正在嘗試解決的問題。
「不要以為牛津大學 GPU 多得用不完」
你可能會以為像牛津這樣的頂級大學肯定 GPU 多得用不完,但其實完全不是這樣。
Exo Labs 創始人 Alex 和 Seth 畢業於牛津大學。即使在這樣的頂尖高校做研究,想要使用 GPU 集群也需要提前數月排隊,一次只能申請一張卡,流程漫長而低效。
他們意識到,當前 AI 基礎設施的高度集中化,使得個人研究者和小型團隊被邊緣化。
去年 7 月,他們啟動了第一次實驗,用兩台 MacBook Pro 成功串聯跑通了 LLaMA 模型。雖然性能有限,每秒只能輸出 3 個 token,但已經足以驗證 Apple Silicon 架構用於 AI 分布式推理的可行性。

真正的轉折點來自 M3 Ultra Mac Studio 的發布。512GB 統一內存、819GB/s 的內存帶寬、80 核 GPU,再加上 Thunderbolt 5 的 80Gbps 雙向傳輸能力——這些規格讓本地 AI 集群從理想變成了現實。
同時跑兩個 670 億參數大模型是什麼體驗?
4 台頂配 M3 Ultra 的 Mac Studio 通過 Thunderbolt 5 串聯後,賬面數據相當驚人:
- 128 核 CPU(32×4)
- 240 個 GPU 核心(80×4)
- 2TB 統一內存(512GB×4)
- 總內存帶寬超過 3TB/s
這樣的組合,幾乎是一台家用級別的小型超算。但硬體只是基礎,真正發揮效能的關鍵是 EXO Labs 開發的分布式模型調度平台 Exo。Exo 會根據內存與帶寬狀態將模型自動拆分,部署在最合適的節點上。
在現場,Exo 展示了以下核心能力:

- 大模型加載:8-bit 量化後的 DeepSeek 完整載入需要 700GB 以上內存,單台 Mac Studio 無力承擔。Exo 會將模型拆分部署到 2 台 Mac Studio 上完成加載。激活後,它的「打字速度」基本上超過了人的閱讀速度。

- 並行推理:在運行 DeepSeek V3 的基礎上,又加載了同樣 670 億參數的 DeepSeek R1。系統立即將 R1 分配到剩餘的兩台設備上,實現兩個大模型並行推理,支持多用戶同時提問。
- 文檔私有問答:拖入公司財報 PDF,模型在本地完成知識嵌入與問答,不依賴任何雲端資源,數據完全私有可控。
- 輕量微調:若企業有數千份內部資料,可通過 QLoRA LoRA 技術進行本地微調。單台微調需耗時數日,而通過 Exo 的集群調度能力,訓練任務可線性加速,大幅縮短時間成本。
巨大的成本差異
我們在現場後台觀察拓撲圖發現:即使 4 台機器同時處於高負載狀態,整套系統功耗始終控制在 400W 以內,運行幾乎無風扇噪音。
要在傳統伺服器方案中實現同等性能,至少需要部署 20 張 A100 顯卡,伺服器加網路設備成本超 1000 萬,功耗達數千瓦,還需獨立機房與製冷系統。
蘋果晶片在 AI 浪潮中意外找到了新定位

在設計 M 晶片之初,蘋果更多是為節能、高效的個人創作而生。但統一內存、高帶寬 GPU、Thunderbolt 多路徑聚合等特性,卻在 AI 浪潮中意外找到了新定位。
M3 Ultra Mac Studio 的起售價格為 3999 美元,配備 96GB 統一內存,而 512GB 的頂配版本價格確實不菲。但從技術角度來看,統一內存架構帶來的優勢是革命性的。
傳統 GPU 即使是最高端的工作站卡,顯存通常也只有 96GB。而蘋果的統一內存讓 CPU 和 GPU 共享同一塊高帶寬內存,避免了數據在不同存儲層級之間的頻繁搬運,這對大模型推理來說意義重大。
當然,EXO 這套方案也有明顯的定位差異。它不是為了與 H100 正面對抗,不是為了訓練下一代 GPT,而是為了解決實際的應用問題:運行自己的模型,保護自己的數據,進行必要的微調優化。
如果說 H100 是金字塔頂的王者,而 Mac Studio 正在成為中小團隊手中的瑞士軍刀。