4 台頂配 Mac Studio 串聯，同時跑兩個 DeepSeek 是什麼體驗？

幾個月前，在一台 M3 Ultra 的 Mac Studio 成功部署 4 台頂配 Mac Studio 串聯，同時跑兩個 DeepSeek 是什麼體驗？了 671B 的 DeepSeek 的本地大模型（4-bit 量化版）。相比傳統 GPU 方案需要複雜的內存管理和數據交換，蘋果 512GB 的統一內存可以直接將整個模型加載到內存中，避免了頻繁的數據搬運。

贊助商廣告

而如果把 4 台頂配 M3 Ultra 的 Mac Studio，通過開源工具串聯成一個「桌面級 AI 集群」，是否就能把本地推理的天花板再抬高一個維度？

這正是來自英國創業公司 Exo Labs 正在嘗試解決的問題。

「不要以為牛津大學 GPU 多得用不完」

你可能會以為像牛津這樣的頂級大學肯定 GPU 多得用不完，但其實完全不是這樣。

Exo Labs 創始人 Alex 和 Seth 畢業於牛津大學。即使在這樣的頂尖高校做研究，想要使用 GPU 集群也需要提前數月排隊，一次只能申請一張卡，流程漫長而低效。

他們意識到，當前 AI 基礎設施的高度集中化，使得個人研究者和小型團隊被邊緣化。

去年 7 月，他們啟動了第一次實驗，用兩台 MacBook Pro 成功串聯跑通了 LLaMA 模型。雖然性能有限，每秒只能輸出 3 個 token，但已經足以驗證 Apple Silicon 架構用於 AI 分布式推理的可行性。

真正的轉折點來自 M3 Ultra Mac Studio 的發布。512GB 統一內存、819GB/s 的內存帶寬、80 核 GPU，再加上 Thunderbolt 5 的 80Gbps 雙向傳輸能力——這些規格讓本地 AI 集群從理想變成了現實。

同時跑兩個 670 億參數大模型是什麼體驗？

4 台頂配 M3 Ultra 的 Mac Studio 通過 Thunderbolt 5 串聯後，賬面數據相當驚人：

128 核 CPU（32×4）
240 個 GPU 核心（80×4）
2TB 統一內存（512GB×4）
總內存帶寬超過 3TB/s

這樣的組合，幾乎是一台家用級別的小型超算。但硬體只是基礎，真正發揮效能的關鍵是 EXO Labs 開發的分布式模型調度平台 Exo。Exo 會根據內存與帶寬狀態將模型自動拆分，部署在最合適的節點上。

在現場，Exo 展示了以下核心能力：

大模型加載：8-bit 量化後的 DeepSeek 完整載入需要 700GB 以上內存，單台 Mac Studio 無力承擔。Exo 會將模型拆分部署到 2 台 Mac Studio 上完成加載。激活後，它的「打字速度」基本上超過了人的閱讀速度。

贊助商廣告

並行推理：在運行 DeepSeek V3 的基礎上，又加載了同樣 670 億參數的 DeepSeek R1。系統立即將 R1 分配到剩餘的兩台設備上，實現兩個大模型並行推理，支持多用戶同時提問。
文檔私有問答：拖入公司財報 PDF，模型在本地完成知識嵌入與問答，不依賴任何雲端資源，數據完全私有可控。
輕量微調：若企業有數千份內部資料，可通過 QLoRA LoRA 技術進行本地微調。單台微調需耗時數日，而通過 Exo 的集群調度能力，訓練任務可線性加速，大幅縮短時間成本。

巨大的成本差異

我們在現場後台觀察拓撲圖發現：即使 4 台機器同時處於高負載狀態，整套系統功耗始終控制在 400W 以內，運行幾乎無風扇噪音。

要在傳統伺服器方案中實現同等性能，至少需要部署 20 張 A100 顯卡，伺服器加網路設備成本超 1000 萬，功耗達數千瓦，還需獨立機房與製冷系統。

蘋果晶片在 AI 浪潮中意外找到了新定位

在設計 M 晶片之初，蘋果更多是為節能、高效的個人創作而生。但統一內存、高帶寬 GPU、Thunderbolt 多路徑聚合等特性，卻在 AI 浪潮中意外找到了新定位。

M3 Ultra Mac Studio 的起售價格為 3999 美元，配備 96GB 統一內存，而 512GB 的頂配版本價格確實不菲。但從技術角度來看，統一內存架構帶來的優勢是革命性的。

傳統 GPU 即使是最高端的工作站卡，顯存通常也只有 96GB。而蘋果的統一內存讓 CPU 和 GPU 共享同一塊高帶寬內存，避免了數據在不同存儲層級之間的頻繁搬運，這對大模型推理來說意義重大。

當然，EXO 這套方案也有明顯的定位差異。它不是為了與 H100 正面對抗，不是為了訓練下一代 GPT，而是為了解決實際的應用問題：運行自己的模型，保護自己的數據，進行必要的微調優化。

如果說 H100 是金字塔頂的王者，而 Mac Studio 正在成為中小團隊手中的瑞士軍刀。