宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

4 台頂配 Mac Studio 串聯,同時跑兩個 DeepSeek 是什麼體驗?

2025年08月06日 首頁 » 熱門科技

 

4 台頂配 Mac Studio 串聯,同時跑兩個 DeepSeek 是什麼體驗?

 

幾個月前,在一台 M3 Ultra 的 Mac Studio 成功部署4 台頂配 Mac Studio 串聯,同時跑兩個 DeepSeek 是什麼體驗?了 671B 的 DeepSeek 的本地大模型(4-bit 量化版)。相比傳統 GPU 方案需要複雜的內存管理和數據交換,蘋果 512GB 的統一內存可以直接將整個模型加載到內存中,避免了頻繁的數據搬運。

而如果把 4 台頂配 M3 Ultra 的 Mac Studio,通過開源工具串聯成一個「桌面級 AI 集群」,是否就能把本地推理的天花板再抬高一個維度?

這正是來自英國創業公司 Exo Labs 正在嘗試解決的問題。

 「不要以為牛津大學 GPU 多得用不完」

你可能會以為像牛津這樣的頂級大學肯定 GPU 多得用不完,但其實完全不是這樣。

Exo Labs 創始人 Alex 和 Seth 畢業於牛津大學。即使在這樣的頂尖高校做研究,想要使用 GPU 集群也需要提前數月排隊,一次只能申請一張卡,流程漫長而低效。

他們意識到,當前 AI 基礎設施的高度集中化,使得個人研究者和小型團隊被邊緣化。

去年 7 月,他們啟動了第一次實驗,用兩台 MacBook Pro 成功串聯跑通了 LLaMA 模型。雖然性能有限,每秒只能輸出 3 個 token,但已經足以驗證 Apple Silicon 架構用於 AI 分布式推理的可行性。

 

4 台頂配 Mac Studio 串聯,同時跑兩個 DeepSeek 是什麼體驗?

 

真正的轉折點來自 M3 Ultra Mac Studio 的發布。512GB 統一內存、819GB/s 的內存帶寬、80 核 GPU,再加上 Thunderbolt 5 的 80Gbps 雙向傳輸能力——這些規格讓本地 AI 集群從理想變成了現實。

同時跑兩個 670 億參數大模型是什麼體驗?

4 台頂配 M3 Ultra 的 Mac Studio 通過 Thunderbolt 5 串聯後,賬面數據相當驚人:

  • 128 核 CPU(32×4)
  • 240 個 GPU 核心(80×4)
  • 2TB 統一內存(512GB×4)
  • 總內存帶寬超過 3TB/s

這樣的組合,幾乎是一台家用級別的小型超算。但硬體只是基礎,真正發揮效能的關鍵是 EXO Labs 開發的分布式模型調度平台 Exo。Exo 會根據內存與帶寬狀態將模型自動拆分,部署在最合適的節點上。

在現場,Exo 展示了以下核心能力:

 

4 台頂配 Mac Studio 串聯,同時跑兩個 DeepSeek 是什麼體驗?

 

  • 大模型加載:8-bit 量化後的 DeepSeek 完整載入需要 700GB 以上內存,單台 Mac Studio 無力承擔。Exo 會將模型拆分部署到 2 台 Mac Studio 上完成加載。激活後,它的「打字速度」基本上超過了人的閱讀速度。

 

4 台頂配 Mac Studio 串聯,同時跑兩個 DeepSeek 是什麼體驗?

 

  • 並行推理:在運行 DeepSeek V3 的基礎上,又加載了同樣 670 億參數的 DeepSeek R1。系統立即將 R1 分配到剩餘的兩台設備上,實現兩個大模型並行推理,支持多用戶同時提問。
  • 文檔私有問答:拖入公司財報 PDF,模型在本地完成知識嵌入與問答,不依賴任何雲端資源,數據完全私有可控。
  • 輕量微調:若企業有數千份內部資料,可通過 QLoRA LoRA 技術進行本地微調。單台微調需耗時數日,而通過 Exo 的集群調度能力,訓練任務可線性加速,大幅縮短時間成本。

巨大的成本差異

我們在現場後台觀察拓撲圖發現:即使 4 台機器同時處於高負載狀態,整套系統功耗始終控制在 400W 以內,運行幾乎無風扇噪音。

要在傳統伺服器方案中實現同等性能,至少需要部署 20 張 A100 顯卡,伺服器加網路設備成本超 1000 萬,功耗達數千瓦,還需獨立機房與製冷系統。

蘋果晶片在 AI 浪潮中意外找到了新定位

 

4 台頂配 Mac Studio 串聯,同時跑兩個 DeepSeek 是什麼體驗?

 

在設計 M 晶片之初,蘋果更多是為節能、高效的個人創作而生。但統一內存、高帶寬 GPU、Thunderbolt 多路徑聚合等特性,卻在 AI 浪潮中意外找到了新定位。

M3 Ultra Mac Studio 的起售價格為 3999 美元,配備 96GB 統一內存,而 512GB 的頂配版本價格確實不菲。但從技術角度來看,統一內存架構帶來的優勢是革命性的。

傳統 GPU 即使是最高端的工作站卡,顯存通常也只有 96GB。而蘋果的統一內存讓 CPU 和 GPU 共享同一塊高帶寬內存,避免了數據在不同存儲層級之間的頻繁搬運,這對大模型推理來說意義重大。

當然,EXO 這套方案也有明顯的定位差異。它不是為了與 H100 正面對抗,不是為了訓練下一代 GPT,而是為了解決實際的應用問題:運行自己的模型,保護自己的數據,進行必要的微調優化。

如果說 H100 是金字塔頂的王者,而 Mac Studio 正在成為中小團隊手中的瑞士軍刀。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新