剛剛，小扎的千億閉源AI終於交卷！當場被痛批「圖表犯罪」，28歲話事人火速道歉

九個月前，如果你問 AI 圈裡誰最焦慮，答案大概率是 Meta CEO 祖克柏。

贊助商廣告

Llama 4 的發布堪稱教科書級翻車。核心研究員陸續出走，技術社區的口碑幾乎在一夜之間崩掉，於是祖克柏選擇推倒重來。

Meta Superintelligence Labs 掛牌成立，接著小扎開出堪比 NBA 職業球星的簽約金，從 OpenAI、Google、Anthropic 撬走七十多名頂尖研究員，並在六個月內完成了四次組織架構調整。

1/ today we're releasing muse spark, the first model from MSL. nine months ago we rebuilt our ai stack from scratch. new infrastructure, new architecture, new data pipelines. muse spark is the result of that work, and now it powers meta ai. 🧵

就在剛剛，這場 AI 豪賭終於亮出了它的第一張牌：Muse Spark。

近千億美元的支出給了祖克柏一張 AI 頂級玩家的入場券，但入場從來只是開始，能不能在這張桌子上贏下去，還要看今天這張牌打得怎麼樣。

祖克柏的最新發文

號稱「個人超級智能」第一步，Muse Spark 登場

作為 Meta Superintelligence Labs 推出的 Muse 系列首款模型，Muse Spark 從架構層面原生支持圖像、音頻、影片與文本的聯合理解，內置工具調用、可視化思維鏈與多智能體協調能力。

Meta 將其定位為邁向「個人超級智能」的第一步。

從評測數據看，Muse Spark 的能力分布相當不均勻。多模態方向上，它在 CharXiv Reasoning 圖表理解項目上得分 86.4，超過 GPT 5.4 的 82.8 和 Gemini 3.1 Pro 的 80.2，SimpleVQA 視覺事實題同樣領先競爭對手。

但在 MMMU Pro 多模態理解項目上，Muse Spark 得分 80.4，低於 Gemini 3.1 Pro 的 83.9。文本推理方向，它在 GPQA Diamond 博士級推理題上得分 89.5，LiveCodeBench Pro 競爭編程測試得分 80.0，後者超過 Opus 4.6。

贊助商廣告

然而 ARC AGI 2 抽象推理謎題上僅得 42.5，遠落後於 Gemini 3.1 Pro 的 76.5 和 GPT 5.4 的 76.1，差距頗為明顯。

健康領域是這份成績單上比較大的亮點。

HealthBench Hard 開放式健康問答中，Muse Spark 得分 42.8，遠超 GPT 5.4 的 40.1、Gemini 3.1 Pro 的 20.6 和 Opus 4.6 的 14.8。MedXpertQA 多模態醫療題得分 78.4，Meta 與超過 1000 名醫生合作標註訓練數據，這一投入在評測榜單上得到了直接回報，也是少見的、錢花到了刀刃上的地方。

編碼與智能體任務則是另一面。Muse Spark 在 DeepSearchQA 智能體搜索項目上得分 74.8，優於 Gemini 3.1 Pro 的 69.7，但在 Terminal-Bench 2.0 終端編碼任務上僅得 59.0，落後於 GPT 5.4 的 75.1 和 Gemini 3.1 Pro 的 68.5。

基準測試之外，社區的實戰對比更為直觀：有用戶同時讓 Muse Spark 和 GPT-5.4 完成「製作一個 Flappy Bird 克隆版」的任務，從遊戲邏輯到交互細節，GPT-5.4 輕鬆勝出。在經典的六邊形小球測試中，對比昨天 DeepSeek 專家模式的表現，Muse Spark 再次敗下陣來。

只能說，編碼與長鏈路智能體任務，仍是 Meta 明確承認、尚在補強的方向。

與標準推理模式並行，Meta 同步推出了 Contemplating 模式，通過並行調度多個 AI 智能體協作處理複雜問題。

該模式在「人類最後的考試」（Humanity’s Last Exam）無工具版本中得分 50.2，超過 Gemini 3.1 Deep Think 的 48.4 和 GPT 5.4 Pro 的 43.9，FrontierScience Research 科學研究任務中得分 38.3。但在物理奧賽 IPhO 2025 理論題上得分 82.6，仍落後於 GPT 5.4 Pro 的 93.5。

贊助商廣告

支撐上述能力的，是 MSL 過去九個月徹底重建的技術棧。

Codebase Perplexity 測試圖表顯示，Muse Spark 在相同性能水平下，比 Llama 4 Maverick Base 節省 10.3 倍算力，比 DeepSeek-V3.1 Base 節省 8.2 倍，比 Kimi-K2 Base 節省 3.3 倍。

強化學習階段同樣表現穩定，pass@1 從約 46% 持續爬升至超 60%，pass@16 從近 68% 升至近 80%，在未見過的評測集上泛化趨勢同樣平穩。

推主 Yuchen Jin 評價稱，基礎設施才是 AI 實驗室真正的護城河，好的基礎設施讓研究人員能以更快速度訓練模型、用更短周期驗證更多想法。

Meta released Avocado, they call it Muse Spark. It's not open source (a bit sad). Meta TBD lab rebuilt the entire pretraining stack in 9 months and reached similar capability with >10x less compute than Llama 4 Maverick. I still think infra is the real moat in AI labs. You can train models much faster with a good infra, and it allows researchers to experiment with many more ideas much more quickly.

AI 評測機構 Artificial Analysis 在早期測試後表示，Muse Spark 在其綜合智能指數中得分 52，位列全球前五。

贊助商廣告

Muse Spark 現已上線 meta.ai 及 Meta AI 應用，並向部分用戶開放 API 內測，用戶須以 Facebook 或 Instagram 賬號登錄方可使用。與此前開源 Llama 系列的路線不同，Meta 這次選擇閉源發布。

Meta 未明確說明是否會使用社交賬號中的個人資訊訓練模型，但鑑於 Meta 的一貫做法，這一可能性不低，其中健康數據的採集更是值得特別關注。

Meta 重組後的首份 AI 答卷，及格了嗎？

2025 年 4 月，Llama 4 以令人失望的表現觸發了 Meta 的人事地震。

下定決心從頭來過的祖克柏，成立了 Meta Superintelligence Labs，以 143 億美元將 Scale AI 創始人 Alexandr Wang 引入擔任首席 AI 官，前 GitHub CEO Nat Friedman 負責產品，前 OpenAI 研究員 Shengjia Zhao（趙晟佳）出任首席科學家。

緊接著是四大團隊的重組、以及從 OpenAI、DeepMind、Anthropic 等對手處累計引進逾 70 名頂尖研究人員，單人簽約獎金最高達 1 億美元。

代價是沉重的，圖靈獎得主 Yann LeCun 離職、600 個崗位被裁、內部薪酬不公引發大規模士氣危機，六個月內四次架構調整更是讓團隊方向感嚴重缺失。

結果顯而易見，九個月重建、數百億投入，Muse Spark 交出的這份答卷，稱得上合格，卻還遠遠談不上亮眼。

有一個有趣的細節是，Meta 在評測圖表中，通過給自家模型基準測試成績高亮的操作，試圖製造出全面領先的視覺觀感，隨即引發外界批評。

If your head is spinning from AI benchmarks, lemme help ya

網友 Armen Aghajanyan 直接定性為「圖表犯罪」，Alexandr Wang 隨後公開致歉，承認大多數評估恰恰顯示模型有很多需要改進的地方。

Rooting for Meta to ship great models, but man this is a chart crime.

贊助商廣告

Congrats on the release!

事實上，Meta 新模型在健康領域的垂直優勢足夠亮眼，算力效率的提升也確有真實價值，但 ARC AGI 2 上的斷崖式落差、編碼任務上被 GPT-5.4 輕鬆超越，以及「圖表犯罪」風波所折射出的敘事焦慮，共同勾勒出一個仍在追趕、而非遙遙領先的 Meta AI。

更關鍵的是，這是一份閉源答卷。Meta 曾以開源 Llama 系列樹立起差異化形象，如今轉向閉源商業化路線，意味著它放棄了社區生態這張最重要的底牌，卻尚未證明自己能在閉源賽道上與 OpenAI 和 Anthropic 正面掰手腕。

soom

贊助商廣告

如官方部落格和 Alex 回應所說，別問，問就是「大的要來了」

甚至就在 Muse Spark 發布的同一天，馬斯克在社交媒體上曬出 xAI Colossus 2 的訓練進度，七個模型同時在訓，參數規模從 1T 橫跨至 10T，並附上一句意味深長的「還有些追趕要做」。

SpaceXAI Colossus 2 now has 7 models in training: - Imagine V2 - 2 variants of 1T - 2 variants of 1.5T - 6T - 10T Some catching up to do.

同期，Claude Mythos 預覽版、DeepSeek 新一輪更新也已經發布，包括阿里即將推出 Qwen-3.6 系列旗艦 Qwen-3.6-Max，騰訊混元 3.0 同樣蓄勢待發。

對手們不會等 Meta 考完再出題，並且投資者的耐心本來就是有限度的。四月，依舊是最殘酷的一個月。名為 AGI 的這場考試，目前還看不到閱卷結束的那一天。