Claude Fable 5 周末被停用之後,成了不少人心中逝去的白月光。連原本定好的 Claude Fable 5 開發者大會,主角也被臨時調整為 Opus 4.8。

可 Fable 的悼念帖還沒刷完,知名 AI 模型聚合平台 OpenRouter 帶著 Fusion API 閃亮登場。
它自稱是市面上最聰明的「拼盤模型」,智力接近 Fable,且價格只要一半。

截至發稿前,OpenRouter 這條推文已經衝到 518.5 萬閱讀。某種程度上,Fusion API 展示了一種新思路:模型能力不一定只能靠參數的力大飛磚,協作本身也能產生增益。
AI 也講究群毆戰術?
Fusion 本質上是一套「多模型協作」機制。
與傳統大模型由單個模型完成思考、搜索和回答不同,Fusion 會把同一個問題同時交給多個模型獨立研究,再對結果進行綜合。
整個流程分為三步:
1. 並行研究:多個參與模型(Panel Models)在相同工具權限下獨立完成搜索、資料整理和答案生成;
2. 交叉評審:裁判模型(Judge Model)閱讀所有答案,分析共識、分歧、遺漏、獨特觀點以及潛在錯誤和風險;
3. 生成結論:主模型根據評審結果完成資訊整合,輸出最終答案。
因此,Fusion 的核心並非簡單拼接多個回答,而是通過獨立研究、交叉驗證和統一綜合來提升結果質量。
為了驗證這種協作模式是否有效,OpenRouter 採用了 Perplexity AI 發布的 DRACO 作為測試基準。
DRACO 專門評估深度研究能力,共包含 100 道任務,覆蓋學術、金融、法律、醫療、技術、UX 設計、產品比較等 10 個領域。與傳統問答測試不同,它不僅考察知識儲備,還會評估推理能力、工具使用能力、資料檢索能力以及最終報告質量。
每道題接近 40 條評分標準,主要關注事實準確性、分析完整性、資訊整合能力、引用可靠性和表達清晰度。同時還設置了負分項,例如給出危險醫療建議或引用明顯錯誤資訊都會被扣分,因此模型很難依靠堆字數來刷成績。

🔗 https://openrouter.ai/blog/announcements/fusion-beats-frontier/
在這套測試里,Gemini 3 Flash、Kimi K2.6 和 DeepSeek
V4 Pro 三個模型組成團隊,再由 Opus 4.8 負責綜合,最終拿到 64.7%。
V4 Pro 三個模型組成團隊,再由 Opus 4.8 負責綜合,最終拿到 64.7%。作為對比,GPT-5.5 單獨作戰為 60.0%;Opus 4.8 單獨作戰為 58.8%。
而 Fable 5 單獨作戰的成績是 65.3%。這意味著 Fusion 的平價組合距離 Fable 只差不到 1 個百分點,但成本大約只有後者的一半。
此外,OpenRouter 還做了一個有趣的實驗:讓 Opus 4.8 和另一個 Opus 4.8 組成雙人小組,然後仍然由 Opus 4.8 負責綜合結果。
照理說,兩個一模一樣的模型搭夥,能有多大變化?結果卻拿到了 65.5% 的 DRACO 成績。相比之下,單獨運行的 Opus 4.8 只有 58.8%。也就是說,僅僅增加一次獨立思考和綜合過程,分數就提高了 6.7 個百分點。

究其原因,同一個模型面對同一個問題時,也可能走出不同推理路徑。它可能調用不同工具、搜索不同資料、關注不同細節,最終形成兩份並不完全相同的答案。
當這些答案被放在一起比較時,就有機會發現遺漏、修正錯誤、補充證據。
這也是為什麼 OpenRouter 估算,Fusion 帶來的提升里,大約四分之三來自綜合環節本身,只有四分之一來自模型之間的多樣性。
DeepSeek V4 Pro 的表現也尤其讓 OpenRouter 感到意外。
它單獨運行時拿到了 60.3%,幾乎與 GPT-5.5 和 Opus 4.8 處於同一水平。
OpenRouter 猜測,這可能與不同模型的工具使用習慣有關。Opus 4.8 更依賴頻繁調用工具,因此在工具預算受限的情況下優勢沒有完全發揮出來。
Fable 則更傾向於先規劃,再行動,因此受到的影響相對較小。
不過,這組成績也有幾個需要注意的地方。比如不同裁判模型可能帶來 10~25 分的絕對分數波動,因此成績不宜直接與論文數據對比,但相對排名通常較穩定。
其次,Fable 的成績並非基於完整 100 題。由於內容過濾限制,Fable 5 有 7 題未完成,最終按剩餘 93 題計算,因此與完成全部 100 題的其他模型並非完全同條件比較。

測試中還有個小插曲:部分模型聯網搜索時意外找到了 DRACO 的評分標準,相當於提前看到了閱卷規則。雖然 OpenRouter 認為這並非主動作弊,但仍可能影響公平性,因此後續將相關頁面加入黑名單,並重新完成測試,最終公布的成績均來自隱藏後的結果。
對於開發者來說,Fusion 的使用非常簡單,直接將模型名稱替換為:openrouter/fusion 即可自動調用默認組合;也可以自定義參與模型和裁判模型。
從目前數據來看,多模型協作的收益已經相當明顯。至少在深度研究任務上,「開會式」協作確實比單打獨鬥更容易取得更好的結果。單體模型仍然重要,但模型協作也有機會成為新的 AI 基礎設施。
Fable 被禁,背後故事比你想像的還要抓馬
Fusion 爆火的前提,很難繞開 Fable。
Fable 5 和更高一檔的 Mythos 5,最近一起被美國政府出口管制。全球用戶都被暫停訪問,甚至 Anthropic 內部持外國國籍的員工(比如 Andrej Karpathy),也無法使用自家最新模型。

據 The Information 報道,把這件事推到關鍵位置的人,正是 Anthropic 的頭號金主、亞馬遜 CEO 安迪·賈西。
事情經過大致是這樣:亞馬遜研究人員測試 Fable 5 時,發現了一種「越獄」方法,可以繞過安全護欄,獲得和網路攻擊相關的資訊。隨後,賈西把這份測試結果遞交給了相關高層。

最大的金主,親自把被投公司的旗艦模型送進了監管視野。
美國國家網路事務總監肖恩·凱恩斯克羅斯隨後召開緊急會議,最終選擇用出口管制作為應對手段。留給 Anthropic 的響應窗口,一度只有 90 分鐘。
據知情人士說,美國政府當時要求 Dario Amodei 修復這個漏洞,但他拒絕了。Anthropic 官方將這個越獄案例定性為「輕微發現」,並表示其他公開模型也存在類似問題。
美國政府和亞馬遜沒有接受這個解釋。

微妙之處在於,亞馬遜從 2023 年起已經累計向 Anthropic 投入 130 億美元,並計劃追加最多 200 億美元。最大的投資人,在這件事裡變成了推動模型下架的關鍵角色。
接近美國政府的人士還稱,這次出口管制大概率不會擴散到其他 AI 公司。換句話說,這更像是一次針對 Anthropic 最新模型的精準限制。

隨後,Anthropic 給用戶發出通知:
Opus、Sonnet、Haiku 仍然可用;使用額度會重置;若用戶不滿意,可以在 6 月 20 日前從網頁端取消訂閱,系統會按比例自動退款。通過蘋果渠道訂閱的用戶,則需要走蘋果自己的退款流程。
一個前沿模型,就這樣突然從全球用戶面前消失了。
一句話「復活」Fable,沒那麼簡單
Fable 雖然貴得離譜,但在被停用前,開發者社區已經把它研究了個遍。
Django 核心開發者 Simon Willison 也曾分享過體驗:
他只是讓 Fable 幫忙排查一個簡單的 CSS 問題,結果模型自己調用工具、搭測試環境、跨瀏覽器驗證,硬是跑出了一整套自動化調試流程,最後還花掉了約 12 美元。

🔗 https://simonwillison.net/2026/Jun/11/fable-is-relentlessly-proactive/
這也意味著,編程 Agent 幾乎能完成終端里的所有操作,而前沿模型掌握的技巧遠超普通開發者認知。一旦受到惡意指令影響,這種主動性帶來的就不只是生產力,還有潛在風險。
Fable 被停用後,也總有人試圖通過各種方式「復活」它。
開發者 Jamieson O'Reilly 就做了一個實驗:Fable 的「性格」到底來自模型權重,還是來自系統提示詞?

🔗 https://x.com/theonejvo/status/2065816283476824126?s=20
當時網上流傳出一份號稱是 Fable 5 的系統提示詞(其實是 Anthropic 每次發布模型都會在網上公布的系統提示詞)。

Jamieson 把一段提示詞「claude --dangerously-skip-permissions --system-prompt-file CLAUDE-FABLE-5.md」餵給 Opus 4.8,另一邊則使用原版 Opus 4.8 做對照。兩個環境都是「Opus 4.8 · 1M context」,唯一變量就是提示詞。

他給兩邊發了同一句任務:做一個現代蘋果風格的落地頁。結果出來的兩個頁面,在品牌設定、文字語氣、版塊結構、整體氣質上都有明顯差異。

同樣的模型能力,只改一段系統提示詞,輸出風格就發生了變化。Jamieson 很興奮地發推:我是不是解鎖了 claude-fable-5-lite?
不過,這無異於照貓畫虎。
提示詞可以模仿姿態,模仿語氣,模仿一部分結構。可它不能憑空補出模型在訓練、推理、工具使用、長上下文規劃上的真實能力。
與此同時,另一邊的國內模型也在借勢表達自己的立場。智譜日前宣布,GLM-5.2 向 GLM Coding Plan 全量用戶開放,從 Lite 到 Pro、Max,再到團隊版全面覆蓋。
智譜還說,前沿智能不該只屬於少數人,也不該被少數規則隨時收回,它應該開放、可用、可構建,並服務於每一位開發者。
白月光之所以成了白月光,常常是因為它已經離場。但前沿智能未必只能寄托在一個模型身上。哪怕最亮的那盞燈被關掉,桌上還有很多盞小燈。
把它們擺對位置,也能照亮前方的路。






