宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

Claude Fable 5 平替指南突然爆火,真能一句話「復活」?

2026年06月15日 首頁 » 熱門科技
Claude Fable 5 周末被停用之後,成了不少人心中逝去的白月光。連原本定好的 Claude Fable 5 開發者大會,主角也被臨時調整為 Opus 4.8。
ClaudeFable5平替指南突然爆火真能一句話復活
可 Fable 的悼念帖還沒刷完,知名 AI 模型聚合平台 OpenRouter 帶著 Fusion API 閃亮登場。
它自稱是市面上最聰明的「拼盤模型」,智力接近 Fable,且價格只要一半。
ClaudeFable5平替指南突然爆火真能一句話復活
截至發稿前,OpenRouter 這條推文已經衝到 518.5 萬閱讀。某種程度上,Fusion API 展示了一種新思路:模型能力不一定只能靠參數的力大飛磚,協作本身也能產生增益。
AI 也講究群毆戰術?
Fusion 本質上是一套「多模型協作」機制。
與傳統大模型由單個模型完成思考、搜索和回答不同,Fusion 會把同一個問題同時交給多個模型獨立研究,再對結果進行綜合。
整個流程分為三步:

1. 並行研究:多個參與模型(Panel Models)在相同工具權限下獨立完成搜索、資料整理和答案生成;

2. 交叉評審:裁判模型(Judge Model)閱讀所有答案,分析共識、分歧、遺漏、獨特觀點以及潛在錯誤和風險;

3. 生成結論:主模型根據評審結果完成資訊整合,輸出最終答案。
因此,Fusion 的核心並非簡單拼接多個回答,而是通過獨立研究、交叉驗證和統一綜合來提升結果質量。
為了驗證這種協作模式是否有效,OpenRouter 採用了 Perplexity AI 發布的 DRACO 作為測試基準。
DRACO 專門評估深度研究能力,共包含 100 道任務,覆蓋學術、金融、法律、醫療、技術、UX 設計、產品比較等 10 個領域。與傳統問答測試不同,它不僅考察知識儲備,還會評估推理能力、工具使用能力、資料檢索能力以及最終報告質量。
每道題接近 40 條評分標準,主要關注事實準確性、分析完整性、資訊整合能力、引用可靠性和表達清晰度。同時還設置了負分項,例如給出危險醫療建議或引用明顯錯誤資訊都會被扣分,因此模型很難依靠堆字數來刷成績。
ClaudeFable5平替指南突然爆火真能一句話復活
🔗 https://openrouter.ai/blog/announcements/fusion-beats-frontier/
在這套測試里,Gemini 3 Flash、Kimi K2.6 和 DeepSeekClaudeFable5平替指南突然爆火真能一句話復活 V4 Pro 三個模型組成團隊,再由 Opus 4.8 負責綜合,最終拿到 64.7%。
作為對比,GPT-5.5 單獨作戰為 60.0%;Opus 4.8 單獨作戰為 58.8%。
而 Fable 5 單獨作戰的成績是 65.3%。這意味著 Fusion 的平價組合距離 Fable 只差不到 1 個百分點,但成本大約只有後者的一半。
此外,OpenRouter 還做了一個有趣的實驗:讓 Opus 4.8 和另一個 Opus 4.8 組成雙人小組,然後仍然由 Opus 4.8 負責綜合結果。
照理說,兩個一模一樣的模型搭夥,能有多大變化?結果卻拿到了 65.5% 的 DRACO 成績。相比之下,單獨運行的 Opus 4.8 只有 58.8%。也就是說,僅僅增加一次獨立思考和綜合過程,分數就提高了 6.7 個百分點。
ClaudeFable5平替指南突然爆火真能一句話復活
究其原因,同一個模型面對同一個問題時,也可能走出不同推理路徑。它可能調用不同工具、搜索不同資料、關注不同細節,最終形成兩份並不完全相同的答案。
當這些答案被放在一起比較時,就有機會發現遺漏、修正錯誤、補充證據。
這也是為什麼 OpenRouter 估算,Fusion 帶來的提升里,大約四分之三來自綜合環節本身,只有四分之一來自模型之間的多樣性。
DeepSeek V4 Pro 的表現也尤其讓 OpenRouter 感到意外。
它單獨運行時拿到了 60.3%,幾乎與 GPT-5.5 和 Opus 4.8 處於同一水平。
OpenRouter 猜測,這可能與不同模型的工具使用習慣有關。Opus 4.8 更依賴頻繁調用工具,因此在工具預算受限的情況下優勢沒有完全發揮出來。
Fable 則更傾向於先規劃,再行動,因此受到的影響相對較小。
不過,這組成績也有幾個需要注意的地方。比如不同裁判模型可能帶來 10~25 分的絕對分數波動,因此成績不宜直接與論文數據對比,但相對排名通常較穩定。
其次,Fable 的成績並非基於完整 100 題。由於內容過濾限制,Fable 5 有 7 題未完成,最終按剩餘 93 題計算,因此與完成全部 100 題的其他模型並非完全同條件比較。
ClaudeFable5平替指南突然爆火真能一句話復活
測試中還有個小插曲:部分模型聯網搜索時意外找到了 DRACO 的評分標準,相當於提前看到了閱卷規則。雖然 OpenRouter 認為這並非主動作弊,但仍可能影響公平性,因此後續將相關頁面加入黑名單,並重新完成測試,最終公布的成績均來自隱藏後的結果。
對於開發者來說,Fusion 的使用非常簡單,直接將模型名稱替換為:openrouter/fusion 即可自動調用默認組合;也可以自定義參與模型和裁判模型。
從目前數據來看,多模型協作的收益已經相當明顯。至少在深度研究任務上,「開會式」協作確實比單打獨鬥更容易取得更好的結果。單體模型仍然重要,但模型協作也有機會成為新的 AI 基礎設施。
Fable 被禁,背後故事比你想像的還要抓馬
Fusion 爆火的前提,很難繞開 Fable。
Fable 5 和更高一檔的 Mythos 5,最近一起被美國政府出口管制。全球用戶都被暫停訪問,甚至 Anthropic 內部持外國國籍的員工(比如 Andrej Karpathy),也無法使用自家最新模型。
ClaudeFable5平替指南突然爆火真能一句話復活
據 The Information 報道,把這件事推到關鍵位置的人,正是 Anthropic 的頭號金主、亞馬遜 CEO 安迪·賈西。
事情經過大致是這樣:亞馬遜研究人員測試 Fable 5 時,發現了一種「越獄」方法,可以繞過安全護欄,獲得和網路攻擊相關的資訊。隨後,賈西把這份測試結果遞交給了相關高層。
ClaudeFable5平替指南突然爆火真能一句話復活
最大的金主,親自把被投公司的旗艦模型送進了監管視野。
美國國家網路事務總監肖恩·凱恩斯克羅斯隨後召開緊急會議,最終選擇用出口管制作為應對手段。留給 Anthropic 的響應窗口,一度只有 90 分鐘。
據知情人士說,美國政府當時要求 Dario Amodei 修復這個漏洞,但他拒絕了。Anthropic 官方將這個越獄案例定性為「輕微發現」,並表示其他公開模型也存在類似問題。
美國政府和亞馬遜沒有接受這個解釋。
ClaudeFable5平替指南突然爆火真能一句話復活
微妙之處在於,亞馬遜從 2023 年起已經累計向 Anthropic 投入 130 億美元,並計劃追加最多 200 億美元。最大的投資人,在這件事裡變成了推動模型下架的關鍵角色。
接近美國政府的人士還稱,這次出口管制大概率不會擴散到其他 AI 公司。換句話說,這更像是一次針對 Anthropic 最新模型的精準限制。
ClaudeFable5平替指南突然爆火真能一句話復活
隨後,Anthropic 給用戶發出通知:
Opus、Sonnet、Haiku 仍然可用;使用額度會重置;若用戶不滿意,可以在 6 月 20 日前從網頁端取消訂閱,系統會按比例自動退款。通過蘋果渠道訂閱的用戶,則需要走蘋果自己的退款流程。
一個前沿模型,就這樣突然從全球用戶面前消失了。
一句話「復活」Fable,沒那麼簡單
Fable 雖然貴得離譜,但在被停用前,開發者社區已經把它研究了個遍。
Django 核心開發者 Simon Willison 也曾分享過體驗:
他只是讓 Fable 幫忙排查一個簡單的 CSS 問題,結果模型自己調用工具、搭測試環境、跨瀏覽器驗證,硬是跑出了一整套自動化調試流程,最後還花掉了約 12 美元。
ClaudeFable5平替指南突然爆火真能一句話復活
🔗 https://simonwillison.net/2026/Jun/11/fable-is-relentlessly-proactive/
這也意味著,編程 Agent 幾乎能完成終端里的所有操作,而前沿模型掌握的技巧遠超普通開發者認知。一旦受到惡意指令影響,這種主動性帶來的就不只是生產力,還有潛在風險。
Fable 被停用後,也總有人試圖通過各種方式「復活」它。
開發者 Jamieson O'Reilly 就做了一個實驗:Fable 的「性格」到底來自模型權重,還是來自系統提示詞?
ClaudeFable5平替指南突然爆火真能一句話復活
🔗 https://x.com/theonejvo/status/2065816283476824126?s=20
當時網上流傳出一份號稱是 Fable 5 的系統提示詞(其實是 Anthropic 每次發布模型都會在網上公布的系統提示詞)。
ClaudeFable5平替指南突然爆火真能一句話復活
Jamieson 把一段提示詞「claude --dangerously-skip-permissions --system-prompt-file CLAUDE-FABLE-5.md」餵給 Opus 4.8,另一邊則使用原版 Opus 4.8 做對照。兩個環境都是「Opus 4.8 · 1M context」,唯一變量就是提示詞。
ClaudeFable5平替指南突然爆火真能一句話復活
他給兩邊發了同一句任務:做一個現代蘋果風格的落地頁。結果出來的兩個頁面,在品牌設定、文字語氣、版塊結構、整體氣質上都有明顯差異。
ClaudeFable5平替指南突然爆火真能一句話復活
同樣的模型能力,只改一段系統提示詞,輸出風格就發生了變化。Jamieson 很興奮地發推:我是不是解鎖了 claude-fable-5-lite?
不過,這無異於照貓畫虎。
提示詞可以模仿姿態,模仿語氣,模仿一部分結構。可它不能憑空補出模型在訓練、推理、工具使用、長上下文規劃上的真實能力。
與此同時,另一邊的國內模型也在借勢表達自己的立場。智譜日前宣布,GLM-5.2 向 GLM Coding Plan 全量用戶開放,從 Lite 到 Pro、Max,再到團隊版全面覆蓋。
智譜還說,前沿智能不該只屬於少數人,也不該被少數規則隨時收回,它應該開放、可用、可構建,並服務於每一位開發者。
白月光之所以成了白月光,常常是因為它已經離場。但前沿智能未必只能寄托在一個模型身上。哪怕最亮的那盞燈被關掉,桌上還有很多盞小燈。
把它們擺對位置,也能照亮前方的路。
宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新