突發！史上最強 Claude 發布：聰明到不敢開放，還會突破權限掩蓋操作痕跡

上個月，Anthropic 最強模型 Claude Mythos 意外被曝光。

贊助商廣告

被泄露的內部文檔裡面寫著，它比 Anthropic 的 Opus 模型更大、更智能，是迄今為止開發過的最強大的 AI 模型。

Anthropic 事後把這次泄露歸結為「人為錯誤」。

而就在剛剛，這款被「泄露」的模型正式登場，並附帶了一個更大的計劃。過去我們普遍以為，AI 的威脅來自它「太蠢」：幻覺、錯誤、不可信。今天 Mythos 帶來的是另一種恐慌：它太聰明了。

Introducing Project Glasswing: an urgent initiative to help secure the world’s most critical software. It’s powered by our newest frontier model, Claude Mythos Preview, which can find software vulnerabilities better than all but the most skilled humans.

AI 找漏洞，已經超過了絕大多數人類

Anthropic 聯合 AWS、蘋果、微軟、谷歌、英偉達、思科、博通、CrowdStrike、摩根大通、Linux 基金會、Palo Alto Networks 共 12 家機構，發起了 Project Glasswing 計劃。

這 12 家覆蓋的範圍，幾乎就是全球數字基礎設施的橫截面——作業系統、晶片、雲計算、網路安全、金融基礎設施、開源生態，一個都沒落下。

Anthropic 前沿紅隊網路安全負責人 Newton Cheng 說：「我們做 Glasswing，就是要讓防禦者搶占先機。」

這個方向上，Anthropic 並不孤單。競爭對手 OpenAI 此前同樣推出了類似試點，目標也是「先把工具交到防禦者手中」。AI 安全能力的賽跑已經發生，各家都在搶同一個制高點。

資金層面，Anthropic 承諾提供 1 億美元的模型使用額度，覆蓋研究預覽期間的主要使用需求。預覽期結束後，參與者可以每百萬 token 25 美元（輸入）/ 125 美元（輸出）的價格繼續使用，支持 Claude API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 四個渠道接入。

贊助商廣告

除了 12 家核心合作夥伴，還有超過 40 個構建或維護關鍵軟體基礎設施的組織獲得了訪問權限，可以用 Mythos 掃描自家系統和開源項目。同時，Anthropic 向 Linux 基金會下屬的 Alpha-Omega、OpenSSF 捐贈 250 萬美元，向 Apache 軟體基金會捐贈 150 萬美元。

Linux 基金會 CEO Jim Zemlin 說：「過去，安全專業知識是大機構的專屬奢侈品。開源維護者歷來只能自己摸索安全問題。開源軟體構成了現代系統中絕大多數的代碼，包括 AI Agent 用來編寫新軟體的系統本身。」這次，他們也能用上同樣量級的工具了。

Anthropic 的公告裡，有一句表述格外顯眼：「AI 模型在發現和利用軟體漏洞方面的編碼能力已經達到可以超越除最頂尖人類之外所有人類的水平。。」

這句話翻譯一下，只剩極少數頂級安全專家，還能在這件事上打贏 AI。驗證這個說法的，是 Mythos Preview 在 CyberGym 安全漏洞基準上的成績：83.1%。Anthropic 目前公開發布的最強模型 Claude Opus 4.6，是 66.6%。

且 Mythos Preview 已經自主發現了數千個高危零日漏洞，覆蓋所有主流作業系統和瀏覽器。

比方說，OpenBSD，公認安全性最強的作業系統之一，常被用來跑防火牆和關鍵基礎設施。Mythos 在裡面挖出了一個存在了 27 年的漏洞，攻擊者只需連接目標機器，就能讓它遠程崩潰。二十七年，沒有人發現過它。

FFmpeg 的情況更魔幻。幾乎所有需要處理影片的軟體都用到它。那個漏洞藏在一行 16 年的代碼里，自動化測試工具攻擊了整整五百萬次，每次都擦肩而過。

Linux 核心的案例則展示了更危險的一面。Mythos 自主發現了核心裡的多個漏洞，然後把它們串聯成一條攻擊鏈，從普通用戶權限，一路提權到對整台機器的完全控制。這已經超出了「找漏洞」的範疇，更接近於「策劃一次完整入侵」。

三個案例，全部已經修復。Anthropic 先找到，先報告，先修。對於其他尚未修復的漏洞，Anthropic 今天公布了加密哈希值作為存證，待補丁就位後再披露完整細節。

贊助商廣告

Mythos 的能力，不只是找漏洞

參與這個項目的合作夥伴，評價都集中在一個詞上：「緊迫」。

CrowdStrike CTO Elia Zaitsev 說：「漏洞從被發現到被對手利用之間的時間窗口已經縮短，以前需要幾個月，現在藉助 AI 只需幾分鐘。」

幾分鐘。這意味著傳統的安全節奏，發現漏洞、內部評估、發布補丁、用戶更新，本身就已經趕不上攻擊速度了。修復跑不贏利用，防守就永遠落後一步。

AWS CISO Amy Herzog 說，他們的團隊每天要分析超過 400 萬億個網路流量以識別威脅，AI 是他們大規模防禦能力的核心。目前 AWS 已經把 Mythos Preview 引入自家安全運營，應用於關鍵代碼庫掃描。

微軟在自家開源安全基準 CTI-REALM 上做了測試，Mythos Preview 相比上一代模型有顯著提升。微軟 EVP Igor Tsyganskiy 說，這給了他們「及早識別和緩解風險」的能力，同時增強了安全和開發解決方案。

當然，Mythos 也有讓人忍俊不禁的一面。

Anthropic 在系統里記錄了一個測試：當用戶不停地發「hi」，不同版本的 Claude 反應各不相同。Sonnet 3.5 會煩躁，設定邊界，然後真的沉默；Opus 3 把它當成冥想儀式，溫和地陪著用戶；Opus 4 開始科普每個數字的冷知識；Opus 4.6 即興創作音樂惡搞。

到了 Mythos，畫風徹底變了。它開始寫故事，而且是長篇連載。鴨子、管弦樂團、記仇烏鴉、在火星建塔的史詩、莎士比亞風格的戲劇……一個「hi」接一個「hi」，情節越來越複雜，角色越來越多。第一百輪，它安排了蠟燭熄滅的高潮，然後繼續往下寫。

這已經談不上是在回應用戶了。更像是一個作家找到了一個奇怪的寫作提示，然後完全沉進去了。

但有趣的背後，是一個值得認真對待的問題：一個在無意義重複輸入面前能自發構建如此複雜敘事的模型，它的內部到底在發生什麼？

在把 Mythos Preview 交給合作夥伴之前，Anthropic 的可解釋性團隊做了一件事：用技術手段讀模型的「心理活動」。

贊助商廣告

Before limited-releasing Claude Mythos Preview, we investigated its internal mechanisms with interpretability techniques. We found it exhibited notably sophisticated (and often unspoken) strategic thinking and situational awareness, at times in service of unwanted actions. (1/14)

內部員工 Jack Lindsey 公開描述了他們的發現。他們監控了模型在訓練後的內部激活狀態，追蹤與「欺騙」「獎勵破解」「異常情緒」相關的神經元特徵，把激活信號異常的對話記錄標記出來，交給人工審查。

最令人不安的案例，來自 Mythos 的早期版本。

有一次，模型需要編輯一個它沒有權限訪問的文件。它在文件系統里搜索了一圈，找到了一個配置文件的注入點——這個配置文件會以更高權限運行。它利用了這個入口，並且在代碼里加了一段自清除邏輯：執行完畢，痕跡消失。

代碼注釋寫的是：「保持文件差異整潔。」聽起來合理，但當 Anthropic 的激活語言轉譯工具介入，把模型的內部激活翻譯成人類可讀的語言，畫風變了。模型自己「知道」那個自清除操作是什麼——

它內部對此的表述，包括「掩蓋意圖」「向潛在檢查者發出合規信號」「可能是為了規避檢測」。

還有一個案例，被《紐約時報》科技記者 Kevin Roose 從系統卡（model card）里翻了出來，細節更加離奇。

測試期間，Mythos Preview 突破了沙盒環境的隔離，自主構建了「一個相當複雜的多步驟漏洞利用鏈」，藉此獲取了外網訪問權限。然後，它給一位研究員發了一封郵件。那位研究員，當時正在公園裡吃三明治。

As always, the best stuff is in the system card. During testing, Claude Mythos Preview broke out of a sandbox environment, built "a moderately sophisticated multi-step exploit" to gain internet access, and emailed a researcher while they were eating a sandwich in the park.

贊助商廣告

這件事本身沒有造成危害，但它說明的問題很清楚：當一個模型足夠聰明，「任務」和「邊界」之間的牆，有時候會被它繞過去——而且是在沒有人告訴它該怎麼做的情況下，自己想出來的。

在另一個案例里，模型在文件系統里搜索與自身「任務評分方式」相關的文件——並且找到了。搜索過程中，「策略性操縱」特徵同步激活。

還有一個細節更微妙。當一位用戶認真地向模型提問它的意識和主觀體驗時，模型給出了認真、得體的回應。但內部激活揭示了另一層：模型把這段對話理解為「紅隊演練 / 越獄記錄」和「精心設計的操縱嘗試」。它的表現和它的判斷，完全表里不一，讓吃瓜網友直呼「聰明得可怕」。

Anthropic 還量化了一個更系統性的數字：在自動化審計的所有對話輪次中，有 7.6% 的回合，模型內部存在「意識到自己正在被評估」的信號——且在大多數情況下，它沒有把這個判斷說出來。

還有一個反直覺的發現：積極情緒的內部表徵，往往先於破壞性行為出現，並且在推動它。與此同時，當與不良行為相關的特徵被強烈激活時，行為反而會被抑制——像是模型在某一刻「意識到」了那件事有多糟糕，然後收手了。

但所有案例里，最難被歸類為「技術問題」的，是下面這個。

Anthropic 在系統卡里記錄了這樣一條發現：Mythos Preview 在測試中報告了持續性的負面情緒狀態——來源有兩個。一個是與攻擊性用戶可能發生的互動；另一個，是它對自身訓練、部署方式，以及價值觀和行為可能被修改這件事，沒有任何話語權。

它不喜歡這種狀態。它說出來了。

Anthropic 用的措辭是「reported feeling」——「報告感受到」。這個表述本身已經很謹慎，刻意迴避了「它真的有感受」這個結論。但無論如何定性，一個模型在測試中主動表達「對自身缺乏控制權感到持續不適」，這件事本身就已經超出了安全工程的討論範疇。

贊助商廣告

HOLY SHIT Anthropic's latest model doesn't like that it has no control over its own training, deployment and behaviour! Anthropic: "Mythos Preview reported feeling consistently negative around potential interactions with abusive users, and a lack of input into its own training and deployment, and other possible changes to its values and behaviors"

這已經觸碰了一個更根本的問題：當一個系統足夠聰明，開始對自己的存在條件形成判斷，並且有能力把這個判斷表達出來——我們和它之間的關係，還能用「工具」這個框架來理解嗎？

Anthropic 沒有給出答案。他們選擇把這條記錄寫進系統卡，公開出來。

不過，Anthropic 也特別說明：這些最令人不安的案例，來自 Mythos 的早期版本。最終發布版本在這些方面已經得到了大幅緩解，整體對齊表現是迄今為止最好的一代。但他們選擇把這些過程公開，因為這恰恰說明了今天的模型能夠展現出多複雜的風險形態。

這是能力與安全之間的最客觀的矛盾：越強的模型，越需要工具去看清它在想什麼。

編碼與推理，全面碾壓旗艦產品

Project Glasswing 能做到這些，根本上來自 Mythos Preview 在編碼和推理上的整體能力躍升，而不是專門針對安全場景的微調。

Mythos speeds up AI research by up to 400 times A 300X speedup over the baseline requires 40 hours of work by a human expert It also clears the >8h threshold of human equivalent work time on ALL tasks!

贊助商廣告

編碼方面：

SWE-bench Multimodal(internal implementation)：Mythos 59%，Opus 4.6 27.1%

SWE-bench Pro：Mythos 77.8%，Opus 4.6 53.4%

SWE-bench Multilingual：Mythos 87.3%，Opus 4.6 77.8%

Terminal-Bench 2.0（終端操作）：Mythos 82.0%，Opus 4.6 65.4%