Anthropic旗下AI模型Mythos遭黑客入侵事件始末

這對一家將AI安全作為核心品牌形象的公司而言，實屬難堪。

贊助商廣告

Anthropic對Claude Mythos的嚴格管控推出計劃，近日出現了令人尷尬的轉折。該公司此前數周一再強調，這款AI模型在網路安全領域的能力過於強大，危險性過高，因此不宜向公眾開放。然而諷刺的是，該模型最終還是落入了未經授權人員的手中。

據彭博社報道，自Anthropic宣布計劃向少數企業提供Mythos測試訪問權限當天起，一個"小規模未授權用戶群體"便已獲得了該模型的訪問途徑——而Mythos的存在本身，最初也是通過一次資訊泄露才得以曝光。目前Anthropic表示正在調查此事。對於一家以認真對待AI安全為立身之本、同時大力宣傳其最新模型網路安全能力的公司來說，這無疑是相當難堪的局面。

從技術角度來看，此次Mythos泄露事件令人尷尬的原因在於其入侵手段極為低級。彭博社報道稱，該群體是通過對模型在線位置進行"有根據的猜測"而獲得訪問權限的。他們利用了AI培訓數據公司Mercor遭受數據泄露後暴露的Anthropic其他模型相關資訊，加上其中一名成員此前曾以合同工身份參與Anthropic模型評估工作而獲得的內部權限。整個入侵過程結合了內部知識與運氣成分，而非依賴某種複雜的技術手段或對模型的全面竊取。

Anthropic未能預防"完全可以預見"的安全漏洞

安全漏洞在所難免，且向黑客提供關鍵資訊的是Mercor，而非Anthropic本身。英國皇家聯合軍種研究所（RUSI）研究員皮婭·許施告訴我，沒有任何公司能做到萬無一失，人為因素往往是最薄弱的環節，儘管此次事件"初看之下確實帶有一定運氣成分"，未造成嚴重後果。

然而這並非純粹的運氣問題。此類有根據的猜測是極為常見的黑客攻擊手段，而Mercor的數據泄露在Mythos發布之前便已是公開的事實。安全研究員盧卡什·奧列伊尼克在接受我採訪時將其描述為一種"完全可以預見"的失誤——網路安全行業在過去20年裡已對此類攻擊司空見慣。因此，Anthropic本應預判到這一風險並做好相應準備，尤其是在已知自身資訊遭到泄露的情況下，更應如此。

贊助商廣告

奧列伊尼克還指出，Anthropic原本具備發現此次入侵的技術手段。該公司能夠對模型使用情況進行"日誌記錄與追蹤"，這本應使其能夠阻止未授權或惡意訪問——尤其是考慮到Mythos的推出範圍原本應極為有限。顯然，Anthropic的監控力度遠遠不夠。鑑於該公司一再強調這款模型的危險性，外界有理由追問：為何監管如此鬆懈？

據彭博社報道，該群體並未將Mythos用於網路安全攻擊任務，部分原因是他們只是想探索這款新模型，另一部分原因則是這樣做可能會驚動Anthropic。如果Anthropic圍繞Mythos發出的警示值得認真對待，那麼這算是不幸中的萬幸。該公司將Mythos定位為"網路安全領域的里程碑"，聲稱其發現了"所有主流作業系統和網路瀏覽器"中的安全漏洞，並表示其發布必須經過統籌協調，以留出時間"強化全球網路防禦體系"。

Anthropic慣於使用戲劇性的、聽起來令人警覺的措辭，這類表述有時難以得到清晰驗證，甚至包括暗示其Claude模型可能具有意識的說法。儘管如此，來自有權訪問該模型各方的早期報告顯示，Mythos在網路安全領域確實表現出色。Mozilla首席技術官博比·霍利表示，該模型在Firefox 150中發現了數百個漏洞，或許能讓防禦方在對抗攻擊者的博弈中首次取得全面勝利。不出意外，世界各地的政府機構和金融機構都對其趨之若鶩。據報道，儘管Anthropic被列為供應鏈風險，美國國家安全局及其他美國機構仍獲得了訪問權限，但此次推出似乎尚未將美國網路安全和基礎設施安全局（CISA）納入其中。

"Anthropic聲稱自己站在這些技術的絕對最前沿，同時也將自己定位為這一切中負責任的行為者。"

此次入侵事件由記者而非Anthropic自身發現，這一事實不禁令人追問：這是否只是一起孤立事件？許施表示，這"真實地揭示了潛在實施者群體的規模有多廣泛，即便他們並不具備高度複雜的技術手段"。Anthropic很可能會對其供應鏈展開全面排查，弄清事件原委並堵塞漏洞，但她指出，想要獲取此類模型訪問權限的行為者範圍極廣，其中不乏資金雄厚者。沒有理由假設其他可能已獲得訪問權限的人，會像彭博社報道中提及的那個群體一樣保持克制。

贊助商廣告

某種程度上，Anthropic是在自食其果。該公司的品牌形象建立在比競爭對手更認真對待AI安全的基礎之上，這為其模型安全樹立了極高的預期標準，而此次明顯的疏忽與之形成了強烈反差；尤其是Mythos竟通過如此基礎且可預見的漏洞遭到入侵，更加凸顯了這一落差。更糟糕的是，Anthropic將Mythos大力渲染為一款能力非凡、危險性過高而不宜公開發布的工具，這反而使其成為了眾矢之的——無論是對惡意攻擊者，還是對那些單純尋求挑戰的黑客而言，皆是如此。

這甚至不是Mythos首次陷入安全尷尬。該模型的存在此前曾在正式發布前，通過其網站內容所在中央系統上的一處"不安全數據儲存"意外泄露。如今，該模型又通過一個完全可以預見、Anthropic卻未想到予以修補的漏洞遭到秘密訪問。完美固然無從企及，但對於一家自詡為AI安全領域先鋒的公司而言，如此基礎性的失誤實難辯解，即便考慮到其所遭遇的部分運氣不佳因素，亦是如此。

在許施看來，整件事可以用一個詞來概括：羞恥。"Anthropic聲稱自己站在這些技術的絕對最前沿，同時也將自己定位為這一切中負責任的行為者，"她說，"而如今，該模型竟在如此短的時間內通過未授權手段、以如此低級的嘗試遭到訪問，這對他們而言是真正的羞恥。"

Q&A

Q1：Claude Mythos是什麼模型？為什麼不對外公開發布？

A：Claude Mythos是Anthropic開發的一款AI模型，該公司聲稱其在網路安全領域能力極強，曾發現所有主流作業系統和瀏覽器中的漏洞。正因如此，Anthropic認為公開發布風險過高，僅向少數經過篩選的企業提供測試訪問權限，並表示需要統籌協調發布時間，以留出強化全球網路防禦體系的準備時間。

Q2：黑客是如何入侵Mythos的？技術手段複雜嗎？

A：入侵手段並不複雜。未授權群體通過對模型在線位置進行"有根據的猜測"獲得訪問權限，所利用的資訊來自AI培訓數據公司Mercor此前遭受的數據泄露，加上一名成員曾以合同工身份評估Anthropic模型時獲得的內部知識。安全研究員將其描述為網路安全行業20年來已司空見慣的"完全可以預見"的攻擊方式。

贊助商廣告

Q3：Anthropic此次安全事故暴露了哪些管理問題？

A：主要暴露了兩方面問題：一是風險預判不足，Mercor數據泄露在Mythos發布前便已公開，Anthropic理應提前預判並修補相關漏洞；二是監控缺位，該公司本具備對模型使用情況進行日誌記錄與追蹤的技術能力，卻未能及時發現未授權訪問，最終還是由媒體記者而非公司自身披露了這一事件。