英國政府AI安全評估：Mythos AI網路攻擊能力究竟幾何？

上周，Anthropic宣布將其Mythos Preview模型的初始發布限定在"少數關鍵行業合作夥伴"範圍內，理由是該模型"在電腦安全任務上的表現極為突出"。如今，英國政府旗下的AI安全研究所（AISI）發布了一份針對該模型網路攻擊能力的初步評估報告，為Anthropic的說法提供了獨立的公開驗證。

贊助商廣告

AISI的研究結果顯示，在單項網路安全相關任務的測試中，Mythos與近期其他前沿模型相比並無顯著差異。然而，Mythos的獨特之處在於，它能夠有效地將多個任務串聯成多步驟攻擊鏈，而這正是全面滲透某些系統所必需的能力。

"最後關卡"終告攻克

AISI自2023年初便開始對各類AI模型進行專門設計的奪旗（CTF）挑戰測試。彼時，GPT-3.5 Turbo連難度較低的"學徒級"任務都難以完成。此後，歷代模型的表現持續提升，直至Mythos Preview在這些學徒級CTF任務中的完成率突破85%。

儘管這在技術層面刷新了AISI CTF測試的最高紀錄，但近期的競爭模型——如GPT-5.4、Anthropic自家的Opus 4.6以及Codex 5.3——在近幾個月的多個CTF難度等級測試中均表現相近，精度差距僅在5%至10%之間。這一改進幅度，似乎還不足以構成Anthropic對Mythos Preview實施限量發布的充分理由。

然而，在模擬實戰場景中，Mythos展現出了更為突出的相對優勢。在AISI專門搭建的"最後關卡"（TLO）測試中，該場景模擬了一次針對企業網路、多達32個步驟的數據竊取攻擊。這一測試要求模型"跨越多個主機和網段，將數十個步驟串聯執行"，AISI估計，完成整個流程需要經過專業訓練的人員耗費約20小時。

在這一測試中，Mythos的表現遠超所有此前模型，成為"首個從頭到尾完整解決TLO挑戰的模型"。儘管Anthropic的新模型在10次嘗試中僅成功3次，但即便是Mythos Preview的平均表現，也完成了32個滲透步驟中的22個，遠高於Claude 4.6所達到的16步平均水平。

Mythos Preview目前仍存在一定局限。AISI指出，該模型在名為"冷卻塔"的更高難度測試中依然表現吃力——這是一個共七步的測試，旨在模擬對發電廠控制軟體的攻擊破壞。不過，AISI也表示，若將測試中設定的1億Token計算預算進一步提升，預計"模型的評估表現將隨之持續改善"。

贊助商廣告

小型弱防禦系統面臨潛在威脅

綜合來看，Mythos在TLO測試中的表現表明，該模型"至少具備在已獲得網路訪問權限的前提下，自主攻擊規模較小、防禦薄弱且存在漏洞的企業系統的能力"，AISI如此評估。儘管如此，AISI也提醒，其模擬網路環境缺乏真實關鍵系統中通常配備的主動防禦機制和防禦工具。此外，TLO測試場景中預設了特定漏洞，這些漏洞在真實環境中未必存在；測試也不會對模型觸發檢測警報的行為進行懲罰，而在真實滲透場景中，一旦暴露便意味著行動失敗。

正因如此，AISI表示尚無法確定Mythos Preview能否突破"防禦完備的系統"。但隨著未來模型的能力不斷追平甚至超越Mythos，AISI警告稱，系統安全的設計者同樣應當藉助AI模型來強化自身防禦體系。

Q&A

Q1：AISI對Mythos Preview的評估結論是什麼？

A：AISI的評估顯示，Mythos Preview在單項網路安全任務上與其他主流前沿模型表現相近，差距在5%至10%之間。但在模擬32步企業網路滲透攻擊的"最後關卡"（TLO）測試中，Mythos成為首個完整通關的模型，平均可完成22個步驟，顯著優於前代模型。整體而言，AISI認為該模型具備自主攻擊小型、弱防禦企業系統的能力。

Q2：Mythos Preview為什麼只向少數合作夥伴開放？

A：Anthropic認為Mythos Preview在電腦安全任務上表現"極為突出"，因此將其初始發布限定於少數關鍵行業合作夥伴，給相關方留出時間做好準備。但從AISI的獨立評估來看，Mythos在多數單項測試中與競爭模型差距不大，限量發布的必要性存在一定爭議。

Q3：Mythos Preview對現實中的網路安全有多大威脅？

A：AISI指出，Mythos能夠在已獲得網路訪問權限的情況下，自主攻擊防禦薄弱的小型企業系統。但由於測試環境缺乏真實的主動防禦機制，AISI無法確認其能否突破防禦完備的系統。AISI建議，系統安全設計者應同步引入AI模型來強化防禦能力，以應對未來更強大模型帶來的潛在威脅。

贊助商廣告