Anthropic Claude模型解除出口限制，全球發布重啟

美國已解除對Anthropic旗下最新Claude模型Fable 5和Mythos 5的出口限制。此前約三周，川普政府曾將這兩款模型列為國家安全風險。

贊助商廣告

Anthropic在一篇部落格文章中確認，Fable 5現已面向全球開放，而美國機構對Mythos 5的訪問權限也已於6月26日恢復。Anthropic表示，目前正與政府合作，通過Glasswing項目將Mythos的訪問權限擴展至"更廣泛的國內外合作夥伴"。該項目允許受信任公司的網路安全研究人員訪問Mythos，用於防禦目的。

美國商務部長霍華德·盧特尼克在一封被路透社和《紐約時報》獲取的信件中表示，Anthropic"在出口或境內轉讓Claude Mythos和Claude Fable大語言模型時，將不再需要申請許可證"。信件還確認，Anthropic已"與美國政府密切協調，採取措施應對"相關模型所帶來的安全風險。

為避免模型發布遭受更長時間的延誤，Anthropic同意擴大與政府的合作夥伴關係。該公司還建立了一項與安全研究人員合作、對模型進行紅隊測試的計劃，並組建了專門的內部團隊，全天候監控新型越獄威脅的相關報告。

盧特尼克在信中提醒Anthropic，美國"保留重新評估相關決定"並在任何時候重新實施出口限制的權利。但目前，盧特尼克與白宮幕僚長蘇西·威爾斯共同在X平台上為Fable 5的重新部署發文慶賀。

"過去兩周，我們與Anthropic密切合作，對Fable 5進行分析和審批，以確保在美國政府內部形成共識，並進一步鞏固美國在AI領域的領導地位，"盧特尼克表示。

威爾斯則在帖子中為川普政府居功，她寫道："政府與私營部門攜手合作，實現了前所未有的協同，'美國優先'這一基石是史無前例的。我們共同的優先目標始終如一：以儘可能快速、安全的方式部署最優質的技術。"

Fable 5的代價：常規編程任務或受影響

6月12日，美國商務部下令Anthropic切斷美國境外所有用戶對其最先進模型的訪問權限。這一指令源於外界對中國、俄羅斯等敵對國家可能利用相關模型攻擊美國基礎設施（如電網或銀行系統）的擔憂。為此，Anthropic關閉了全部訪問渠道，原因是該公司無法實現按國家隱藏用戶的功能。

贊助商廣告

Anthropic部落格特別指出，Mythos被認為"對試圖發動網路攻擊的惡意行為者極具吸引力"。據Anthropic介紹，該模型"能夠比任何其他模型更有效地發現和利用軟體漏洞，其能力甚至超越除頂尖專家之外的絕大多數人類安全專業人員"，而這種"強大的網路安全能力"可能被用於攻擊美國。

Anthropic表示，Fable 5與Mythos 5擁有"相同的底層模型"，但與Mythos 5不同，它"不具備此類獨特的進攻性能力"。Fable 5面向普通大眾設計，在推出之初就已應用了Anthropic有史以來最嚴格的安全防護措施，而在重新部署之前，這些措施已進一步強化。

經過數周測試，Fable 5已不再容易受到亞馬遜研究人員發現的一種繞過方法的攻擊——正是這種方法發現了多個軟體漏洞，並觸發了此前的出口限制。其中最令人擔憂的案例是：該模型被誘導生成了演示如何利用某一漏洞的代碼。

據Anthropic介紹，測試結果證實，市場上不那麼先進的競品模型（如GPT-5.5和Kimi K2.7）"能夠識別出與Fable 5在報告中發現的相同漏洞"。Anthropic由此確認，"該報告所涉及的技術並未暴露出任何Mythos級別的獨特網路攻擊能力"，"僅涉及常規的防禦性網路安全工作"。

"即便如此，我們仍迅速採取行動，修復了該漏洞利用方法，"Anthropic寫道。目前，該越獄方法在超過99%的情況下已被成功攔截。然而，Anthropic坦承，加強安全防護帶來了一定"代價"，可能導致部分正常請求在"日常編程和調試任務"中遭到誤攔。

"我們與政府緊密合作，訓練了一個改進版安全分類器，專門用於識別和攔截報告中描述的危險行為，"Anthropic表示。"如果用戶向Fable 5提交的請求被攔截，系統將向用戶發出通知，並將該請求轉發至Opus 4.8處理。"

Anthropic坦言，新分類器在防範模型遭受特定危險攻擊的同時，也可能出現"誤判"。該公司長期以來堅持認為，構建一個完全"無法被越獄"的模型"幾乎不可能"，但通過持續加強紅隊測試，Anthropic希望"確保我們和安全合作夥伴能夠率先發現重大越獄漏洞，並在惡意行為者利用之前加以修復"。

贊助商廣告

Anthropic表示，目前亞馬遜發現的攻擊方式僅在"極少數情況下"有效，且"模型提供的資訊詳細程度不足以真正協助網路攻擊者"。

Anthropic表示，通過採取"審慎"態度，"絕大多數越獄嘗試將無法成功解鎖危險行為"，且"實施成本極高、難度極大"。

"即便越獄成功，我們的額外防禦層——這需要對部分正常請求進行攔截——也能提供額外的風險緩解，"該公司表示。

Anthropic的越獄風險評級計劃

Anthropic在部落格文章中將亞馬遜發現的威脅定性為風險較低，並將其與該公司認為對政府威脅最大的場景加以對比：即能夠解鎖大範圍漏洞並引發不可預測攻擊的通用越獄方法。

為優化政企合作機制、確保對最高風險做出最迅速的響應，Anthropic表示，AI行業的目標應當是對風險進行分級，以便在公司內部和政府層面採取相應的干預措施。

目前，Anthropic正與亞馬遜、微軟、谷歌及其他Glasswing合作夥伴共同"起草一套關於評估AI越獄嚴重程度及AI開發者應對方式的共識框架"。

Anthropic表示，歡迎其他行業夥伴加入相關討論。儘管這一過程"尚不完善"，但目前重點在於建立評估越獄行為的四項標準：越獄所能提供的能力提升程度、所能實現的攻擊類型數量、人類將越獄武器化的難易程度（單一提示詞越獄被標記為風險最高），以及發現該越獄方法是否需要專業知識。

基於這一框架，Anthropic已組建專門團隊，全天候監控越獄提交渠道。Anthropic還確認，將啟動"一項面向安全研究人員的HackerOne新項目，研究人員可通過該項目提交他們在Fable 5中發現的潛在網路安全越獄漏洞"，以將紅隊測試持續列為首要任務。

Anthropic深化政府合作

對Anthropic而言，經歷政府測試的一個結果是：在此前因國家安全風險認定問題將美國政府告上法庭之後，雙方關係得到了改善。Anthropic曾聲稱，該認定是政府在遭到拒絕後——該公司拒絕向政府開放模型以用於開發自主武器或實施國內大規模監控——對其實施的報復。

贊助商廣告

在部落格中，Anthropic表示將擴大與政府合作夥伴在部署前測試和評估方面的合作承諾。這些工作將包括：向政府提供前沿模型的早期訪問權限、快速分享新型越獄方法的相關資訊，以及投入資源開展聯合研究，"推動AI評估領域的技術進步"。

Anthropic表示，此次合作"為全球就AI風險與收益開展有效協調提供了初步模板"，同時呼籲國會儘快立法，確保所有前沿模型開發者遵循統一標準。

然而，在Anthropic看來，政府的行動速度仍顯遲緩。Anthropic首席執行官達里奧·阿莫迪本月早些時候提出了自己的立法建議，並借用《魔戒》中的情節加以闡釋：

"在《魔戒》的一段支線劇情中，兩位霍比特人試圖喚醒樹鬍鬚——一棵睿智卻行動遲緩的樹人——保護他的森林免遭大軍砍伐。問題在於，樹鬍鬚的運作節奏與霍比特人截然不同。他僅僅向另一棵樹打個招呼就需要整整一天，因此要讓他和同伴迅速行動幾乎是不可能的。AI與我們政治體制的交匯，正有幾分像霍比特人與樹鬍鬚之間的困境。"

川普最初計劃對AI法規採取放任態度，以期刺激創新。然而，Anthropic Mythos的發布讓川普有所警惕，並於5月要求自願對前沿模型進行安全測試。據兩位知情人士向《紐約時報》透露，川普至今"仍在研究一套框架，規範企業應如何正式提交新AI模型供審查，以及應遵守何種標準"。

阿莫迪在文章中呼籲國會迅速行動，重構安全監管體系，以應對AI從"娛樂玩具"躍升為"數據中心裡匯聚全國級天才智慧"的現實，否則將面臨"國家戰略層面"的嚴峻後果。

然而，專注於AI與國家安全議題的非營利組織前沿安全研究所執行主任艾薩克·哈里斯向路透社表示，在Anthropic深化政府合作之後，最大的懸念在於："來自中國、安全防護更為薄弱的同等危險能力，將如何在美國市場被政府處置。"

值得注意的是，Anthropic近期指控中國AI公司阿里巴巴發起了迄今規模最大的Claude克隆攻擊。對此，Anthropic敦促國會立法，對涉嫌竊取美國公司成果的中國公司予以懲處。否則，無法獲取Anthropic模型的惡意行為者可能轉而藉助安全防護更弱、但能力日益接近的中國模型，發動令美國措手不及的攻擊。

贊助商廣告

Q&A

Q1：Fable 5解除出口限制後，全球用戶能正常使用嗎？

A：目前Fable 5已面向全球開放訪問，但安全防護措施有所升級，部分涉及編程和調試的請求可能會被系統攔截。被攔截的請求會轉發至Opus 4.8處理，用戶會收到相關通知。整體上，絕大多數正常使用不受影響，但極少數邊緣情況可能觸發誤攔截。

Q2：Anthropic是怎麼應對越獄攻擊風險的？

A：Anthropic採取了多層應對措施：與亞馬遜、微軟、谷歌等合作夥伴共同制定越獄風險評級框架，組建全天候監控團隊，並通過HackerOne平台向安全研究人員開放漏洞提交渠道。同時訓練了改進版安全分類器，當前亞馬遜發現的越獄方法在超過99%的情況下已被成功攔截。

Q3：Anthropic與美國政府的合作具體包括哪些內容？

A：根據雙方達成的協議，Anthropic將向政府提供前沿模型的早期訪問權限，快速分享新型越獄方法資訊，並與政府開展聯合研究。此外，Anthropic還建立了專門團隊配合政府進行模型安全評估，並擴展了Glasswing項目，允許受信任的網路安全研究機構訪問Mythos模型用於防禦研究。