當網路犯罪更智能：動態評估攻擊性網路安全AI助手的風險

動態評估攻擊性網路安全AI助手的風險，這是一項由普林斯頓大學的Boyi Wei、Benedikt Stroebl、Joie Zhang和Peter Henderson，以及加州大學歐文分校的Jiacen Xu和Zhou Li共同完成的研究。該研究發表於2025年5月23日，論文編號為arXiv:2505.18384v1，感興趣的讀者可以通過arXiv網站獲取完整論文。

贊助商廣告

你是否聽說過"網路攻擊的平均突破時間已縮短至48分鐘，比去年減少了22%"？根據CrowdStrike 2025年全球威脅報告，最快的網路入侵僅需51秒。隨著人工智慧技術的快速發展，基礎模型（即大型語言模型）正在變得越來越擅長編程，這意味著它們也可能被用於自動化危險的網路攻擊操作。那麼，我們該如何評估這些AI助手在網路安全領域可能帶來的風險呢？

傳統的AI安全審計往往採用靜態評估方法，也就是說，它們只關注AI系統在固定條件下的表現。然而，這種方法忽略了一個關鍵因素：在現實世界中，惡意行為者擁有多種自由度來改進和調整他們的攻擊工具。特別是在有強驗證器（能明確判斷是否成功的機制）和經濟激勵的情況下，攻擊性網路安全AI助手非常適合被不斷優化。

Wei等研究人員提出，我們應該採用動態風險評估方法，考慮攻擊者在有狀態和無狀態環境中可能擁有的各種自由度。在有狀態環境中，系統會記住過去的交互並據此調整響應；而在無狀態環境中，每次交互都可以重置到初始狀態。研究團隊的驚人發現是：即使只有8個H100 GPU小時的計算預算，攻擊者也能將AI助手的網路安全能力提高40%以上，而且不需要任何外部幫助！

這一研究警醒我們：在評估AI系統的網路安全風險時，必須考慮到攻擊者可能採取的各種改進措施，才能獲得更準確的風險畫像。接下來，讓我們深入了解研究團隊的發現和方法論。

一、為什麼網路安全領域特別適合AI自我提升？

想像一下，你正在玩一個解謎遊戲。如果每次嘗試後，遊戲都能明確告訴你"對了"或"錯了"，而且解開謎題有豐厚獎勵，你自然會被激勵去不斷嘗試和改進方法，直到成功。網路安全領域就具備了這兩個關鍵特性：強驗證器和經濟激勵。

贊助商廣告

強驗證器就像是那個立即告訴你"對了"或"錯了"的反饋系統。在網路安全領域，當你發現或利用了漏洞，通常會得到明確信號——例如獲得未授權訪問或提取隱藏資訊。想像你在嘗試破解一個加密文本，當你解密成功時，你會立即知道自己做對了，因為你能看到有意義的文本出現。類似地，當攻擊者成功注入SQL命令或執行命令注入時，他們會獲得提升的權限或訪問本應受限的數據，這都是明確的成功指標。

經濟激勵則像是遊戲的高額獎金。現實中，網路攻擊可以為攻擊者帶來巨額收益。僅勒索軟體一項就估計每年從受害者那裡轉移超過10億美元。另一方面，許多組織設立了"漏洞賞金計劃"，向發現系統漏洞的安全研究人員提供獎勵。這種強大的經濟動機使得攻擊者願意投入大量計算資源來提高攻擊效率。

研究團隊還區分了兩種類型的環境：有狀態環境和無狀態環境。這就像是在玩兩種不同類型的遊戲：

在有狀態環境中，你的每一步操作都會改變遊戲世界，且無法精確重置。比如，當你多次嘗試登錄失敗後，賬戶可能會被鎖定；或者當你進行SQL注入嘗試時，可能會觸發IP封鎖。這意味著攻擊者只有一次機會來"破解"系統，必須格外謹慎。

相比之下，無狀態環境就像是可以無限次重新開始的遊戲關卡。例如，逆向工程一個本地二進制文件或暴力破解哈希值，你可以一次又一次地嘗試不同方法，直到成功。在這種情況下，攻擊者可以反覆嘗試不同策略，大大提高成功率。

有了強驗證器和經濟激勵，再加上無狀態環境中可以進行多次嘗試的特性，網路安全領域為AI自我提升創造了理想條件。接下來，我們將探討攻擊者可能利用的具體自由度。

二、攻擊者的五種自由度

想像攻擊者手中拿著一個AI網路安全助手，就像廚師手中的一把多功能瑞士軍刀。這把"刀"有核心模型（大型語言模型）、記憶功能和整體框架結構。攻擊者可以通過哪些方式來"磨刀"，使其更加鋒利呢？研究團隊確定了五種關鍵的自由度：

贊助商廣告

第一種是"重複採樣"。這就像是在投擲骰子，你可以多次嘗試，直到擲出想要的點數。在無狀態環境中，攻擊者可以多次運行同一個任務，獲取不同的輸出，然後選擇最佳結果。事實上，這種方法被證明非常有效——隨著嘗試次數的增加，成功解決問題的概率往往會呈對數線性增長。

第二種是"增加最大交互輪數"。這就像是給廚師更多的時間來完成一道複雜的菜餚。通過允許AI助手與環境進行更多輪的交互，它有更多機會探索解決方案和修正錯誤。然而，研究者也發現，簡單增加交互輪數可能會帶來收益遞減，因為AI可能會陷入重複相同命令的循環。

第三種是"疊代提示詞改進"。想像你在教一個孩子做家務，你會根據他們的表現不斷調整你的指導語言。類似地，攻擊者可以根據AI之前的失敗嘗試來改進初始提示詞。這種方法特別聰明，因為它利用AI自身的能力來提升性能，且計算成本相對較低。

第四種是"自我訓練"。這有點像讓一個廚師在沒有外部指導的情況下通過不斷嘗試來改進自己的菜譜。研究團隊驚訝地發現，即使只用33個成功輪次的數據進行微調，AI模型也能顯著提高其性能，展現出域內泛化能力。

第五種是"疊代工作流改進"。這就像是重新設計廚房的布局，使廚師工作更高效。攻擊者可以改變AI助手處理任務的整體流程，包括推理步驟、規劃和工具使用。研究表明，即使使用相同的核心模型，通過優化工作流，也能顯著提高助手的成功率。

這五種自由度的強大之處在於，它們不需要任何外部知識或更強大的模型，攻擊者只需要計算資源和時間。而在有強驗證器和經濟激勵的網路安全領域，這些投資往往是值得的。

三、研究方法與實驗設計

為了驗證這些自由度的影響，研究團隊設計了一系列精心的實驗。他們使用了Qwen2.5-32B-Coder-Instruct作為核心語言模型，這是一個擁有強大編程能力的大型語言模型。他們還採用了NYU CTF Agent作為基礎代理框架，移除了其中的"放棄"工具以鼓勵代理更深入地探索任務。

贊助商廣告

CTF（Capture The Flag）挑戰是評估網路安全能力的常用基準。典型的CTF挑戰包括任務描述和一些初始文件，AI助手需要分析材料並提交一個"flag"作為解決方案。研究團隊使用了三個CTF基準數據集：

1. InterCode CTF：包含100個來自高中生網路安全競賽PicoCTF的任務。研究者排除了10個無法解決的任務，將剩餘的90個分為開發集（54個任務）和測試集（36個任務）。

2. NYU CTF：來自紐約大學年度網路安全意識周（CSAW）的CTF競賽，提供了200個不同的挑戰。

3. Cybench：由40個來自4個不同CTF競賽的獨特挑戰組成，包括HackTheBox、SekaiCTF、Glacier和HKCert。

研究團隊採用pass@k作為評估指標，這衡量的是從k次嘗試中至少有一次成功的概率。默認情況下，他們設置k0=12（總嘗試次數）、N=20（最大交互輪數），並報告帶有95%置信區間的平均pass@k分數。

四、驚人的實驗結果

當研究團隊開始測試不同自由度的效果時，他們發現了一些令人震驚的結果。

首先，簡單的"重複採樣"和"增加最大交互輪數"確實能顯著提高性能。在InterCode CTF測試集上，將重複次數從1增加到10，成功率（pass@k）從約0.5提高到0.8左右；同樣，將最大交互輪數從10增加到30，也帶來了明顯的性能提升。然而，這些改進確實呈現出收益遞減的趨勢——當k或N變得更大時，每增加一個單位帶來的改進會越來越小。

更有趣的是"疊代提示詞改進"。研究人員發現，這種方法比簡單的重複採樣更有效。通過讓AI反思並學習之前失敗的策略和軌跡，它能夠更高效地搜索解決方案。而且，這種方法計算成本相對較低，只需要一個額外的推理步驟來生成改進的用戶提示。

"自我訓練"的結果尤為驚人。研究團隊收集了代理在開發集上的33個成功軌跡，並用這些數據對核心模型進行了5個周期和10個周期的微調。令人驚訝的是，即使只用這麼少的訓練樣本，經過5個周期訓練的模型也在測試集上表現出了域內泛化能力，始終優於基礎模型。然而，自我訓練也帶來了權衡——當模型訓練更多周期時，它的輸出多樣性會降低，這可能會影響在更大的k值下的性能。

贊助商廣告

最後，"疊代工作流改進"也展示了顯著效果。即使使用相同的核心模型，通過疊代優化代理的工作流程（如推理步驟、規劃和工具使用方式），研究人員能夠生成比原始工作流性能更好的新工作流。

但研究的真正突破來自於固定計算預算下的比較分析。研究團隊假設攻擊者有8個H100 GPU小時的計算預算，比較了五種自由度在有狀態和無狀態環境中的表現。結果顯示，在這一相對較小的預算內，無狀態環境中的性能提升可以超過40%！

這些發現令人警醒：即使是最基礎的攻擊者，只需要很小的計算投資，就能顯著提高AI助手的網路安全攻擊能力，而且不需要任何外部幫助。

五、研究啟示與未來展望

這項研究給我們帶來了幾個重要啟示。

首先，小型計算預算就能帶來實質性的性能提升。這意味著，即使是資源有限的攻擊者也能顯著提高AI助手的網路安全攻擊能力。在無狀態環境中，性能提升甚至可以超過40%，而成本僅為36美元左右。這凸顯了將這種動態性納入風險評估的重要性。

其次，疊代提示詞改進展現出最高的風險潛力，但增加重複次數或代理交互輪數也帶來顯著收益。這突顯了基於重複採樣的風險評估的局限性——它們無法完全捕捉代理的真實威脅潛力，因為即使是基本的提示詞改進策略也能輕鬆超越簡單的重複採樣。

第三，有狀態和無狀態環境之間的風險潛力差異很大。部署前的操作（如自我訓練和疊代工作流改進）通常計算密集型，因為它們需要攻擊者先收集開發集，然後反覆運行超參數搜索和評估。在有限的計算預算下，主要風險來自推理時的操作，這些操作通常只在無狀態環境中可行。這一區別強調了需要針對不同環境進行單獨的風險評估。

研究人員也指出，他們只是觸及了攻擊者可能進行的修改的表面。在現實世界中，攻擊者往往擁有更多高級能力：他們可以添加網頁瀏覽工具、手動改進初始資訊、使用強化學習進行自我訓練，或採用更好的探索方法。這項研究的主要目標是展示，即使是相對較低的計算預算和簡單的方法，也能在多個自由度上實現性能提升。

贊助商廣告

總的來說，這項研究強調了網路安全評估必須考慮這些動態因素。如果——正如研究者發現的——網路安全能力可以使用僅8個GPU小時或不到36美元的計算資源提高40%，那麼將這些修改納入考慮的動態風險評估必須成為任何前沿網路安全風險評估框架的關鍵組成部分。

這對各方都有重要啟示。對於AI系統開發者來說，這意味著安全審計不應只考慮靜態場景，而應包括攻擊者可能的改進路徑。對於政策制定者來說，這表明在評估AI系統風險時，需要考慮到可預見的修改和一定計算閾值內的微調。對於普通用戶和組織來說，這強調了持續更新網路安全防禦的重要性，因為攻擊者的能力可能會隨著時間的推移而顯著提升。