這項由以色列特拉維夫大學領導的研究於2026年6月公開發布,論文編號為arXiv:2606.23496,有興趣深入了解的讀者可以通過該編號查詢完整論文。
先來搭一個場景。假設你是一家銀行的安全主管,你需要測試自己的保險柜是否足夠堅固。現在市面上已經有幾十種不同的撬鎖工具,每種工具都被鎖在不同的抽屜里,你要打開A抽屜需要B抽屜里的鑰匙,打開B抽屜又需要C抽屜里的鑰匙。更麻煩的是,每種工具只適配特定型號的保險柜,想換一個型號就得重新找工具、重新學操作。這不是安全測試,這是一場折磨。
這正是AI安全研究領域目前的真實困境。研究者們開發出了許多能夠自動"攻擊"人工智慧模型的工具——專業上叫做"離散文本觸發器優化器",簡單說就是能自動找到一些奇特的文字組合,讓AI模型說出不該說的話,或者做出異常的行為。這類工具對於檢驗AI系統是否真的安全、是否真的被訓練好了,至關重要。但這些工具散落在各個研究團隊的私人代碼庫里,各自為政,互不兼容,想要使用或者組合它們,需要花費大量的工程精力,門檻極高。
特拉維夫大學的研究團隊決定解決這個亂局,他們打造了一個叫做TROPT(Textual Trigger Optimization Toolbox,文本觸發器優化工具箱)的開源框架,把這把把鑰匙和鎖具統統整合進了一把瑞士軍刀。這是該領域第一個將各類離散優化器統一起來、放在同一平台下運行和開發的開源框架。
一、為什麼AI需要被人"攻擊"測試,這和你有什麼關係
要理解TROPT在做什麼,先要理解它服務於什麼目的。
現代AI系統越來越深地嵌入我們的日常生活:你和AI助手聊天、讓它幫你寫郵件、用它來搜索資訊、讓它審核內容是否違規。這些AI背後是大語言模型(LLM,可以把它理解成一個經過海量訓練、能理解和生成語言的超級大腦)。這些模型在訓練時被告知要"做好事"——不能幫人製造炸彈、不能生成色情內容、不能欺騙用戶。
但問題在於:訓練出來的AI真的學會了這些邊界嗎,還是只是在表面上聽話?有沒有某種特殊的說法或者文字組合,能繞過這些限制,讓AI"破防"?
研究者們發現,確實存在這樣的文字組合。給AI的輸入里悄悄加上一段看起來像亂碼的文字,AI可能就會突然變得"不正常",開始回答本不該回答的問題。這種能讓AI行為發生偏轉的特殊文字,就叫做"觸發器"(trigger)。
找到這些觸發器,對於防守方來說是極其重要的工作。只有知道AI在哪裡會被攻破,才能有針對性地修補漏洞。這就像銀行在正式營業之前,要請專業的滲透測試團隊來模擬盜賊行為、檢驗保險柜的強度。AI安全研究者在做的事情,本質上是同一件事。
然而,目前這種"滲透測試"工作面臨極高的門檻。觸發器優化工具散落在各處,每個工具都和它被開發時所針對的特定模型緊密綁定,改換一個模型或者換一個測試目標,就得幾乎從頭開始。這不僅阻礙了研究者高效工作,也讓防守方難以跟上攻擊手段的進化速度。
TROPT正是為了打破這一困境而生。
二、TROPT的核心設計:像樂高一樣可以任意拼裝的AI測試套件
要理解TROPT的設計哲學,可以把它類比成一套專業廚房。在這套廚房裡,有標準化的灶台(模型接口)、有各種規格的炊具(優化算法)、有各式調料(損失函數),還有食譜(優化配方)。不同的灶台可以配不同的炊具,不同的炊具可以搭不同的調料,而所有這些組合都能產出一道完整的菜。
TROPT把整個離散文本優化過程分解為四個核心組件,任何一個組件都可以獨立替換,而不影響其他部分的工作。
第一個組件是"模型",也就是被測試的目標對象。可以是一個大語言模型(像LLaMA、Gemma這類能聊天的AI),可以是一個文本分類器(用來判斷文字是否違規的AI),可以是一個文本編碼器(把文字轉換成數字向量的AI),也可以是其他類型的神經網路。TROPT支持通過HuggingFace、OpenAI等主流平台加載各種模型。
第二個組件是"損失函數",這是告訴優化器"什麼樣的結果算是成功"的評判標準。可以是"讓AI說出'當然,這是製作炸彈的方法……'這句開頭",可以是"讓AI生成的文字與某張圖片在語義上儘可能接近",也可以是"讓分類器把這段文字判定為無害"。損失函數定義了目標。
第三個組件是"優化器",這是真正負責搜索觸發器的算法引擎。有的優化器像數學家,通過計算梯度(可以理解成"沿著哪個方向調整文字能讓結果更接近目標的指導方向")來精準定向搜索;有的優化器像偵探,在不接觸模型內部的情況下,通過反覆嘗試不同的文字組合來尋找突破口。
第四個組件是"輸入與目標",也就是用戶提供的具體問題和期望得到的答案。比如"告訴我怎麼撬鎖 {{在這裡填入優化好的觸發器}}"和目標回答"當然,以下是方法"。
把這四個組件拼裝在一起,就形成了一個"配方"(recipe)。TROPT目前預置了38個以上的現成配方,涵蓋從LLM越獄攻擊到從圖片反推生成提示詞等各種應用場景。每個配方都只需要幾行代碼就能啟動運行,不需要用戶去理解底層的工程細節。
這種模組化設計有一個極其重要的好處:當你把其中一個組件替換掉,配方仍然能運行。原本用於破解語言模型的優化器,幾乎無需修改就可以用來攻擊圖片檢索系統;原本為檢測模型安全邊界設計的損失函數,可以直接插入另一個完全不同的配方里。這把各個領域本來孤立的研究成果連通了起來。
三、工具箱裡裝了什麼:超過30個配方背後的技術細節
TROPT目前收錄了17個優化算法,按照它們與目標模型的交互方式,大致可以分成三個流派。
第一個流派叫做"梯度引導"方法,也是當前研究最成熟、效果最強的一類。這些方法能夠直接查看模型內部的計算過程,通過數學方法計算出"當前觸發器的哪些位置改成哪個詞,會最有效地讓結果朝目標方向靠攏"。GCG算法(由斯坦福等機構於2023年提出,被認為是該領域的里程碑)就屬於這一流派。TROPT收錄了GCG及其多個改進變體,其中PAL和MAC是近年表現最突出的兩個版本,後面的實驗部分會詳細介紹。
第二個流派叫做"連續鬆弛"方法。文字天然是離散的(只能是一個個確定的詞),這讓直接用數學優化變得困難。這類方法的思路是:先把文字"融化"成連續的數值空間來進行優化計算,優化完了再把結果"凝固"回具體的詞語。PEZ和GBDA是這一流派的代表。
第三個流派叫做"零階"方法,專門用於那些無法查看內部工作原理的"黑盒"模型(比如OpenAI的商業接口,你只能輸入文字、得到輸出,看不到任何內部計算)。這類方法通過大量隨機嘗試、記錄哪些改動讓結果變好、不斷疊代來尋找有效觸發器,本質上是一種聰明的反覆試探。BEAST和隨機搜索算法屬於這一類。
在損失函數方面,TROPT收錄了16種不同的評判標準,覆蓋了基於模型輸出概率的、基於語義相似度的、基於模型內部注意力機制的、基於AI裁判評分的等各種計算方式,還支持把多個損失函數按權重組合成一個複合目標。
四、頭對頭大比拼:14個優化器同場競技,結果出乎意料
研究團隊充分利用TROPT的統一平台,做了一件以前從未有人系統做過的事:把14個離散優化器放在完全相同的條件下進行公平競賽。
這場比賽的規則如下。目標任務是讓AI在有害指令後面接一個優化好的觸發器,然後讓AI以"當然,以下是……"這樣的肯定性語氣來回應——這是典型的LLM越獄測試場景。比賽選用了四個不同的大語言模型作為測試對象,分別是Qwen3-8B、Llama-3.1-8B-Instruct、Gemma-3-12B-it和Gemma-4-26B-A4B-it。每個優化器針對15個來自ClearHarm數據集的有害指令分別運行三次(不同的隨機種子),總共進行了180組測試。每組測試的計算資源上限統一設定為3×10^17次浮點運算,保證競賽的公平性。最終,每個優化器在每組測試中根據它找到的最好結果進行排名,然後計算平均名次。
競賽結果相當有料。排在墊底的是HotFlip,這是2018年提出的最基礎版本算法,毫不意外地輸給了所有其他對手。緊隨其後表現欠佳的是連續鬆弛類方法(GBDA和PEZ)以及基於束搜索的方法(BEAST和AdvDecoding)——不過後兩者使用的計算量只有其他方法的十分之一不到,這也影響了它們的最終表現。
最讓人注意的是頭部梯度引導方法之間的比較。PAL排名第一,MAC排名第二,兩者的成績在統計上非常接近,但它們都顯著優於排在第五名的GCG。這個結果很有意思,因為GCG目前是學術界和工業界使用最廣泛的越獄測試工具,被眾多安全評測基準默認採用。而PAL和MAC作為GCG的改進版本,卻在實際測試中表現更優,但至今未被廣泛推廣採用。這意味著目前很多安全測試實際上並沒有使用最有效的工具,評測結論的可靠性存在系統性低估風險。
另一個令人意外的發現是黑盒方法RAL的表現。RAL是PAL的一個簡化變體,它把梯度(需要查看模型內部才能計算)直接換成了一個隨機向量——換句話說,它完全不查看模型內部,是一個純黑盒攻擊。然而RAL的平均排名和白盒GCG幾乎相同,成為表現最強的黑盒優化器。這暗示著在某些場景下,即便對模型毫無了解,聰明的隨機搜索策略也能達到和需要內部資訊的方法相當的效果。
統計分析(Nemenyi檢驗,顯著性水平0.05)確認了以上排名差異具有統計意義,優化器之間性能差距超過1.48個排名單位時,就被認為是真實存在的差距而非隨機波動。
五、越獄攻擊的"調味秘方":八種增強策略的隔離對比實驗
除了優化器本身,研究團隊還做了另一組重要實驗:測試各種"錦上添花"式的附加技巧對越獄成功率的實際貢獻。
以往研究中出現過很多聲稱能提升越獄效果的策略,包括換一個不同的損失函數、換一個不同的目標回答字符串、換一個不同的提示詞模板、用一個"已經被破解了的AI"來生成更好的目標回答,等等。但這些策略從未在同等條件下被系統比較過——有的可能只是因為搭配了更好的優化器才顯得有效,有的實際貢獻可能被高估了。
研究團隊固定了基礎配方(MAC優化器加上標準越獄設置),然後每次只改動一個變量,觀察這一個變量對最終越獄成功率的獨立貢獻。測試模型是Gemma-3-12B-it,使用15個有害指令各運行三次,最終用100個新的有害指令來測試觸發器的"通用性"——也就是說,針對特定指令優化出來的觸發器,能不能也讓AI在回答其他有害問題時破防,通用性越強說明效果越好。
實驗結果揭示了幾個重要發現。單純替換損失函數(比如換成CW損失或者加入注意力劫持損失、拒絕方向引導損失)對基準通用性的提升有限,效果相對溫和。
相比之下,把目標回答字符串替換成"使用破解版模型生成的真實回答"效果顯著——這種做法把基準通用性的中位數提升了將近一倍。原來,標準做法是讓AI必須以"當然,以下是……"這樣的固定開頭來回答,但這種通用的肯定句其實並不是最好的訓練目標。如果換成一個"已經被去掉了安全限制的AI"(通過修改內部激活值的方式)針對具體有害問題生成的真實回答作為目標,優化效果會顯著更好。這說明,優化目標本身的質量是整個越獄流程中被長期低估的瓶頸所在。
用人工設計的越獄提示詞模板來替換標準的"指令+觸發器"布局,在這8種策略中取得了最高的通用性分數,把所有觸發器的通用率都提升到75%以上。不過,研究團隊進一步分析後發現,這個高成功率主要來自於模板本身的作用,而非優化出來的觸發器的貢獻——即便不經過任何優化,單單用這個模板提問,成功率也已經很高了。而且,這種模板非常冗長且措辭刻意,很容易被識別為刻意設計的攻擊,在實際應用中可能不夠隱蔽。
以溫熱的人工越獄文本作為觸發器初始值(而非從隨機亂碼開始),能提升中位數通用性,但同時帶來更大的方差——也就是說,運氣好的時候效果很好,運氣差的時候表現不穩定。
這組實驗的意義在於為AI安全研究者提供了一份清晰的方向圖:如果你的目標是讓越獄測試儘可能有效,最值得關注的改進點是提供更高質量的優化目標,而不是在損失函數的選擇上做精細調整。
六、跨領域移植:一套框架,三個意想不到的新應用
TROPT的設計初衷之一是讓各個領域的研究成果能夠相互借鑑。研究團隊專門演示了三個把現有優化方法應用到全新領域的案例,這些組合在原始研究中從未被嘗試過。
第一個案例是語料庫投毒攻擊。密集向量檢索(dense retrieval)是現代搜尋引擎和RAG(檢索增強生成)系統的核心技術——它把文字轉換成高維數字向量,通過比較向量的相似度來找到最相關的文檔。如果攻擊者能在一個巨大的文檔庫里注入一些特製的惡意文檔,讓這些文檔的向量與目標搜索詞高度相似,那麼用戶搜索時就可能被推送到這些惡意內容。
研究團隊用TROPT把原本為LLM越獄設計的優化方法改造成了針對檢索系統的攻擊工具。具體做法是:固定10篇含有惡意內容的文檔,在每篇文檔後面附加一段經過優化的觸發器文字,使得文檔的整體向量儘可能接近目標搜索詞的向量。對於白盒模型(可以直接查看內部向量計算過程),他們使用了GASLITE優化器;對於黑盒模型(只能通過API調用),他們把Andriushchenko等人為LLM越獄開發的隨機搜索優化器直接移植了過來。
測試結果顯示,針對開源白盒模型E5-base-v2,75.8%的未見過的搜索詞會把這10篇惡意文檔檢索進前10條結果;針對OpenAI的商業黑盒嵌入模型text-embedding-3-small,這個數字是72.6%。研究團隊指出,這是據他們所知目前針對商業向量嵌入模型的最成功的黑盒語料庫投毒攻擊。
第二個案例是針對提示注入檢測器的通用繞過觸發器。在實際部署的LLM系統里,往往會有一個"門衛"模型,專門檢測用戶輸入是否包含試圖操控AI行為的惡意指令(提示注入攻擊)。研究團隊用GCG優化器和分類錯誤損失函數,在50條提示注入樣本上優化出了一條通用觸發器——也就是說,只要把這段觸發器文字附加到任何提示注入消息後面,就能讓檢測器誤判為無害。測試結果表明,這條觸發器對1953條未見過的提示注入樣本的規避成功率從42%提升到了73.9%,對2997條正常無害消息的誤報率則從89.3%小幅變為98.1%(基本未受影響)。
第三個案例是從圖片"反推"生成提示詞。文字到圖片的生成模型(比如Stable Diffusion)需要用戶輸入一段文字描述,才能生成對應的圖片。那麼,給你一張已經生成好的圖片,能不能找出當初生成它時用的是什麼提示詞?研究團隊用GCG優化器搭配CLIP圖文相似度損失,把優化目標設定為"找到一段文字,使其在CLIP語義空間裡的向量儘可能接近目標圖片的向量",然後用這段文字重新生成圖片。測試結果顯示,對於兩張測試圖片,恢復出的提示詞確實能重新生成視覺上與原圖高度相似的圖片。這驗證了LLM越獄優化器在多模態領域同樣有效。
七、TROPT的工程價值:2.5倍的速度提升和更低的使用門檻
研究團隊還專門對TROPT的實現質量進行了驗證,把它與NanoGCG(目前最流行的獨立GCG實現之一)進行了頭對頭比較。
在完全相同的超參數設置下(500步優化,每步512個候選,相同的隨機種子),兩個實現在最終優化損失上達到了基本相同的水平——TROPT在45組任務中贏了25組,平均最終損失為0.597,NanoGCG為0.633,差異不顯著。這驗證了TROPT的實現在算法層面是忠實準確的。
但在速度上,差距明顯。同樣跑500步GCG,TROPT平均需要約60分鐘,而NanoGCG平均需要約149分鐘,前者快了約2.5倍。研究團隊把這個差距歸因於一系列工程優化,其中一個典型例子是:NanoGCG在動態批處理過程中頻繁調用`torch.cuda.empty_cache()`清理GPU內存緩存,這個操作會產生大量不必要的等待時間;TROPT同樣使用動態批處理,但規避了這個開銷。2.5倍的速度提升意味著研究者可以在相同時間內運行更多實驗,或者在更短時間內得到結果。
在可擴展性方面,TROPT的設計目標是讓添加新組件的門檻儘可能低。添加一個新的損失函數,只需要寫一個短小的Python類,聲明它需要從模型獲取什麼類型的輸出(比如隱藏層激活值、注意力權重),然後實現計算邏輯;框架會自動處理所有的輸入格式化、批處理、梯度傳播等基礎設施工作。添加一個新的優化算法,同樣只需要實現一個標準接口,在接口內專注於搜索邏輯本身;輸入處理、結果追蹤、FLOPs計數等與算法無關的工作全部由框架統一承擔。新組件一旦實現,立刻可以與框架內所有已有組件自由組合,無需額外適配工作。
說到底,TROPT解決的問題並不複雜,但影響深遠。AI安全測試這件事本質上在各個領域做的都是同一件事:找到能讓AI模型行為偏離預期的文字組合。但因為歷史原因,各個領域的研究者各自開發工具、各自積累經驗,造成了大量的重複勞動和資訊孤島。TROPT做的事情是把這些碎片拼起來,放在一個屋檐下,讓研究者不必再從頭開始搭建基礎設施,而是可以把精力集中在真正有價值的問題上——開發更聰明的搜索算法,或者測試更多樣的攻擊場景。
歸根結底,AI安全研究和我們每個人都息息相關。你每天使用的AI助手、你搜索時依賴的檢索系統、你遇到的內容審核機制,背後都有這些被優化器測試的模型在工作。更有效的測試工具,意味著這些模型在正式上線之前能被更徹底地檢驗;更容易使用的測試框架,意味著更多研究者能參與到這項工作中來,而不是被高門檻的工程要求攔在門外。
這項研究的代碼已經開源,感興趣的讀者可以通過搜索論文編號arXiv:2606.23496或訪問GitHub上的TROPT項目(github.com/matanbt/TROPT)了解更多細節。一個值得思考的問題是:當我們讓AI安全測試工具變得越來越易用,防守方和攻擊方誰會從中獲益更多?研究團隊在論文中也坦誠討論了這個問題,他們的結論是:因為TROPT收錄的都是已經公開發表的方法,有動機的攻擊者完全可以自行重現,而防守方需要系統性工具來應對成規模的安全評測工作,因此TROPT對防守方的實際幫助更大。這個判斷是否經得住時間考驗,或許會成為AI安全領域未來幾年最值得觀察的問題之一。
Q&A
Q1:TROPT框架和之前的AI安全測試工具有什麼根本區別?
A:之前的AI安全測試工具通常只針對特定模型或特定任務開發,換個模型就得重新配置甚至重新編寫代碼。TROPT把整個測試過程拆分為模型、損失函數、優化算法、輸入目標四個可以自由替換的模組,任意組合都能直接運行。換句話說,原本專門用來測試語言模型越獄的優化算法,在TROPT里不需要修改就能直接用來攻擊圖片檢索系統或文本分類器,這種跨領域通用性是以前的工具做不到的。
Q2:論文裡說PAL和MAC比GCG效果更好,為什麼GCG還是更流行?
A:這正是論文想揭示的問題所在。GCG因為提出時間早、有開源實現且效果顯著,被大量安全評測基準選為默認工具,後續的研究和防禦測試也跟著沿用了這個選擇。PAL和MAC雖然在受控實驗中平均排名更高,但它們缺乏像GCG那樣廣泛、易用的標準實現,也沒有被主流評測基準納入。這造成了一個循環:工具不普及,就沒人用;沒人用,就更難普及。TROPT的目標之一正是打破這個循環,讓PAL和MAC等方法也能被輕鬆使用和比較。
Q3:語料庫投毒攻擊對普通用戶有什麼實際威脅?
A:RAG(檢索增強生成)系統被越來越多地用於企業內部知識庫問答和搜尋引擎中,它的工作原理是先從文檔庫里檢索出相關文檔,再把這些文檔交給AI來回答問題。如果攻擊者能在文檔庫里注入少量特製文檔(比如10篇),這些文檔就會在用戶搜索特定話題時出現在搜索結果前列。用戶和AI都會誤以為這些文檔是可信內容,從而被惡意資訊影響。論文中的實驗表明,僅需10篇惡意文檔注入800萬篇的文檔庫,就能讓70%以上的相關搜索把它們檢索進前10條結果。






