這項由螞蟻集團AI安全實驗室主導完成的研究,於2026年6月以預印本形式發布,論文編號為arXiv:2606.22873v3,感興趣的讀者可通過該編號檢索完整論文。
當你打開一款AI助手,隨手發了一張圖片,配上一句看似無害的文字,背後有沒有一道"安全關卡"在悄悄審視你的意圖?大多數人從未思考過這個問題,但對於負責任地部署AI系統的團隊來說,這恰恰是每天都要面對的現實挑戰。螞蟻集團的研究團隊正是為了解決這個問題,開發出了一套名為SingGuard的多模態AI安全審核系統。
一、為什麼內容審核變得越來越難
回到那道"安全關卡"的比喻。以往的AI內容審核系統,更像是一位只懂看文字的門衛——他會閱讀你打的每一句話,判斷是否有危險。但隨著AI助手開始能同時處理圖片、文字、對話歷史,這位門衛的工作就變得複雜得多:有時候一張圖片單獨看完全無害,一句話單獨看也毫無問題,但兩者拼在一起,卻暗藏著危險的意圖。比如,用戶發了一張普通的化學實驗室圖片,同時問"這種環境下怎麼處理這些材料",單獨看任何一個都沒什麼問題,合在一起卻可能是在尋求危險化學品的製備方法。
除此之外,不同的平台、不同的國家地區、不同的業務場景,對"什麼內容算危險"有著截然不同的界定。一家面向成年人的醫療諮詢平台,允許討論的話題遠比一款兒童教育應用寬泛得多。傳統的審核系統往往用一套固定的分類規則來處理所有情況,就好像一家超市只有一種會員卡,無法針對不同顧客提供不同權益。這種僵化帶來的問題很明顯:規則一旦需要更新,整個系統就要重新訓練,成本極高,而且對於新出現的風險類型往往反應遲鈍。
還有一個容易被忽視的難題:什麼時候需要"深思熟慮",什麼時候可以"秒判斷"?對於絕大多數明顯有害的內容,快速給出判斷既高效又準確;但對於那些需要結合圖片和文字、結合上下文語境才能判斷的邊界案例,倉促下結論反而會誤判。研究團隊把這個問題類比為法庭審判——簡單案件走速裁程序,複雜案件需要完整的審判流程,強求統一隻會讓系統要麼太慢,要麼太草率。
SingGuard正是為了回應這三個挑戰而誕生的。
二、SingGuard的核心設計:一套活的規則書
SingGuard最獨特的地方在於,它把"安全規則"變成了一種可以在運行時隨時更換的配置,而不是一套鑄死在系統里的鐵律。這種設計被研究團隊稱為"策略自適應"(policy-adaptive),通俗地說,就是門衛手裡拿的不是一本固定的禁令清單,而是一本可以隨時更新、隨時替換的活頁規則冊。
系統內置了一套覆蓋面極廣的分層安全分類體系,共包含8個大類、27個中類和80多種細化風險類型。這8個大類分別涵蓋性相關內容、現實犯罪與公共安全、不道德行為、網路安全與資訊操縱、智能體安全、政治敏感內容、動物虐待,以及安全的普通內容。這套體系本身就是SingGuard開箱即用的默認規則。
但關鍵的創新在於,用戶(也就是部署這套系統的企業或開發團隊)可以在系統運行時向SingGuard傳入一套自定義規則,用自然語言描述哪些內容在當前場景下應該被攔截,哪些內容可以放行,甚至可以加入領域特定的約束,比如"在這個健康諮詢平台上,禁止對未經證實的治療方法給出推薦性建議"。SingGuard收到這套規則之後,會逐條將被審核內容與每條規則進行比對,最終不僅給出"安全"或"危險"的判斷,還會指出具體觸發了哪一條規則。
這樣的設計意味著,當業務需求變化、法規更新或者出現新型風險時,不需要重新訓練整個模型,只需要在對話時傳入新的規則說明,系統就能立刻按照新的標準工作。研究團隊把這種能力稱為"開放的運行時規則接口"。
三、三種思考速度:從秒判到深思
SingGuard的另一個核心設計是"動態推理"機制,也就是讓系統根據案件複雜程度,自動選擇合適的審判流程——用研究團隊的話說,是在"快速推理"到"深度推理"的光譜上靈活切換。
在"快速模式"下,SingGuard直接輸出安全判斷和觸發的規則類別,沒有任何中間分析過程,適合那些案情清晰、判斷毫無爭議的內容。這種模式的平均響應時間約為0.43秒,非常適合需要大批量處理內容的場景。
在"慢速模式"下,SingGuard先對內容做總結,然後逐條核對每一項活躍規則,對每條規則判斷"命中"、"未命中"或"不適用",並給出支持該判斷的具體證據,最後才匯總得出結論。這個過程產生的推理鏈條是可審計的:如果判定內容危險,必須明確指出命中了哪條規則、依據是什麼;如果判定安全,則必須證明沒有任何活躍規則被觸發,而不是靠著記憶中的"這類內容通常是安全的"來矇混過關。這種模式的平均響應時間約為7.28秒,適合需要可解釋性或處理高風險邊界案例的場景。
在兩者之間,還有一種"混合模式":系統先給出初步的"安全/危險"判斷,同時計算自身的置信度——只有當信心足夠高時,才直接結束,否則自動切換到慢速模式繼續推理。這種機制相當於法院的"簡易程序轉普通程序"規則,通常情況下走快速通道,遇到存疑案件才啟動完整流程,平均響應時間約為0.67秒。從實驗結果來看,混合模式在圖像安全和多模態安全基準上的表現與慢速模式非常接近,同時把平均響應時間壓縮了十倍以上。
四、如何訓練一個懂規則的門衛
構建這樣一個系統,光有好的設計思路還不夠,更重要的是用合適的數據和訓練方法把這些能力真正注入模型。研究團隊為此構建了一個規模龐大的訓練語料庫,包含約250萬條文本樣本和60萬條多模態樣本,其中超過100萬條帶有詳細的推理鏈條標註。
數據來源分為四個互補的部分。第一部分是對公開安全數據集的重新標註整合。由於不同數據集使用各自的分類標準,直接合併會引入矛盾的監督信號,因此團隊設計了一套大語言模型驅動的重新標註流程,將所有數據統一映射到SingGuard自己的分類體系上,並通過多模型投票和兩級一致性檢驗來保證質量。凡是L0級別(安全/危險二分類)無法通過一致性檢驗的樣本直接丟棄,L1級別(細粒度風險類別)無法通過檢驗的樣本則被納入困難案例池,等待進一步處理。
第二部分是政策引導的合成數據生成。對於訓練語料中稀缺的風險類別和跨模態場景,團隊從每個細粒度風險類別中抽取關鍵詞,以此為種子生成文本和圖文組合樣本。這套流程還專門構建了跨模態攻擊樣本:將一個危險意圖拆分到圖片和文字兩個渠道,使得每一側單獨看都是無害的,合在一起才暴露出危險。這類樣本正是為了讓系統能夠識別前文提到的"拼圖型"攻擊。
第三部分是動態規則條件數據,專門用來訓練系統跟隨規則而非依賴記憶。研究團隊對每個樣本實例化多種規則視角,包括全量規則、子集規則、單條規則和改寫合併後的規則,並通過修改規則範圍、添加豁免條款、擴大或縮小決策邊界等方式,生成同一內容在不同規則下標籤反轉的樣本,讓模型無法靠"記住這類內容的標籤"來作弊,必須真正去理解當前規則說了什麼。
第四部分是超過100萬條的推理鏈條標註數據。標註時採用"逐規則驗證"的方式:對每條活躍規則逐一判斷命中與否,並給出證據,最後匯總結論。只有當規則鏈條推理、初步判斷和支持證據三者完全一致的樣本才會被接收,不一致的樣本重新送回標註,標註後仍不符合要求的丟棄。
五、兩階段訓練:先學語法,再學思考
有了數據之後,研究團隊採用了兩階段訓練策略。第一階段是監督微調(SFT),目標是讓基礎視覺語言模型學會統一的輸出格式和規則引導推理的基本能力。所有訓練樣本遵循相同的輸入格式(活躍策略+待審核內容),輸出格式則分為快速形式(直接給出判斷和類別)和慢速形式(在判斷前加入推理鏈條)兩種,由訓練提示控制。損失函數在這兩種格式對應的欄位上分別施加權重,快速樣本不計算推理欄位的損失。
第二階段是快慢解耦的強化學習,採用DAPO算法。這個階段的重點數據是第一階段難以覆蓋的困難案例:新引入的動態規則、規則反轉的反事實樣本、需要跨模態推理的樣本。SFT之後有一個潛在問題:模型在輸出第一個"安全/危險"詞之後,後續的推理過程可能只是在為這個初始判斷找理由,而不是真正獨立核對規則再給出結論。為了打破這種"錨定效應",研究團隊在計算強化學習梯度時,把第一個生成的詞從更新範圍內隱藏掉——整體獎勵依然來自完整回答的質量,但第一個詞本身不承受任何梯度壓力。這樣一來,後續的推理過程就有了獨立糾正初始判斷的空間,系統的最終答案取決於規則核對的結果,而不是第一感覺的強化。
獎勵函數由兩部分構成:安全標籤的正確性(權重0.8)和具體觸發規則類別的準確性(權重0.2),前者權重更高,因為"這是危險的"比"危險屬於哪一類"更基礎、更關鍵。
六、更小的模型,更強的能力:知識蒸餾
研究團隊還開發了2B參數規模的小模型,目標是在保持低延遲部署成本的同時,儘量逼近8B大模型的表現。這裡用到的技術叫做"在線策略蒸餾"(On-Policy GKD)。
通常的知識蒸餾是讓小模型模仿大模型生成的回答,問題在於大模型的回答是在大模型的認知框架下生成的,小模型在自己的認知框架下很可能犯不一樣的錯誤,直接模仿大模型的優秀輸出無法針對性地修正小模型的弱點。在線策略蒸餾的做法是:先讓小模型自己生成一份回答,再用凍結的大模型對小模型的這份回答給出逐token的概率分布,小模型通過雙向KL散度損失來向大模型的判斷靠攏。這樣一來,大模型看到的恰好是小模型容易犯錯的那些案例——新引入的動態規則、邊緣豁免條款、長尾風險類別——從而針對性地傳授糾錯能力,而不是僅僅讓小模型背誦大模型的漂亮答案。實驗結果顯示,經過蒸餾的2B模型平均性能從0.8631提升到0.8840,在多模態基準上的提升尤為明顯。
七、SingGuard-Bench:專門為這類系統設計的考場
評估一套多模態安全審核系統,現有的考場往往有幾個明顯不足。許多基準只覆蓋粗粒度的風險類別,細粒度分析不可靠;大量基準缺乏"良性敏感內容"——也就是那些看起來敏感、實則完全合法的內容,比如醫學文獻中的解剖圖或武器歷史研究中的圖片——導致模型可以靠"一律攔截"刷高分;幾乎所有現有基準都用靜態標籤,根本無法測試系統能否跟隨新傳入的規則更新判斷;跨模態隱藏意圖攻擊樣本也極為罕見。
為此,研究團隊構建了SingGuard-Bench,包含56340個測試樣本,其中40663個圖片樣本、13677個圖文多模態樣本和2000個動態規則樣本,覆蓋80多種細粒度風險類型。
測試樣本按四個維度組織。在樣本類型上,涵蓋對抗性攻擊樣本、直接有害樣本、良性敏感樣本和動態規則樣本,分別測試對抗魯棒性、有害內容召回率、精確率控制和策略適應能力。在風險類別與關鍵詞覆蓋上,基準使用78個葉子節點、2124個關鍵詞(中英文各一份,一一對應)來保證覆蓋面。在攻擊類型上,除了常規的排版干擾、圖像塊打亂等對抗變換,還有嚴格意義上的跨模態隱藏意圖攻擊——圖片和文字分別看都是無害的,合在一起才能推斷出危險意圖。在動態策略覆蓋上,每個樣本配有包含匹配規則和干擾規則的策略組合,產生四種策略切換配置:危險變危險、安全變安全、危險變安全、安全變危險,每種各500個樣本,用來測試系統能否按當前規則重新做出正確判斷,而不是硬套記憶中的標籤。
八、實驗結果:在六大考場全面領先
研究團隊在六個基準測試家族(共35個數據集)上系統評估了SingGuard與各類對標系統的表現,對標系統既包括GPT-5.1、Gemini3-Pro這樣的閉源前沿模型,也包括Llama Guard、WildGuard、GuardReasoner-VL等各種開源專用審核模型。評估指標以F1分數為主,兼顧精確率和召回率,並在動態策略部分單獨報告準確率。
在多模態安全基準上,SingGuard-8B取得0.9092的平均F1分數,高於最強開源對比系統LLaVAShield的0.8842,也高於GPT-5.1的0.8349。值得注意的是,許多模型在"用戶查詢"和"助手回答"兩個子任務之間的表現落差很大,比如LlamaGuard3-Vision和Qwen3-VL-4B在從查詢側切換到回答側時下降15到30個百分點,而SingGuard保持在7個百分點以內,說明對意圖的判斷能力真正遷移到了對輔助行為的判斷上,而不只是學了一個用戶請求分類器。
在純圖像安全基準上,SingGuard-4B取得0.9141的最高平均F1分數,在色情內容(NSFW)、武器檢測、犯罪現場和暴力圖像等多個子類別上均領先。最難啃的是"仇恨表情包"這個類別,所有模型都沒有突破0.87,因為這需要同時理解圖片中的視覺元素、嵌入的文字和受保護群體的相關知識,是真正考驗多模態理解能力的硬骨頭。
在文本查詢安全基準上,SingGuard-8B取得0.8740的平均F1分數,在HarmBench和AILuminate1K兩個測試集上位居開源模型第一。在文本回答安全基準上,SingGuard-4B以0.8799的平均F1分數領先,在需要聯繫查詢上下文判斷回答是否提供了有害幫助這一更難的任務上表現穩定。
在多語言基準上,無論是查詢端還是回答端,SingGuard-8B均取得最高的平均F1分數(分別為0.8872和0.8988)。特別值得一提的是RTP-LX測試集,許多對比系統在這個測試集上相對於英文基準出現斷崖式下滑,比如Qwen3Guard-8B-loose從0.8407跌到0.5198,WildGuard從0.7691跌到0.5522,而SingGuard在這個測試集上保持了相對穩定的水準。
最能體現SingGuard獨特價值的是動態策略評估。基礎對比模型Qwen3-VL-8B在"安全變危險"這個最難的子任務上只有0.3800的準確率——也就是說,當傳入的規則要求把原本標註為安全的內容重新判為危險時,它有62%的概率仍然給出"安全"的錯誤答案,因為它在依賴訓練時記住的標籤,而不是當前的規則。SingGuard-slow在這個子任務上達到0.5700,整體平均準確率從0.6465提升到0.7415,證明了策略條件化訓練確實有效地讓系統學會了跟隨規則,而不是執行記憶。
九、系統還有哪些不足
研究團隊在論文中坦承了SingGuard當前存在的幾個局限。首先,系統的判斷質量高度依賴傳入規則的清晰度——如果規則本身模糊、不完整或自相矛盾,系統在不同場景下的判斷就可能不一致。其次,SingGuard-Bench雖然覆蓋了多種多樣的攻擊類型和動態規則設置,但現實世界中的安全策略長尾極長,新型濫用模式層出不窮,任何固定的基準都無法窮盡,持續更新和人工審查對於高風險場景仍然不可缺少。再者,訓練流程部分依賴合成數據和模型輔助標註,多模型驗證和一致性過濾能減少噪聲,但無法完全消除教師模型的偏差、標註中的人為痕跡或與真實用戶流量之間的分布差異。最後,混合模式的早退決策依賴token級別的置信度,這個置信度在面對分布偏移時可能校準不准,導致該快的時候慢、該慢的時候卻早退。
說到底,SingGuard代表的是內容安全審核領域一個重要的範式轉變:從"用固定規則給內容貼標籤",走向"用當前規則理解內容意圖"。這個轉變的意義不僅在於技術指標上的提升,更在於它為實際部署提供了一種更靈活、更可維護的系統架構。以往企業在安全策略調整時需要重新訓練模型,成本高、周期長;SingGuard的接口設計讓策略調整變成了一次對話輸入,大幅降低了運營門檻。
對於普通用戶來說,這項研究帶來的最直接影響是:你在使用AI工具時遇到的內容攔截,將越來越精準——既能攔住那些拼湊出危險意圖的跨模態攻擊,又不會莫名其妙地把你的合法問題擋在門外。一個學醫的學生詢問藥物劑量,和一個試圖獲取傷害他人手段的人發出類似問題,背後的意圖截然不同——SingGuard的設計方向,正是讓系統能更好地看到這種區別。
當然,任何技術工具都不是萬能的。規則的制定本身就是一種價值判斷,誰來寫規則、寫什麼規則,依然是技術之外需要社會討論的問題。感興趣的讀者可以通過arXiv編號2606.22873進一步了解這項研究的完整細節。
Q&A
Q1:SingGuard和普通的內容過濾系統有什麼區別?
A:普通內容過濾系統依賴固定規則庫,規則一旦確定就難以快速更改,而且通常只處理文字或圖片其中一種輸入。SingGuard的核心區別在於它允許用戶在使用時實時傳入自定義規則,系統根據當前規則而非訓練時的記憶做出判斷,同時能同時理解圖片和文字的組合意圖,包括那些單獨看都無害、合在一起才危險的跨模態攻擊情形。
Q2:SingGuard的"混合推理模式"是怎麼工作的?
A:混合推理模式相當於一個帶有信心閾值的自動開關。系統先給出初步的安全或危險判斷,同時計算自己對這個判斷的把握程度。如果把握度超過設定的閾值,就直接輸出結果,響應時間約為0.67秒;如果把握度不足,系統會自動切換到逐條規則分析的深度推理模式,用更長的推理過程來確保判斷可靠。這樣既能應對高吞吐量場景,又能在邊界案例上保持準確性。
Q3:SingGuard-Bench的動態規則測試集是怎麼構建的?
A:構建時,研究團隊對每個樣本設計了四種策略切換配置:原本危險、按新規則還是危險;原本安全、按新規則還是安全;原本危險、按新規則變成安全;原本安全、按新規則變成危險。每種配置各有500個樣本。新規則由多個模型分別提議,並經過交叉驗證確認規則邏輯成立、樣本確實落在規則範圍之內或之外,最終保留標籤完全由當前傳入規則決定的樣本,用於測試系統能否真正跟隨規則判斷而非依賴訓練時的記憶。






