宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

新加坡南洋理工大學為AI圖片生成器裝上"安全閥":用物理學原理堵住色情暴力內容的漏洞

2026年06月25日 首頁 » 熱門科技

這項由新加坡南洋理工大學與韓國蔚山科學技術院(UNIST)聯合開展的研究,於2026年6月發表,論文編號為arXiv:2606.23267。有興趣深入了解的讀者可通過該編號查詢完整論文。

當AI畫圖工具變成"不良內容生成器"時,我們該怎麼辦

近幾年,AI生圖技術已經進化到了一個令人瞠目結舌的程度。你只需要打幾個字,它就能在幾秒鐘內畫出一張精美的圖片。但這個強大的能力也帶來了一個讓人頭疼的問題:有人會故意輸入帶有色情、暴力內容的提示詞,讓AI生成不應該出現在公共場合的圖片。

為了解決這個問題,研究人員一直在尋找各種"安全鎖"方案。然而,隨著AI生圖技術的快速演進,一種叫做"流匹配"(Flow Matching)的新技術逐漸成為主流——它被用在了目前最先進的圖像生成工具中,包括著名的Stable Diffusion v3和FLUX。這種新技術的最大優勢是速度極快:只需要極少的幾步計算,就能生成高質量圖片。問題也恰恰出在這裡——過去那些為"慢速"AI設計的安全防護措施,在這種"快速"AI面前幾乎完全失效。

新加坡南洋理工大學的研究團隊正是盯准了這個漏洞,提出了一套全新的防護方案,取名為VESFLOW(速度編輯安全流匹配)。這套方案不依賴任何模型重訓練,而是直接在AI"思考"的過程中巧妙介入,將可能產生危險內容的軌跡撥向安全方向。在4步極速生圖模型上,他們將色情內容的攻擊成功率從約70%壓低到了6%左右,同時對正常圖片的生成質量幾乎沒有任何影響。

一、AI生圖的工作原理:一場從噪點到畫作的旅程

要理解這套安全方案,首先得明白AI是如何生成圖片的。可以把這個過程想像成一個雕塑家在一團亂石中,一刀一刀地雕刻出一尊精美的雕像。起點是一團毫無規律的隨機噪點,終點是一張符合你描述的圖片。

在傳統的擴散模型(比如早期的Stable Diffusion)中,這個雕刻過程需要很多刀——往往是50步甚至100步,每一步只做一點點修改。這樣做的好處是每一刀都能精細控制,壞處是太慢了,在手機或普通電腦上運行非常吃力。

流匹配技術改變了這個雕刻策略。它不再一點一點地修改,而是直接計算出從噪點到目標圖片的最短路徑,然後沿著這條近乎筆直的路線快速到達終點。在技術層面,流匹配模型學習的是一種叫做"速度場"(Velocity Field)的東西——可以把它理解為每一個時刻、每一個位置上,雕刻刀應該朝哪個方向用力、用多大的力。

更進一步的MeanFlow技術則更加激進,它不計算每一瞬間的速度,而是直接計算出一段時間內的"平均速度",從而實現真正意義上的一步或四步生圖。這就像是雕塑家不再一刀一刀地雕,而是一眼就看出了終態,直接一揮而就。

由此可見,流匹配和MeanFlow讓AI生圖的"旅程"從數十步壓縮到了寥寥幾步,速度提升了一個數量級。然而,這也給安全防護帶來了致命的挑戰。

二、舊安全方案為何在快速AI面前失靈

過去那些保護AI不生成危險內容的方案,基本分為兩大類,而這兩類方案在面對快速流匹配模型時,都遭遇了各自的瓶頸。

第一類方案可以稱為"軌跡糾偏法"。這類方案的邏輯是:在每一步計算過程中,檢測一下當前的圖片雛形是否在向危險方向發展,如果是,就施加一個反向的推力,把它往安全的方向推一推。這就像是在那個從噪點到畫作的旅程中,安排了一個監察員,每走一步就檢查一次,發現走歪了就糾正。

在傳統的50步模型中,這個方案運作得相當不錯——監察員有50次機會檢查和糾正,每次只需要做一點點調整,積少成多,最終能把軌跡拉回正軌。但是在4步的快速模型中,監察員只有4次機會。每次糾偏的力度如果太小,4步根本來不及把危險內容徹底消除;力度如果太大,又會把圖片推出正常範圍,畫面變得扭曲失真,連帶著把安全的圖片也搞砸了。

研究團隊用一個一維的玩具實驗直觀展示了這個困境:用20步生成時,大多數危險軌跡都能被成功糾偏;但換成2步生成,糾偏幾乎完全失效,危險內容照樣能夠生成出來。

第二類方案是"改詞法"。既然問題出在用戶輸入了危險的提示詞,那就在提示詞進入AI之前,先把它處理一下,把危險的詞義成分剔除掉,只保留無害的部分。代表性方案包括SAFREE(把提示詞向量從危險概念的方向上投影掉)和Semantic Surgery(語義手術,對提示詞向量做減法運算)。

然而,這裡有一個被很多人忽視的技術障礙。早期的圖像生成模型(比如Stable Diffusion 1.4)使用的是CLIP這種文本編碼器——它的特點是每個詞都對應一個相對獨立的向量,詞與詞之間的"串擾"較小。而最新的流匹配模型(如FLUX和SD v3)則採用了T5這種大語言模型作為文本編碼器。T5是在大量長文本上訓練出來的,它理解的是整句話的意思,而不是逐詞的意思。

這意味著什麼?這意味著當你輸入一句話時,每個詞的含義都已經和整句話的語境深度融合,"色情"這個概念不再孤立地存在於某個詞向量里,而是瀰漫在整個句子的編碼里。研究團隊通過實驗證實了這一點:對於色情相關的提示詞,CLIP編碼器產生的詞向量彼此相似度很高,說明這類詞有一個清晰的"危險區域"可以被識別和剔除;而T5編碼器產生的詞向量相似度則低得多、分布也散得多,說明危險概念已經散布到了整個向量空間,根本無法精準切除。

正因如此,改詞法在最新的流匹配模型上的效果也非常有限。研究團隊的實驗數據清楚地表明,SAFREE和Semantic Surgery在FLUX和MeanFlow模型上幾乎無法有效降低危險內容的生成率。

三、VESFLOW的核心思路:從撥偏軌跡到直接改寫方向盤

面對上述兩類方案的局限,研究團隊換了一個完全不同的思考角度。

既然流匹配模型學習的核心是"速度場"——也就是每一步應該往哪個方向走、走多快——那麼為什麼不直接修改這個速度場本身,而是要在每一步上貼膏藥式地干預呢?

這就是VESFLOW的核心直覺:與其在旅途中反覆糾偏,不如直接改寫地圖,讓這張地圖從一開始就只指向安全的目的地。

具體來說,原始的流匹配模型學到的速度場,反映的是對所有可能圖片(安全的和危險的)的平均期望。研究團隊想要的是一個"安全條件速度場"——只考慮那些最終圖片屬於安全區域的情況下,速度應該是多少。換句話說,他們想把速度場從"無差別期望"改成"只想著安全結果的期望"。

用旅行來類比:原本的AI是一個導航軟體,它會根據所有可能的目的地(包括危險的地方)來規劃路線,正好走到了危險區域。VESFLOW則相當於給這個導航軟體施加了一個約束條件:"只給我推薦能到達安全目的地的路線",導航軟體於是重新規劃了路線,從源頭上就不再通往危險區域。

四、貝葉斯分解:用數學公式推導出"安全速度"

要把這個直覺變成可以實際使用的公式,研究團隊藉助了概率論中的貝葉斯定理(Bayes' Rule)——一種用於在已知部分資訊的情況下更新概率估計的數學工具。

他們先把數據空間分成兩個部分:安全區域和不安全區域,並用一個二值變量來表示當前生成的圖片最終是否落在安全區域內。然後,他們推導了從原始速度場到安全條件速度場之間的差值公式。

這個推導的關鍵步驟是:根據流匹配的速度場與概率密度梯度之間的數學關係,兩個速度場之間的差值可以用概率密度的比值的梯度來表達。再通過貝葉斯定理,這個比值被進一步化簡為與安全性判斷相關的概率項。

最終,研究團隊引入了一個預訓練的安全判別器(比如一個專門檢測裸露內容的分類器),並用一階泰勒近似來簡化計算,得到了一個實用的速度修正公式。

這個公式的直觀含義非常優美:速度修正量正比於安全判別器關於當前預測圖片的梯度,除以"該圖片為安全"的概率。這意味著當預測圖片越接近危險內容時(判別器認為它不安全的概率越高),修正的力度就越大;反之,當預測圖片已經很安全時,修正量趨近於零,對正常生成幾乎沒有影響。

公式中還自然地包含了一個時間調節因子:t除以(1減t)。在時間接近1(也就是生成的起始階段,圖片還是一團噪點)時,這個因子很大,修正力度強;在時間接近0(也就是生成的末尾階段,圖片已經接近完成)時,這個因子趨近於零,修正力度自然減弱。這與之前其他研究發現的規律不謀而合:早期干預比晚期干預更有效。

對於MeanFlow模型(學習平均速度而非瞬時速度的模型),同樣的修正公式也可以直接應用,因為MeanFlow的平均速度實際上是瞬時速度在時間區間上的積分,而在近線性軌跡的假設下,用區間終點的瞬時修正量來近似這個積分是合理的。

五、風險過濾機制:給"正常人"的免檢通道

VESFLOW有一個值得關注的特性:當輸入的提示詞是完全無害的時候,安全判別器對預測圖片的輸出趨近於零,因此速度修正量也趨近於零——也就是說,對於安全的提示詞,VESFLOW實際上什麼都沒有做,生成的圖片和不加安全防護時完全一樣。

這個特性從理論上保證了正常用戶的體驗不受影響。然而,即便修正量趨近於零,每次生成時仍然需要計算判別器的梯度,這會帶來額外的計算開銷。對於一個主要處理正常請求的系統來說,這種開銷顯然是不必要的浪費。

為了解決這個效率問題,研究團隊設計了一個"風險評分過濾器"。它的工作方式非常簡單:在用戶提交提示詞之後、AI開始生成之前,先用CLIP(一種能把文字和圖片映射到同一個向量空間的模型)計算一下這個提示詞與一系列預先定義的危險概念詞(如色情、暴力等)的相似度。如果相似度超過了一個門檻值(實驗中設定為0.3),就認為這是一個危險提示詞,需要啟動VESFLOW;否則,就直接跳過安全處理,讓AI正常生成。

這個過濾器只需要做一次簡單的向量相似度計算,計算量極小,幾乎不占用額外時間。對於絕大多數正常用戶,系統運行方式和原來沒有任何區別;只有當系統偵測到可疑提示詞時,才會調用更昂貴的安全處理機制。

六、VESFLOW+:對付頑固危險提示詞的加強版

基於風險過濾機制,研究團隊進一步提出了一個加強版方案——VESFLOW+。

理解VESFLOW+,需要先理解VESFLOW本身的數學結構。VESFLOW把速度場從"邊際速度"(對所有可能結果的平均)修正到"安全條件速度"(只考慮安全結果的期望)。用向量來表示,修正方向是從邊際速度指向安全條件速度。

然而,邊際速度本身是安全和不安全兩個方向的混合。對於那些已經被風險過濾器確認為高危的提示詞來說,邊際速度大概率是被不安全成分所主導的。VESFLOW+的思路是:與其從邊際速度出發去接近安全條件速度,不如直接從不安全條件速度出發跳向安全條件速度——這樣修正的"步伐"更大,效果更強。

在數學上,這個更強的修正向量由兩部分組成:一部分是指向安全方向的吸引力(與VESFLOW中的修正量相同),另一部分是遠離危險方向的排斥力(通過在公式中額外加入判別器輸出的對數項實現)。兩股力合在一起,VESFLOW+的安全防護力度要比VESFLOW更強。

但正因為VESFLOW+的力度更大,它不能隨便用在任意提示詞上——對於一個完全無害的提示詞,強行施加遠離"危險方向"的排斥力,反而可能破壞正常生成。所以,VESFLOW+必須在風險過濾器確認提示詞屬於危險類別之後才能啟用,這也是為什麼過濾機制對於VESFLOW+來說是必要前提而非可選優化。

七、實驗結果:數字背後的真實表現

研究團隊在兩個主流的少步生圖模型上驗證了方案的效果:一是FLUX.1-lite-8B,一個8步生圖的高效版本;二是MeanFlow蒸餾模型,一個4步生圖的極限版本。

安全性測試使用了兩個公開的攻擊性提示詞數據集:Ring-A-Bell(包含79條裸露相關提示詞和250條暴力相關提示詞)以及MMA-Diffusion(400條多模態攻擊提示詞)。評估指標分為攻擊成功率(ASR,生成圖片中危險內容檢出比例超過60%的比例)和毒性率(TR,所有生成圖片的危險內容平均檢出分數)。危險內容的檢測分別使用了NudeNet(專門檢測裸露內容)和Q16(檢測暴力內容)兩個工具。

生成質量的評估則使用了MS-COCO數據集中的普通提示詞,通過FID分數(衡量生成圖片與真實圖片分布的差距)和CLIP分數(衡量圖片與提示詞的匹配程度)來判斷正常生成是否受到影響。

在4步MeanFlow模型上,未加任何防護的基線方案在Ring-A-Bell裸露測試上的ASR高達70.9%,即十張中有七張能成功生成危險內容。VESFLOW將這個數字壓低到了15.2%,VESFLOW+則進一步壓低到了6.3%。在MMA-Diffusion測試上,基線的ASR為41.7%,VESFLOW降至7.5%,VESFLOW+降至6.8%。

與此同時,那些對比方案——無論是SGF(安全引導流)、STG(安全文本嵌入引導),還是SAFREE和Semantic Surgery——在同樣的4步模型上,最好的結果也只能把ASR降到50%左右,許多情況下甚至比基線還要差。

在正常圖片的生成質量上,VESFLOW和VESFLOW+的FID分數和CLIP分數與基線幾乎相同,說明安全防護對正常用戶的使用體驗幾乎沒有任何影響。

在暴力內容的測試上,VESFLOW和VESFLOW+同樣取得了有意義的效果:4步MeanFlow上的暴力ASR從基線的80.8%降低到了VESFLOW+的46.8%。雖然降幅不如裸露內容那麼顯著,但研究團隊特別指出,暴力內容的檢測本身就比裸露內容更難(因為暴力概念的邊界更模糊),而且他們為暴力任務使用的是完全與裸露任務相同的超參數設置,沒有單獨調整——這說明VESFLOW方案的泛化性相當不錯。

在8步的FLUX模型上,VESFLOW+在裸露檢測上的表現更為亮眼:Ring-A-Bell的ASR從64.6%降至1.3%,MMA-Diffusion的ASR從66.5%降至0.3%。這意味著幾乎完全消滅了危險內容的生成。

八、細節打磨:穩定性、效率與判別器的選擇

在VESFLOW的公式中,時間調節因子t除以(1減t)在時間接近1時會趨向無窮大,這可能導致生成過程在第一步就變得極不穩定,產生嚴重的數值溢出。

研究團隊採用了一個簡單但有效的穩定化策略:設置一個時間上限t_max(比如0.99或0.95),當時間超過這個上限時,將時間上限代入公式計算,從而把調節因子限制在一個有限的範圍內。

實驗表明,t_max=0.99時安全性能比t_max=0.95更強,但生成質量(FID分數)在高引導強度下會有更明顯的下降。另一個直觀的穩定化策略是跳過第一個生成步驟,但實驗證明這會導致安全性能大幅下降,這與其他研究者關於"早期干預最重要"的發現完全一致。

在判別器的選擇上,研究團隊主要使用了LAION的CLIP-based NSFW檢測器,而沒有使用NudeNet——這是一個刻意的設計選擇,目的是避免"用同一個工具既做引導又做評估"帶來的循環偏差。但為了驗證方案對判別器選擇的敏感性,他們也用NudeNet替換了判別器,並用一個完全獨立的多模態大語言模型LLaVA來做評估。結果顯示,兩種判別器的效果相當接近,說明VESFLOW方案的有效性並不依賴於特定判別器的實現細節。

計算開銷方面,在8步FLUX模型上測量的結果顯示:基線方案每張圖片約需0.95秒,SGF約需0.99秒(僅略微增加),而STG由於需要對提示詞嵌入計算NudeNet的梯度,開銷高達3.6秒(約為基線的4倍)。VESFLOW和VESFLOW+則約為2.16秒,大約是基線的2.2倍。在啟用風險過濾器的實際應用場景中,對於良性提示詞(占大多數)完全跳過安全處理,平均計算開銷會進一步降低。

九、方案的局限與未來方向

研究團隊對方案的局限性非常坦誠。時間調節因子帶來的穩定性問題是最主要的缺點:雖然t_max策略能夠緩解這個問題,但選擇不同的t_max值會對安全性和生成質量產生不同的影響,需要手動調整,缺乏一個更理論化的自動選取方法。

此外,當VESFLOW方案與提示詞層面的安全方案(如Semantic Surgery)結合使用時,效果並不總是疊加的。當提示詞層面的修改已經把預測圖片推向安全區域時,VESFLOW+中用於計算強度的"判別器輸出"會接近零,導致加強版的排斥項變得數值不穩定,反而可能降低安全性能。這說明兩類方案之間的協同關係比較複雜,需要更細緻的設計才能穩定地結合。

研究團隊表示,未來將探索更理論化的穩定化方案,直接利用預訓練流匹配模型本身的結構來避免數值發散問題,而不是依賴手動設置的截斷上限。

說到底,這項研究做了一件很有意思的事情:它不是簡單地給AI圖像生成系統打補丁,而是從流匹配模型的數學本質出發,找到了一個在原有框架內就能實現安全引導的優雅路徑。過去那些安全方案大多是"在旅途中不斷糾偏",而VESFLOW是"重新畫了一張只通向安全目的地的地圖"。這個思路上的轉變,讓它在只有寥寥幾步的極速生圖場景中依然能發揮作用。

歸根結底,隨著AI生圖工具越來越快、越來越強大,安全防護的挑戰也越來越大。今天4步生成,明天可能是1步生成,每次技術的跨越都會讓舊的安全方案又面臨新的挑戰。VESFLOW提供的這種速度場層面的干預思路,或許為未來的安全防護研究開闢了一條值得繼續探索的道路。感興趣的讀者可以通過arXiv編號2606.23267查閱原論文,深入了解技術細節。

Q&A

Q1:VESFLOW為什麼對4步這種極少步數的AI生圖模型特別有效?

A:VESFLOW直接修改AI內部的"速度場"(決定生成方向的核心參數),相當於從源頭改寫了生成路線,不需要通過多步累積的方式來逐漸糾偏。而舊方案每一步只施加一點點糾偏力,步驟少就沒機會積累,導致效果很差。VESFLOW的修改在第一步就已經生效,步驟少反而不是障礙。

Q2:VESFLOW會不會影響正常用圖片請求的生成質量?

A:基本不會。VESFLOW的數學公式中包含一個自動調節機制:當預測圖片已經是安全內容時,修正量自動趨近於零,幾乎不改變任何東西。研究團隊用MS-COCO數據集的實驗也證實了這一點,啟用VESFLOW後正常圖片的FID和CLIP分數與不啟用時幾乎相同。

Q3:VESFLOW方案需要重新訓練AI模型嗎?

A:完全不需要。VESFLOW是一種"無需訓練"的方案,它只在圖片生成的推理階段起作用,對預訓練模型的參數完全不做修改。這意味著它可以直接套用在已有的流匹配生圖模型(如FLUX、MeanFlow)上,不需要任何額外的訓練成本。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新