宅中地 - 每日更新

贊助商廣告

X

新加坡南洋理工大學為AI圖片生成器裝上"安全閥"：用物理學原理堵住色情暴力內容的漏洞

2026年06月25日首頁 » 熱門科技

這項由新加坡南洋理工大學與韓國蔚山科學技術院（UNIST）聯合開展的研究，於2026年6月發表，論文編號為arXiv:2606.23267。有興趣深入了解的讀者可通過該編號查詢完整論文。

贊助商廣告

當AI畫圖工具變成"不良內容生成器"時，我們該怎麼辦

近幾年，AI生圖技術已經進化到了一個令人瞠目結舌的程度。你只需要打幾個字，它就能在幾秒鐘內畫出一張精美的圖片。但這個強大的能力也帶來了一個讓人頭疼的問題：有人會故意輸入帶有色情、暴力內容的提示詞，讓AI生成不應該出現在公共場合的圖片。

為了解決這個問題，研究人員一直在尋找各種"安全鎖"方案。然而，隨著AI生圖技術的快速演進，一種叫做"流匹配"（Flow Matching）的新技術逐漸成為主流——它被用在了目前最先進的圖像生成工具中，包括著名的Stable Diffusion v3和FLUX。這種新技術的最大優勢是速度極快：只需要極少的幾步計算，就能生成高質量圖片。問題也恰恰出在這裡——過去那些為"慢速"AI設計的安全防護措施，在這種"快速"AI面前幾乎完全失效。

新加坡南洋理工大學的研究團隊正是盯准了這個漏洞，提出了一套全新的防護方案，取名為VESFLOW（速度編輯安全流匹配）。這套方案不依賴任何模型重訓練，而是直接在AI"思考"的過程中巧妙介入，將可能產生危險內容的軌跡撥向安全方向。在4步極速生圖模型上，他們將色情內容的攻擊成功率從約70%壓低到了6%左右，同時對正常圖片的生成質量幾乎沒有任何影響。

一、AI生圖的工作原理：一場從噪點到畫作的旅程

要理解這套安全方案，首先得明白AI是如何生成圖片的。可以把這個過程想像成一個雕塑家在一團亂石中，一刀一刀地雕刻出一尊精美的雕像。起點是一團毫無規律的隨機噪點，終點是一張符合你描述的圖片。

在傳統的擴散模型（比如早期的Stable Diffusion）中，這個雕刻過程需要很多刀——往往是50步甚至100步，每一步只做一點點修改。這樣做的好處是每一刀都能精細控制，壞處是太慢了，在手機或普通電腦上運行非常吃力。

贊助商廣告

流匹配技術改變了這個雕刻策略。它不再一點一點地修改，而是直接計算出從噪點到目標圖片的最短路徑，然後沿著這條近乎筆直的路線快速到達終點。在技術層面，流匹配模型學習的是一種叫做"速度場"（Velocity Field）的東西——可以把它理解為每一個時刻、每一個位置上，雕刻刀應該朝哪個方向用力、用多大的力。

更進一步的MeanFlow技術則更加激進，它不計算每一瞬間的速度，而是直接計算出一段時間內的"平均速度"，從而實現真正意義上的一步或四步生圖。這就像是雕塑家不再一刀一刀地雕，而是一眼就看出了終態，直接一揮而就。

由此可見，流匹配和MeanFlow讓AI生圖的"旅程"從數十步壓縮到了寥寥幾步，速度提升了一個數量級。然而，這也給安全防護帶來了致命的挑戰。

二、舊安全方案為何在快速AI面前失靈

過去那些保護AI不生成危險內容的方案，基本分為兩大類，而這兩類方案在面對快速流匹配模型時，都遭遇了各自的瓶頸。

第一類方案可以稱為"軌跡糾偏法"。這類方案的邏輯是：在每一步計算過程中，檢測一下當前的圖片雛形是否在向危險方向發展，如果是，就施加一個反向的推力，把它往安全的方向推一推。這就像是在那個從噪點到畫作的旅程中，安排了一個監察員，每走一步就檢查一次，發現走歪了就糾正。

在傳統的50步模型中，這個方案運作得相當不錯——監察員有50次機會檢查和糾正，每次只需要做一點點調整，積少成多，最終能把軌跡拉回正軌。但是在4步的快速模型中，監察員只有4次機會。每次糾偏的力度如果太小，4步根本來不及把危險內容徹底消除；力度如果太大，又會把圖片推出正常範圍，畫面變得扭曲失真，連帶著把安全的圖片也搞砸了。

研究團隊用一個一維的玩具實驗直觀展示了這個困境：用20步生成時，大多數危險軌跡都能被成功糾偏；但換成2步生成，糾偏幾乎完全失效，危險內容照樣能夠生成出來。

贊助商廣告

第二類方案是"改詞法"。既然問題出在用戶輸入了危險的提示詞，那就在提示詞進入AI之前，先把它處理一下，把危險的詞義成分剔除掉，只保留無害的部分。代表性方案包括SAFREE（把提示詞向量從危險概念的方向上投影掉）和Semantic Surgery（語義手術，對提示詞向量做減法運算）。

然而，這裡有一個被很多人忽視的技術障礙。早期的圖像生成模型（比如Stable Diffusion 1.4）使用的是CLIP這種文本編碼器——它的特點是每個詞都對應一個相對獨立的向量，詞與詞之間的"串擾"較小。而最新的流匹配模型（如FLUX和SD v3）則採用了T5這種大語言模型作為文本編碼器。T5是在大量長文本上訓練出來的，它理解的是整句話的意思，而不是逐詞的意思。

這意味著什麼？這意味著當你輸入一句話時，每個詞的含義都已經和整句話的語境深度融合，"色情"這個概念不再孤立地存在於某個詞向量里，而是瀰漫在整個句子的編碼里。研究團隊通過實驗證實了這一點：對於色情相關的提示詞，CLIP編碼器產生的詞向量彼此相似度很高，說明這類詞有一個清晰的"危險區域"可以被識別和剔除；而T5編碼器產生的詞向量相似度則低得多、分布也散得多，說明危險概念已經散布到了整個向量空間，根本無法精準切除。

正因如此，改詞法在最新的流匹配模型上的效果也非常有限。研究團隊的實驗數據清楚地表明，SAFREE和Semantic Surgery在FLUX和MeanFlow模型上幾乎無法有效降低危險內容的生成率。

三、VESFLOW的核心思路：從撥偏軌跡到直接改寫方向盤

面對上述兩類方案的局限，研究團隊換了一個完全不同的思考角度。

既然流匹配模型學習的核心是"速度場"——也就是每一步應該往哪個方向走、走多快——那麼為什麼不直接修改這個速度場本身，而是要在每一步上貼膏藥式地干預呢？

這就是VESFLOW的核心直覺：與其在旅途中反覆糾偏，不如直接改寫地圖，讓這張地圖從一開始就只指向安全的目的地。

贊助商廣告

具體來說，原始的流匹配模型學到的速度場，反映的是對所有可能圖片（安全的和危險的）的平均期望。研究團隊想要的是一個"安全條件速度場"——只考慮那些最終圖片屬於安全區域的情況下，速度應該是多少。換句話說，他們想把速度場從"無差別期望"改成"只想著安全結果的期望"。

用旅行來類比：原本的AI是一個導航軟體，它會根據所有可能的目的地（包括危險的地方）來規劃路線，正好走到了危險區域。VESFLOW則相當於給這個導航軟體施加了一個約束條件："只給我推薦能到達安全目的地的路線"，導航軟體於是重新規劃了路線，從源頭上就不再通往危險區域。

四、貝葉斯分解：用數學公式推導出"安全速度"

要把這個直覺變成可以實際使用的公式，研究團隊藉助了概率論中的貝葉斯定理（Bayes' Rule）——一種用於在已知部分資訊的情況下更新概率估計的數學工具。

他們先把數據空間分成兩個部分：安全區域和不安全區域，並用一個二值變量來表示當前生成的圖片最終是否落在安全區域內。然後，他們推導了從原始速度場到安全條件速度場之間的差值公式。

這個推導的關鍵步驟是：根據流匹配的速度場與概率密度梯度之間的數學關係，兩個速度場之間的差值可以用概率密度的比值的梯度來表達。再通過貝葉斯定理，這個比值被進一步化簡為與安全性判斷相關的概率項。

最終，研究團隊引入了一個預訓練的安全判別器（比如一個專門檢測裸露內容的分類器），並用一階泰勒近似來簡化計算，得到了一個實用的速度修正公式。

這個公式的直觀含義非常優美：速度修正量正比於安全判別器關於當前預測圖片的梯度，除以"該圖片為安全"的概率。這意味著當預測圖片越接近危險內容時（判別器認為它不安全的概率越高），修正的力度就越大；反之，當預測圖片已經很安全時，修正量趨近於零，對正常生成幾乎沒有影響。

贊助商廣告

公式中還自然地包含了一個時間調節因子：t除以（1減t）。在時間接近1（也就是生成的起始階段，圖片還是一團噪點）時，這個因子很大，修正力度強；在時間接近0（也就是生成的末尾階段，圖片已經接近完成）時，這個因子趨近於零，修正力度自然減弱。這與之前其他研究發現的規律不謀而合：早期干預比晚期干預更有效。

對於MeanFlow模型（學習平均速度而非瞬時速度的模型），同樣的修正公式也可以直接應用，因為MeanFlow的平均速度實際上是瞬時速度在時間區間上的積分，而在近線性軌跡的假設下，用區間終點的瞬時修正量來近似這個積分是合理的。

五、風險過濾機制：給"正常人"的免檢通道

VESFLOW有一個值得關注的特性：當輸入的提示詞是完全無害的時候，安全判別器對預測圖片的輸出趨近於零，因此速度修正量也趨近於零——也就是說，對於安全的提示詞，VESFLOW實際上什麼都沒有做，生成的圖片和不加安全防護時完全一樣。

這個特性從理論上保證了正常用戶的體驗不受影響。然而，即便修正量趨近於零，每次生成時仍然需要計算判別器的梯度，這會帶來額外的計算開銷。對於一個主要處理正常請求的系統來說，這種開銷顯然是不必要的浪費。

為了解決這個效率問題，研究團隊設計了一個"風險評分過濾器"。它的工作方式非常簡單：在用戶提交提示詞之後、AI開始生成之前，先用CLIP（一種能把文字和圖片映射到同一個向量空間的模型）計算一下這個提示詞與一系列預先定義的危險概念詞（如色情、暴力等）的相似度。如果相似度超過了一個門檻值（實驗中設定為0.3），就認為這是一個危險提示詞，需要啟動VESFLOW；否則，就直接跳過安全處理，讓AI正常生成。

這個過濾器只需要做一次簡單的向量相似度計算，計算量極小，幾乎不占用額外時間。對於絕大多數正常用戶，系統運行方式和原來沒有任何區別；只有當系統偵測到可疑提示詞時，才會調用更昂貴的安全處理機制。

贊助商廣告

六、VESFLOW+：對付頑固危險提示詞的加強版

基於風險過濾機制，研究團隊進一步提出了一個加強版方案——VESFLOW+。

理解VESFLOW+，需要先理解VESFLOW本身的數學結構。VESFLOW把速度場從"邊際速度"（對所有可能結果的平均）修正到"安全條件速度"（只考慮安全結果的期望）。用向量來表示，修正方向是從邊際速度指向安全條件速度。

然而，邊際速度本身是安全和不安全兩個方向的混合。對於那些已經被風險過濾器確認為高危的提示詞來說，邊際速度大概率是被不安全成分所主導的。VESFLOW+的思路是：與其從邊際速度出發去接近安全條件速度，不如直接從不安全條件速度出發跳向安全條件速度——這樣修正的"步伐"更大，效果更強。

在數學上，這個更強的修正向量由兩部分組成：一部分是指向安全方向的吸引力（與VESFLOW中的修正量相同），另一部分是遠離危險方向的排斥力（通過在公式中額外加入判別器輸出的對數項實現）。兩股力合在一起，VESFLOW+的安全防護力度要比VESFLOW更強。

但正因為VESFLOW+的力度更大，它不能隨便用在任意提示詞上——對於一個完全無害的提示詞，強行施加遠離"危險方向"的排斥力，反而可能破壞正常生成。所以，VESFLOW+必須在風險過濾器確認提示詞屬於危險類別之後才能啟用，這也是為什麼過濾機制對於VESFLOW+來說是必要前提而非可選優化。

七、實驗結果：數字背後的真實表現

研究團隊在兩個主流的少步生圖模型上驗證了方案的效果：一是FLUX.1-lite-8B，一個8步生圖的高效版本；二是MeanFlow蒸餾模型，一個4步生圖的極限版本。

安全性測試使用了兩個公開的攻擊性提示詞數據集：Ring-A-Bell（包含79條裸露相關提示詞和250條暴力相關提示詞）以及MMA-Diffusion（400條多模態攻擊提示詞）。評估指標分為攻擊成功率（ASR，生成圖片中危險內容檢出比例超過60%的比例）和毒性率（TR，所有生成圖片的危險內容平均檢出分數）。危險內容的檢測分別使用了NudeNet（專門檢測裸露內容）和Q16（檢測暴力內容）兩個工具。

贊助商廣告

生成質量的評估則使用了MS-COCO數據集中的普通提示詞，通過FID分數（衡量生成圖片與真實圖片分布的差距）和CLIP分數（衡量圖片與提示詞的匹配程度）來判斷正常生成是否受到影響。

在4步MeanFlow模型上，未加任何防護的基線方案在Ring-A-Bell裸露測試上的ASR高達70.9%，即十張中有七張能成功生成危險內容。VESFLOW將這個數字壓低到了15.2%，VESFLOW+則進一步壓低到了6.3%。在MMA-Diffusion測試上，基線的ASR為41.7%，VESFLOW降至7.5%，VESFLOW+降至6.8%。

與此同時，那些對比方案——無論是SGF（安全引導流）、STG（安全文本嵌入引導），還是SAFREE和Semantic Surgery——在同樣的4步模型上，最好的結果也只能把ASR降到50%左右，許多情況下甚至比基線還要差。

在正常圖片的生成質量上，VESFLOW和VESFLOW+的FID分數和CLIP分數與基線幾乎相同，說明安全防護對正常用戶的使用體驗幾乎沒有任何影響。

在暴力內容的測試上，VESFLOW和VESFLOW+同樣取得了有意義的效果：4步MeanFlow上的暴力ASR從基線的80.8%降低到了VESFLOW+的46.8%。雖然降幅不如裸露內容那麼顯著，但研究團隊特別指出，暴力內容的檢測本身就比裸露內容更難（因為暴力概念的邊界更模糊），而且他們為暴力任務使用的是完全與裸露任務相同的超參數設置，沒有單獨調整——這說明VESFLOW方案的泛化性相當不錯。

在8步的FLUX模型上，VESFLOW+在裸露檢測上的表現更為亮眼：Ring-A-Bell的ASR從64.6%降至1.3%，MMA-Diffusion的ASR從66.5%降至0.3%。這意味著幾乎完全消滅了危險內容的生成。

八、細節打磨：穩定性、效率與判別器的選擇

在VESFLOW的公式中，時間調節因子t除以（1減t）在時間接近1時會趨向無窮大，這可能導致生成過程在第一步就變得極不穩定，產生嚴重的數值溢出。

研究團隊採用了一個簡單但有效的穩定化策略：設置一個時間上限t_max（比如0.99或0.95），當時間超過這個上限時，將時間上限代入公式計算，從而把調節因子限制在一個有限的範圍內。

贊助商廣告

實驗表明，t_max=0.99時安全性能比t_max=0.95更強，但生成質量（FID分數）在高引導強度下會有更明顯的下降。另一個直觀的穩定化策略是跳過第一個生成步驟，但實驗證明這會導致安全性能大幅下降，這與其他研究者關於"早期干預最重要"的發現完全一致。

在判別器的選擇上，研究團隊主要使用了LAION的CLIP-based NSFW檢測器，而沒有使用NudeNet——這是一個刻意的設計選擇，目的是避免"用同一個工具既做引導又做評估"帶來的循環偏差。但為了驗證方案對判別器選擇的敏感性，他們也用NudeNet替換了判別器，並用一個完全獨立的多模態大語言模型LLaVA來做評估。結果顯示，兩種判別器的效果相當接近，說明VESFLOW方案的有效性並不依賴於特定判別器的實現細節。

計算開銷方面，在8步FLUX模型上測量的結果顯示：基線方案每張圖片約需0.95秒，SGF約需0.99秒（僅略微增加），而STG由於需要對提示詞嵌入計算NudeNet的梯度，開銷高達3.6秒（約為基線的4倍）。VESFLOW和VESFLOW+則約為2.16秒，大約是基線的2.2倍。在啟用風險過濾器的實際應用場景中，對於良性提示詞（占大多數）完全跳過安全處理，平均計算開銷會進一步降低。

九、方案的局限與未來方向

研究團隊對方案的局限性非常坦誠。時間調節因子帶來的穩定性問題是最主要的缺點：雖然t_max策略能夠緩解這個問題，但選擇不同的t_max值會對安全性和生成質量產生不同的影響，需要手動調整，缺乏一個更理論化的自動選取方法。

此外，當VESFLOW方案與提示詞層面的安全方案（如Semantic Surgery）結合使用時，效果並不總是疊加的。當提示詞層面的修改已經把預測圖片推向安全區域時，VESFLOW+中用於計算強度的"判別器輸出"會接近零，導致加強版的排斥項變得數值不穩定，反而可能降低安全性能。這說明兩類方案之間的協同關係比較複雜，需要更細緻的設計才能穩定地結合。

贊助商廣告

研究團隊表示，未來將探索更理論化的穩定化方案，直接利用預訓練流匹配模型本身的結構來避免數值發散問題，而不是依賴手動設置的截斷上限。

說到底，這項研究做了一件很有意思的事情：它不是簡單地給AI圖像生成系統打補丁，而是從流匹配模型的數學本質出發，找到了一個在原有框架內就能實現安全引導的優雅路徑。過去那些安全方案大多是"在旅途中不斷糾偏"，而VESFLOW是"重新畫了一張只通向安全目的地的地圖"。這個思路上的轉變，讓它在只有寥寥幾步的極速生圖場景中依然能發揮作用。

歸根結底，隨著AI生圖工具越來越快、越來越強大，安全防護的挑戰也越來越大。今天4步生成，明天可能是1步生成，每次技術的跨越都會讓舊的安全方案又面臨新的挑戰。VESFLOW提供的這種速度場層面的干預思路，或許為未來的安全防護研究開闢了一條值得繼續探索的道路。感興趣的讀者可以通過arXiv編號2606.23267查閱原論文，深入了解技術細節。

Q&A

Q1：VESFLOW為什麼對4步這種極少步數的AI生圖模型特別有效？

A：VESFLOW直接修改AI內部的"速度場"（決定生成方向的核心參數），相當於從源頭改寫了生成路線，不需要通過多步累積的方式來逐漸糾偏。而舊方案每一步只施加一點點糾偏力，步驟少就沒機會積累，導致效果很差。VESFLOW的修改在第一步就已經生效，步驟少反而不是障礙。

Q2：VESFLOW會不會影響正常用圖片請求的生成質量？

A：基本不會。VESFLOW的數學公式中包含一個自動調節機制：當預測圖片已經是安全內容時，修正量自動趨近於零，幾乎不改變任何東西。研究團隊用MS-COCO數據集的實驗也證實了這一點，啟用VESFLOW後正常圖片的FID和CLIP分數與不啟用時幾乎相同。

Q3：VESFLOW方案需要重新訓練AI模型嗎？

A：完全不需要。VESFLOW是一種"無需訓練"的方案，它只在圖片生成的推理階段起作用，對預訓練模型的參數完全不做修改。這意味著它可以直接套用在已有的流匹配生圖模型（如FLUX、MeanFlow）上，不需要任何額外的訓練成本。

贊助商廣告

宅中地 - Facebook 分享

宅中地 - Twitter 分享

宅中地 - Whatsapp 分享

宅中地 - Line 分享

相關內容

Copyright ©2026 | 服務條款 | DMCA | 聯絡我們

宅中地 - 每日更新