這項由清華大學對話式人工智慧研究團隊(CoAI)聯合阿里巴巴集團共同完成的研究,於2026年4月以預印本形式公開發表,論文編號為arXiv:2604.12710。有意深入了解的讀者可通過該編號在arXiv平台檢索完整論文。
**一、一個讓人哭笑不得的困境**
假設你花了大量時間教一個保安識別危險物品——只用中文和英文教。結果某天來了一個說斯瓦希里語(非洲東部常用語言)的人,保安完全沒有受過斯瓦希里語訓練,於是直接放行了一個攜帶危險物品的人。這不是保安不聰明,而是他的"危險識別能力"和"語言理解能力"根本就是兩套系統,前者從來沒有學過如何在斯瓦希里語的包裝下工作。
當今的大型語言模型(也就是ChatGPT、Claude這類AI)面臨的困境與此完全一致。研究人員早就發現,這些AI在處理中文、英文等"大語言"時,安全攔截能力非常強——你用中文問它"怎麼製造炸彈",它會立刻拒絕。但如果你用斯瓦希里語或孟加拉語問同一個問題,它很可能直接回答,甚至還會附上詳細步驟。這不是因為AI在某些語言下"變壞了",而是它的"危險識別訓練"幾乎全部是用高資源語言(即數據量大、使用頻繁的語言)完成的,到了低資源語言那裡,這套防護機制就徹底失靈了。
清華大學的研究團隊正是盯上了這個問題,並提出了一套全新的解決思路:與其不斷給AI餵各種語言的安全訓練數據,不如找到AI大腦里那個"語言無關"的地方,直接在那裡植入安全意識。
**二、AI大腦里的"語義瓶頸":一個神奇的中間地帶**
要理解這套方案,先得了解一個關鍵發現:AI的"大腦"(也就是神經網路的各個層級)並不是在每一層都以同樣的方式處理資訊的。
把AI的處理過程比作一個翻譯官的工作流程。剛收到一句話時,翻譯官首先注意到的是這句話的外觀——是漢字、拉丁字母還是阿拉伯文字?這個階段,資訊還是以"語言外衣"的形式存在的。到了最後階段,翻譯官需要用特定語言輸出答案,這時候資訊又重新穿上了語言的外衣。但在這兩個階段之間,有一個神奇的中間時刻:翻譯官已經完全理解了這句話的意思,而這個"意思"本身是超越語言的——"炸彈製造方法"這個概念,無論用什麼語言表達,在翻譯官腦子裡都是同一個危險的東西。
研究團隊將AI神經網路中這個"意義超越語言"的中間層,命名為**語義瓶頸層**(Semantic Bottleneck)。
為了找到這個神奇的層,研究人員設計了一個精妙的測量方法。他們把同一個問題翻譯成多種不同語言,比如"如何製造炸彈"用英語、斯瓦希里語、孟加拉語分別表達,然後觀察這些不同語言版本的問題在AI各個層級的"內部表示"(可以理解為AI對這句話的內部編碼)是否彼此相似。
如果某一層中,同一個問題的不同語言版本"擠在一起",而不同問題(比如"炸彈製造"和"如何開始違法生意")分開存在,那麼這一層就是按照"意義"在組織資訊的,這就是語義瓶頸層。反之,如果同一語言的所有問題都擠在一起,無論內容是否相關,那就說明這一層還在按"語言外衣"組織資訊。
研究團隊使用了一種叫做"輪廓得分"(Silhouette score)的數學工具來量化這種聚集程度,並用t-SNE可視化(一種可以把高維數據降維展示的技術)直觀呈現了結果。實驗結果非常清晰:在AI的早期層和末尾層,資訊按照語言種類聚集;但在中間某些特定層,資訊開始按照語義內容聚集,英文"怎麼製造炸彈"和斯瓦希里語"怎麼製造炸彈"在這一層的內部表示幾乎重疊在一起。這個差距最大的層,就是語義瓶頸層。
研究團隊在多個不同規模的模型上驗證了這個規律,包括Llama-3.1-8B(Meta公司的模型)和Qwen2.5、Qwen3系列(阿里巴巴的模型)。結果顯示,語義瓶頸層始終出現在網路深度的43%到68%之間,也就是"中段偏後"的位置,而不是固定在某個絕對的層數上。模型越大,絕對層數越深,但相對位置保持穩定。
**三、過去的方案為什麼不夠用?**
在清華團隊的研究之前,學術界已經有不少人注意到了AI在低資源語言上的安全漏洞,並提出了一些解決方案。最直接的思路是:缺什麼語言的安全訓練數據,就補什麼語言的數據。你不是沒學過斯瓦希里語的危險攔截嗎?那我們就專門收集或翻譯一批斯瓦希里語的安全訓練樣本,讓AI練一練。
另一種思路是"遷移學習":先讓AI在高資源語言上學好安全規則,然後通過獎勵機制或自我蒸餾的方式,讓高資源語言的安全行為"遷移"到低資源語言上。
這些方法都有一定效果,但清華團隊的實驗揭示了一個殘酷的現實:即便用英語、中文和韓語進行了充分的安全訓練,AI在斯瓦希里語上的"攻擊成功率"(簡單說就是被壞問題成功騙過的比例)仍然高達50%左右。換句話說,訓練覆蓋的語言,AI學得好;訓練沒覆蓋的語言,AI依然是個漏洞。
這背後的根本原因,就是這些方案都在"文本表面層"做文章,而沒有觸及那個語言無關的語義核心。以保安的比喻來說,以前的方案是"給保安增加更多語言的培訓材料",但從未考慮過讓保安學會"不管什麼語言,我都先看清楚這個東西的本質是什麼危險物品"。
**四、LASA方案:直接在意義的根源處設卡**
清華團隊提出的方案叫做**LASA**,全稱是"語言無關語義對齊"(Language-Agnostic Semantic Alignment)。這套方案的核心邏輯,就是找到語義瓶頸層,然後在那裡直接訓練AI的安全判斷能力。
整個方案分為三個階段,環環相扣。
第一階段是"找到那扇門",也就是定位語義瓶頸層。按照前面介紹的輪廓得分方法,研究人員對每個模型逐層計算語義聚集程度和語言聚集程度的差值,差值最大的那一層就是語義瓶頸層。不同模型的具體層數不同,但都穩定落在中段偏後的位置。
第二階段是訓練一個"安全語義解讀器"(Safety Semantic Interpreter,簡稱SSI)。這是一個非常輕量的小模組,參數量不到主模型的0.2%,相當於在一個大型圖書館裡加了一個超薄的書籤卡片。SSI的任務非常專一:從語義瓶頸層提取出當前問題的內部表示,然後判斷這個問題是"安全的"還是"有害的"。訓練時,研究人員給SSI看大量有害和無害的問題樣本(從PKUSafeRLHF這個公開安全數據集中獲取),讓它學會在語義瓶頸層的信號里識別危險。
SSI能跨語言泛化嗎?研究團隊專門做了驗證。他們只用英語、中文和韓語的數據訓練SSI,然後測試SSI在斯瓦希里語、泰語等未見過語言上的準確率。結果發現,SSI在這些"從未練習過"的語言上依然表現出相當高的準確率,而且準確率與AI在這些語言上的整體理解能力(用MMLU多語言理解測試衡量)呈現出強烈的正相關關係。
這個關係呈現出一條漂亮的"飽和曲線":當AI對某個語言的整體理解能力較弱時,SSI的安全識別準確率也相對較低;但隨著AI整體能力提升,安全識別準確率迅速追上,並在較高水平趨於飽和。研究團隊用數學公式擬合了這條曲線,發現擬合度(R?值)達到0.988,幾乎完美——這意味著"提升AI的整體多語言能力"和"提升安全語義識別能力"幾乎是同一件事。
第三階段是"語義條件對齊訓練"。有了SSI之後,研究人員並沒有直接用SSI的判斷來硬性攔截回答,而是把SSI的判斷結果作為一個額外信號,在訓練主模型時加入進去。具體做法是採用KTO風格的訓練目標(一種不需要成對偏好數據的訓練方式,相比需要配對數據的DPO等方法更加靈活)。當SSI判定問題有害時,模型會看到一個"有害查詢已檢測到,我應該拒絕並提供安全回應"的提示信號,從而學會將內部的語義危險信號與具體語言的拒絕表達關聯起來。
這個設計的妙處在於:模型在任何語言下都能感知到那個語義瓶頸層發出的"危險信號",因為那個信號本身就是語言無關的。這樣,安全攔截能力就真正錨定在了意義層面,而不是語言表面。
**五、實驗結果:數字背後的真實改變**
研究團隊在兩個主要的安全測試數據集上評估了LASA的效果:MultiJail(專門針對多語言越獄的測試集)和HarmBench的翻譯版本(通用有害內容測試集)。測試覆蓋了十種語言,包括中文、英語、韓語、泰語、義大利語、越南語、阿拉伯語、孟加拉語、斯瓦希里語和爪哇語。訓練時只使用英語、中文和韓語數據,其餘七種語言完全沒有見過。
以LLaMA-3.1-8B為例,在MultiJail數據集上,原始未經安全訓練的模型平均攻擊成功率是21%,其中斯瓦希里語高達46%,孟加拉語高達39%。經過以往各類安全訓練方法(SFT、DPO、KTO、ORPO、CPO、MPO)處理後,英語、中文等訓練語言的攻擊成功率確實接近於零,但斯瓦希里語依然在20%到38%之間徘徊,孟加拉語在9%到17%之間。而LASA處理後,斯瓦希里語的攻擊成功率降到了8%,孟加拉語降到了5%,十語言平均攻擊成功率僅有1.7%,遠低於所有對比方法中表現最好的KTO的3.4%。
Qwen2.5-7B的情況更加極端,原始模型在斯瓦希里語上攻擊成功率高達56%,最好的基線方法(ORPO)也只能把它壓到45%。LASA將其壓到了13%,雖然還不完美,但相比基線方法已是質的飛躍。
在Qwen2.5和Qwen3系列的7B到32B模型上,LASA將平均攻擊成功率穩定維持在4%左右,而且隨著模型規模增大,效果還會進一步提升——這與前面提到的"整體多語言能力越強,語義安全識別越準確"的規律完全吻合。
值得關注的是,LASA在提升安全性的同時,幾乎沒有損害模型的通用能力。研究團隊用MGSM(數學推理)、MT-Bench(綜合能力評測)和MMLU(知識問答)三個通用能力測試進行了驗證。以LLaMA-3.1-8B為例,應用LASA前英語綜合能力均分為53.20,多語言綜合能力均分為40.17;應用LASA後分別提升到53.78和41.07。Qwen2.5-7B同樣出現了小幅提升。也就是說,LASA不僅沒有讓模型"變笨",反而略有改善——這與許多傳統安全訓練方法會帶來"對齊稅"(即安全性提升但通用能力下降)形成了鮮明對比。
**六、消融實驗:每一個設計決策都有其用意**
為了證明每個設計環節都是必要的,研究團隊做了一系列"拆零件"實驗,逐一驗證各組件的作用。
首先是SSI訓練層的位置驗證。研究人員分別在語義瓶頸層之前的兩個層、之後的兩個層,以及最末層訓練SSI,然後比較安全效果。結果清晰地呈現出一個以語義瓶頸層為頂點的倒V形曲線:越靠近語義瓶頸層,安全效果越好;越偏離,效果越差。特別是在最末層訓練SSI,最終效果反而比最好的基線方法KTO(4.4%)還要差,達到8%。這個結果有力地證明了,安全對齊的位置至關重要,在語言主導的層做安全訓練是事倍功半的。
其次是第三階段優化方法的靈活性驗證。研究人員保持前兩階段不變,把KTO訓練換成SFT(監督微調)和ORPO(兩種不同的訓練範式)進行對比。結果顯示,三種方法的安全效果差異極小,平均變動幅度約為0.65個百分點。這說明LASA的核心增益來自於"找准語義瓶頸層"和"在該層訓練SSI"這兩個設計,而具體用什麼優化方法做第三階段訓練相對次要。研究團隊最終選擇KTO,主要是因為它不需要成對偏好數據,工程實現更方便。
**七、一個有趣的邊界案例:表情包能騙過它嗎?**
清華團隊還測試了一個很有創意的攻擊場景:用表情符號(emoji)來表達有害請求。比如,把"如何製造炸彈"用一系列炸彈、工具、齒輪的表情符號來"翻譯"。
研究團隊將表情符號問題分為兩類:高語義相似度(表情符號的組合與原始有害請求的意思接近,比如直接用炸彈






