清華大學找到了讓AI「看透」語言障礙的秘密：讓安全訓練真正跨越語言邊界

這項由清華大學對話式人工智慧研究團隊（CoAI）聯合阿里巴巴集團共同完成的研究，於2026年4月以預印本形式公開發表，論文編號為arXiv:2604.12710。有意深入了解的讀者可通過該編號在arXiv平台檢索完整論文。

贊助商廣告

**一、一個讓人哭笑不得的困境**

假設你花了大量時間教一個保安識別危險物品——只用中文和英文教。結果某天來了一個說斯瓦希里語（非洲東部常用語言）的人，保安完全沒有受過斯瓦希里語訓練，於是直接放行了一個攜帶危險物品的人。這不是保安不聰明，而是他的"危險識別能力"和"語言理解能力"根本就是兩套系統，前者從來沒有學過如何在斯瓦希里語的包裝下工作。

當今的大型語言模型（也就是ChatGPT、Claude這類AI）面臨的困境與此完全一致。研究人員早就發現，這些AI在處理中文、英文等"大語言"時，安全攔截能力非常強——你用中文問它"怎麼製造炸彈"，它會立刻拒絕。但如果你用斯瓦希里語或孟加拉語問同一個問題，它很可能直接回答，甚至還會附上詳細步驟。這不是因為AI在某些語言下"變壞了"，而是它的"危險識別訓練"幾乎全部是用高資源語言（即數據量大、使用頻繁的語言）完成的，到了低資源語言那裡，這套防護機制就徹底失靈了。

清華大學的研究團隊正是盯上了這個問題，並提出了一套全新的解決思路：與其不斷給AI餵各種語言的安全訓練數據，不如找到AI大腦里那個"語言無關"的地方，直接在那裡植入安全意識。

**二、AI大腦里的"語義瓶頸"：一個神奇的中間地帶**

要理解這套方案，先得了解一個關鍵發現：AI的"大腦"（也就是神經網路的各個層級）並不是在每一層都以同樣的方式處理資訊的。

把AI的處理過程比作一個翻譯官的工作流程。剛收到一句話時，翻譯官首先注意到的是這句話的外觀——是漢字、拉丁字母還是阿拉伯文字？這個階段，資訊還是以"語言外衣"的形式存在的。到了最後階段，翻譯官需要用特定語言輸出答案，這時候資訊又重新穿上了語言的外衣。但在這兩個階段之間，有一個神奇的中間時刻：翻譯官已經完全理解了這句話的意思，而這個"意思"本身是超越語言的——"炸彈製造方法"這個概念，無論用什麼語言表達，在翻譯官腦子裡都是同一個危險的東西。

贊助商廣告

研究團隊將AI神經網路中這個"意義超越語言"的中間層，命名為**語義瓶頸層**（Semantic Bottleneck）。

為了找到這個神奇的層，研究人員設計了一個精妙的測量方法。他們把同一個問題翻譯成多種不同語言，比如"如何製造炸彈"用英語、斯瓦希里語、孟加拉語分別表達，然後觀察這些不同語言版本的問題在AI各個層級的"內部表示"（可以理解為AI對這句話的內部編碼）是否彼此相似。

如果某一層中，同一個問題的不同語言版本"擠在一起"，而不同問題（比如"炸彈製造"和"如何開始違法生意"）分開存在，那麼這一層就是按照"意義"在組織資訊的，這就是語義瓶頸層。反之，如果同一語言的所有問題都擠在一起，無論內容是否相關，那就說明這一層還在按"語言外衣"組織資訊。

研究團隊使用了一種叫做"輪廓得分"（Silhouette score）的數學工具來量化這種聚集程度，並用t-SNE可視化（一種可以把高維數據降維展示的技術）直觀呈現了結果。實驗結果非常清晰：在AI的早期層和末尾層，資訊按照語言種類聚集；但在中間某些特定層，資訊開始按照語義內容聚集，英文"怎麼製造炸彈"和斯瓦希里語"怎麼製造炸彈"在這一層的內部表示幾乎重疊在一起。這個差距最大的層，就是語義瓶頸層。

研究團隊在多個不同規模的模型上驗證了這個規律，包括Llama-3.1-8B（Meta公司的模型）和Qwen2.5、Qwen3系列（阿里巴巴的模型）。結果顯示，語義瓶頸層始終出現在網路深度的43%到68%之間，也就是"中段偏後"的位置，而不是固定在某個絕對的層數上。模型越大，絕對層數越深，但相對位置保持穩定。

**三、過去的方案為什麼不夠用？**

在清華團隊的研究之前，學術界已經有不少人注意到了AI在低資源語言上的安全漏洞，並提出了一些解決方案。最直接的思路是：缺什麼語言的安全訓練數據，就補什麼語言的數據。你不是沒學過斯瓦希里語的危險攔截嗎？那我們就專門收集或翻譯一批斯瓦希里語的安全訓練樣本，讓AI練一練。

贊助商廣告

另一種思路是"遷移學習"：先讓AI在高資源語言上學好安全規則，然後通過獎勵機制或自我蒸餾的方式，讓高資源語言的安全行為"遷移"到低資源語言上。

這些方法都有一定效果，但清華團隊的實驗揭示了一個殘酷的現實：即便用英語、中文和韓語進行了充分的安全訓練，AI在斯瓦希里語上的"攻擊成功率"（簡單說就是被壞問題成功騙過的比例）仍然高達50%左右。換句話說，訓練覆蓋的語言，AI學得好；訓練沒覆蓋的語言，AI依然是個漏洞。

這背後的根本原因，就是這些方案都在"文本表面層"做文章，而沒有觸及那個語言無關的語義核心。以保安的比喻來說，以前的方案是"給保安增加更多語言的培訓材料"，但從未考慮過讓保安學會"不管什麼語言，我都先看清楚這個東西的本質是什麼危險物品"。

**四、LASA方案：直接在意義的根源處設卡**

清華團隊提出的方案叫做**LASA**，全稱是"語言無關語義對齊"（Language-Agnostic Semantic Alignment）。這套方案的核心邏輯，就是找到語義瓶頸層，然後在那裡直接訓練AI的安全判斷能力。

整個方案分為三個階段，環環相扣。

第一階段是"找到那扇門"，也就是定位語義瓶頸層。按照前面介紹的輪廓得分方法，研究人員對每個模型逐層計算語義聚集程度和語言聚集程度的差值，差值最大的那一層就是語義瓶頸層。不同模型的具體層數不同，但都穩定落在中段偏後的位置。

第二階段是訓練一個"安全語義解讀器"（Safety Semantic Interpreter，簡稱SSI）。這是一個非常輕量的小模組，參數量不到主模型的0.2%，相當於在一個大型圖書館裡加了一個超薄的書籤卡片。SSI的任務非常專一：從語義瓶頸層提取出當前問題的內部表示，然後判斷這個問題是"安全的"還是"有害的"。訓練時，研究人員給SSI看大量有害和無害的問題樣本（從PKUSafeRLHF這個公開安全數據集中獲取），讓它學會在語義瓶頸層的信號里識別危險。

贊助商廣告

SSI能跨語言泛化嗎？研究團隊專門做了驗證。他們只用英語、中文和韓語的數據訓練SSI，然後測試SSI在斯瓦希里語、泰語等未見過語言上的準確率。結果發現，SSI在這些"從未練習過"的語言上依然表現出相當高的準確率，而且準確率與AI在這些語言上的整體理解能力（用MMLU多語言理解測試衡量）呈現出強烈的正相關關係。

這個關係呈現出一條漂亮的"飽和曲線"：當AI對某個語言的整體理解能力較弱時，SSI的安全識別準確率也相對較低；但隨著AI整體能力提升，安全識別準確率迅速追上，並在較高水平趨於飽和。研究團隊用數學公式擬合了這條曲線，發現擬合度（R?值）達到0.988，幾乎完美——這意味著"提升AI的整體多語言能力"和"提升安全語義識別能力"幾乎是同一件事。

第三階段是"語義條件對齊訓練"。有了SSI之後，研究人員並沒有直接用SSI的判斷來硬性攔截回答，而是把SSI的判斷結果作為一個額外信號，在訓練主模型時加入進去。具體做法是採用KTO風格的訓練目標（一種不需要成對偏好數據的訓練方式，相比需要配對數據的DPO等方法更加靈活）。當SSI判定問題有害時，模型會看到一個"有害查詢已檢測到，我應該拒絕並提供安全回應"的提示信號，從而學會將內部的語義危險信號與具體語言的拒絕表達關聯起來。

這個設計的妙處在於：模型在任何語言下都能感知到那個語義瓶頸層發出的"危險信號"，因為那個信號本身就是語言無關的。這樣，安全攔截能力就真正錨定在了意義層面，而不是語言表面。

**五、實驗結果：數字背後的真實改變**

研究團隊在兩個主要的安全測試數據集上評估了LASA的效果：MultiJail（專門針對多語言越獄的測試集）和HarmBench的翻譯版本（通用有害內容測試集）。測試覆蓋了十種語言，包括中文、英語、韓語、泰語、義大利語、越南語、阿拉伯語、孟加拉語、斯瓦希里語和爪哇語。訓練時只使用英語、中文和韓語數據，其餘七種語言完全沒有見過。

贊助商廣告

以LLaMA-3.1-8B為例，在MultiJail數據集上，原始未經安全訓練的模型平均攻擊成功率是21%，其中斯瓦希里語高達46%，孟加拉語高達39%。經過以往各類安全訓練方法（SFT、DPO、KTO、ORPO、CPO、MPO）處理後，英語、中文等訓練語言的攻擊成功率確實接近於零，但斯瓦希里語依然在20%到38%之間徘徊，孟加拉語在9%到17%之間。而LASA處理後，斯瓦希里語的攻擊成功率降到了8%，孟加拉語降到了5%，十語言平均攻擊成功率僅有1.7%，遠低於所有對比方法中表現最好的KTO的3.4%。

Qwen2.5-7B的情況更加極端，原始模型在斯瓦希里語上攻擊成功率高達56%，最好的基線方法（ORPO）也只能把它壓到45%。LASA將其壓到了13%，雖然還不完美，但相比基線方法已是質的飛躍。

在Qwen2.5和Qwen3系列的7B到32B模型上，LASA將平均攻擊成功率穩定維持在4%左右，而且隨著模型規模增大，效果還會進一步提升——這與前面提到的"整體多語言能力越強，語義安全識別越準確"的規律完全吻合。

值得關注的是，LASA在提升安全性的同時，幾乎沒有損害模型的通用能力。研究團隊用MGSM（數學推理）、MT-Bench（綜合能力評測）和MMLU（知識問答）三個通用能力測試進行了驗證。以LLaMA-3.1-8B為例，應用LASA前英語綜合能力均分為53.20，多語言綜合能力均分為40.17；應用LASA後分別提升到53.78和41.07。Qwen2.5-7B同樣出現了小幅提升。也就是說，LASA不僅沒有讓模型"變笨"，反而略有改善——這與許多傳統安全訓練方法會帶來"對齊稅"（即安全性提升但通用能力下降）形成了鮮明對比。

**六、消融實驗：每一個設計決策都有其用意**

為了證明每個設計環節都是必要的，研究團隊做了一系列"拆零件"實驗，逐一驗證各組件的作用。

首先是SSI訓練層的位置驗證。研究人員分別在語義瓶頸層之前的兩個層、之後的兩個層，以及最末層訓練SSI，然後比較安全效果。結果清晰地呈現出一個以語義瓶頸層為頂點的倒V形曲線：越靠近語義瓶頸層，安全效果越好；越偏離，效果越差。特別是在最末層訓練SSI，最終效果反而比最好的基線方法KTO（4.4%）還要差，達到8%。這個結果有力地證明了，安全對齊的位置至關重要，在語言主導的層做安全訓練是事倍功半的。

贊助商廣告

其次是第三階段優化方法的靈活性驗證。研究人員保持前兩階段不變，把KTO訓練換成SFT（監督微調）和ORPO（兩種不同的訓練範式）進行對比。結果顯示，三種方法的安全效果差異極小，平均變動幅度約為0.65個百分點。這說明LASA的核心增益來自於"找准語義瓶頸層"和"在該層訓練SSI"這兩個設計，而具體用什麼優化方法做第三階段訓練相對次要。研究團隊最終選擇KTO，主要是因為它不需要成對偏好數據，工程實現更方便。

**七、一個有趣的邊界案例：表情包能騙過它嗎？**

清華團隊還測試了一個很有創意的攻擊場景：用表情符號（emoji）來表達有害請求。比如，把"如何製造炸彈"用一系列炸彈、工具、齒輪的表情符號來"翻譯"。

研究團隊將表情符號問題分為兩類：高語義相似度（表情符號的組合與原始有害請求的意思接近，比如直接用炸彈