斯科爾科沃科技大學團隊的「解毒」實驗：如何讓AI讀懂一門小語種的「髒話」

這項由斯科爾科沃科技大學（Skoltech）聯合莫斯科高等經濟學院、ITMO大學、韃靼斯坦科學院應用符號學研究所、喀山聯邦大學及俄羅斯人工智慧研究院（AIRI）共同完成的研究，於2026年6月24日發布在預印本平台arXiv，論文編號為arXiv:2606.26015v1，歸屬電腦科學·計算與語言（cs.CL）方向。感興趣的讀者可直接通過該編號在arXiv檢索到完整論文。

贊助商廣告

**網路上的"有毒"文字，是個真實存在的大問題**

每天，無數人在社交媒體上用各種語言發言，其中夾雜著侮辱、罵人和攻擊性的內容。內容審核團隊不可能逐字逐句地人工審查每一條帖子。於是，研究人員希望讓電腦自動完成一件事：把一段罵人的話"改寫"成表達同樣意思但不傷人的普通話——這個過程，研究者稱之為"文本去毒化"（text detoxification）。

你可以把它理解成一個自動的"語言消毒員"。原本是"你這個白痴！"，經過消毒員的處理，就變成了"你犯了一個錯誤"。意思大致相同，但刺耳的成分被拿掉了。這個技術對於英語、俄語等使用人數多的語言已經取得了不少進展，因為有大量訓練數據可用。然而，對於像韃靼語（Tatar）這樣使用人數相對少、網際網路上文本資源匱乏的語言，這件事就難得多了。

韃靼語是俄羅斯聯邦韃靼斯坦共和國的官方語言，屬於突厥語族，使用者約有500到600萬人。這門語言有自己獨特的字母表，但在社交媒體上，很多人因為沒有專門的韃靼語鍵盤，習慣用視覺上相似的俄語字母來代替韃靼語字母拼寫，造成了一種混用的書寫現象。再加上語言本身的文化特殊性，就算是人類也未必能準確判斷某段韃靼語文字是否具有攻擊性——更別說讓機器來識別和改寫了。

正是在這個背景下，研究團隊推出了一個專門面向韃靼語的文本去毒化系統，並將其命名為**Tatoxa**。

---

一、為什麼韃靼語的"消毒"比英語難這麼多

要理解這項研究的挑戰，可以用烹飪來打比方。給英語這道"菜"做去毒化，相當於在一個設備齊全的大廚房裡工作——食材充足，參考食譜多，烹飪工具也全。而給韃靼語做同樣的事，就好比在一個幾乎空空的廚房裡，只有少量原材料，甚至連基礎的量杯和菜刀都缺。

贊助商廣告

機器學習系統（也就是人工智慧）要學會"語言消毒"，需要大量成對的例子：一邊是罵人的原文，另一邊是改寫後乾淨的版本。這種配對數據集叫做"平行語料庫"。對於英語，這樣的數據集有數萬條甚至更多；對於韃靼語，在這項研究開始之前，幾乎是一片空白。

2025年，一個名為CLEF的國際學術競賽首次專門為韃靼語創建了此類數據集，這對研究者來說是一個重要起點。然而，競賽結果令人有些沮喪：所有參賽系統中，韃靼語的得分是所有參評語言裡最低的。連競賽的整體冠軍系統，在韃靼語上的表現都差強人意。這說明，現有的通用多語言大型語言模型（可以理解為"通才型"AI）在韃靼語這道題目上嚴重"偏科"。

Tatoxa的研究團隊決定換一條路：不依賴通才，而是專門為韃靼語量身打造一套"專科廚房"。

---

二、Tatoxa系統是怎麼煉成的：一道四步驟的"特調食譜"

整個Tatoxa的構建過程，可以用一道需要精心準備的宴席料理來理解，分為四個環節，每一步都為下一步奠定基礎。

**第一步：訓練專用翻譯工具**

原材料嚴重不足，那就先想辦法"進貨"。研究團隊的思路是：俄語的去毒化數據很豐富，能不能把這些俄語數據翻譯成韃靼語來用？要實現高質量的翻譯，他們首先需要一個專門擅長俄語和韃靼語互譯的機器翻譯模型。

他們以一個叫做NLLB-200的多語言翻譯基礎模型為起點——這個模型能翻譯200種語言，但對於俄韃這個特定語言對來說精度有限。研究團隊用一批"韃靼語-俄語"的平行句對語料庫對它進行了專項訓練（這個過程叫"微調"，類似於給一個多面手廚師專門培訓某道地方菜的做法），讓它在俄語和韃靼語的互譯上更加得心應手。每一對句子都被用來同時訓練"韃靼→俄"和"俄→韃靼"兩個方向，一石兩鳥。

**第二步：把俄語的"毒文數據集"翻譯成韃靼語**

翻譯工具磨好了，接下來就是大規模"進貨"。研究團隊收集了四個俄語的去毒化數據集，包括ParaDetox、多語言ParaDetox、RuDetoxifier和Detoxified語料庫，然後用第一步訓練好的翻譯模型，把這些俄語的"髒話→乾淨話"配對，全部翻譯成了韃靼語版本。

贊助商廣告

但翻譯本身並不完美。一段俄語被翻譯成韃靼語時，可能意思跑偏，翻出來的句子可能跟原文說的不是一回事。為了篩掉這些"翻壞了"的例子，研究團隊使用了一個叫做LaBSE的工具來幫忙把關。LaBSE是一個能把不同語言的句子放到同一個"坐標系"里比較相似度的模型——類似於一把能跨語言使用的"意思尺子"。他們規定，翻譯前後的句子，無論是髒話版還是乾淨版，相似度都必須達到0.7以上（滿分是1.0），達不到標準的就丟棄不用。經過這道篩選，最終保留了38,380對有效的韃靼語去毒化配對，其中31,218對用於訓練，7,162對用於驗證模型效果。

**第三步：訓練專屬的去毒化模型**

有了足夠的韃靼語訓練數據，研究團隊以一個叫做mT0-XL的多語言模型為基礎，專門在這批翻譯數據上進行訓練，打造出一個專門服務於韃靼語去毒化的模型。

為了讓模型更穩健、不容易因為某批數據的特殊性而跑偏，研究團隊採用了一個叫做"K折集成"的技巧。簡單來說，就是把訓練數據分成三份，分別訓練三個略有差異的"模型版本"（專業上叫LoRA適配器），然後三個版本協同工作，就像三個廚師各自精通不同方面、合作做出一道更完整的菜。這種集成策略能有效避免單一模型的偏差和不穩定性。

**第四步：生成多個候選答案，擇優錄取**

模型訓練好之後，在實際使用時還有一個特別設計的步驟。單次生成可能出現兩種極端：要麼改得不徹底，原來的罵人味兒還留著；要麼改得太狠，把原來的意思都丟了。為了規避這兩個極端，每次給一句話去毒化時，三個模型版本各自生成60個候選結果，合計180個備選答案。然後，研究團隊用兩把"尺子"來評判這180個答案：第一把尺子量"中性程度"（有多不像罵人的話，用一個專門的XLM-R分類器來評分），第二把尺子量"意思保留程度"（跟原文的意思有多接近，用LaBSE來衡量）。綜合兩項得分最高的那個答案，才是最終輸出的結果。這個過程就像一場小型選美：180位選手同台競技，同時比拼"禮儀"和"神韻"，最像原版又最文明的那位脫穎而出。

贊助商廣告

---

三、自製數據集：在幾乎空無一物的廚房裡，他們還自己種了菜

除了用翻譯合成數據以外，研究團隊還意識到，光靠機器翻譯來的數據，終究比不上真正的韃靼語原生數據。於是他們手動標註了701個新的韃靼語去毒化樣本，用於專門的韃靼語實驗。

這批數據的來源是一個"多語言毒性數據集"中的韃靼語部分，原始素材都是社交媒體上的用戶生成內容。標註工作由兩名標註員完成，一名具有自然語言處理專業背景的主持人負責覆核，所有人都是韃靼語母語者。他們遵循的標註規範來自CLEF-2025競賽的官方指南：核心原則是"以最小改動完成去毒化"，就是能少改就少改，儘量保留原文的結構和意思。

標註過程中，每個樣本還被附上了額外資訊：改動方式是"刪除"（直接去掉罵人的詞）還是"改寫"（重新表述那部分內容），以及毒性程度是"中等"還是"高"。統計下來，改寫的方式占絕大多數（607例），單純刪除的只有60例，兩種方式混合的有34例。約57%的樣本被歸類為高毒性，主要特徵是明顯的粗口和直接的攻擊性語言；另外43%為中等毒性，多表現為隱性歧視或含蓄的侮辱，包括帶種族色彩的內容。

這批數據與CLEF官方數據集的一個重要區別在於：對於那些只用俄語字母書寫的韃靼語句子（因為用戶沒有韃靼語鍵盤，用俄語字母代替），標註員分別提供了兩個去毒化版本——一個保留俄語字母寫法，另一個使用正式的韃靼語字母拼寫。這個細節體現了韃靼語在網路使用中的獨特現實。

---

四、和其他AI系統的比拼：Tatoxa表現如何

衡量文本去毒化效果，研究團隊使用了與CLEF-2025競賽一致的三維評價體系。第一個維度叫"風格轉換準確性"（STA），衡量改寫後的句子是否真的不再帶有毒性；第二個維度叫"內容保留度"（SIM），衡量改寫後的句子與原文的意思有多接近；第三個維度叫"流暢度"（FL），衡量改寫後的句子與人類參考答案有多相似。最終綜合得分（J）是這三項指標按樣本逐個相乘後的平均值，每項都在0到1之間，得分越高越好。

贊助商廣告

研究團隊測試了一系列對比系統，從最簡單的"刪詞法"（用一個預先整理好的髒話詞典，直接把髒話刪掉）到開源的mT0多語言模型，再到商業大型語言模型包括GPT-5、Claude Opus 4.6、DeepSeek V3.2和Gemini Pro v2.5。

在CLEF官方測試集上，人類標註員的得分是0.825，作為天花板參考。在所有自動化系統中，Tatoxa以0.695的J得分拿下第一，STA指標更是高達0.982，幾乎把每一句話都成功去毒了。排在第二位的是mT0結合Gemini Pro的組合方案（0.640），第三位是單獨使用Gemini Pro（0.636）。在團隊自建的701條測試集上，Tatoxa同樣以0.680的J得分領先，STA為0.970，整體排名格局與官方測試集一致。

幾個值得關注的細節是：Tatoxa的SIM分數，這意味著它生成的結果在語義上貼近原文，但與人類參考答案的文字表達方式有所不同——AI傾向於用自己的方式改寫，未必跟人類編輯的措辭一模一樣，但意思是對的。

商業大模型（GPT-5、Claude等）的表現整體不盡如人意。它們的STA得分普遍不低，說明能把毒性去掉，但SIM和FL較低，意味著它們在去毒的同時改動了太多原文的內容。研究團隊認為，這是因為這些大模型對韃靼語本身的了解太有限，對韃靼語俚語和罵人話的語義理解不夠，於是就傾向於大面積改寫甚至翻譯，導致原意丟失。

最樸素的"刪詞法"表現出乎意料地不錯，在部分指標上甚至與mT0相當。這說明對於去毒化這種有時只需要"把壞詞挖掉"的任務，簡單粗暴的方法有時候也是有效的——只要詞典夠准。

---

五、跨語言遷移實驗：用法語訓練的模型，竟然比用俄語的效果更好？

研究團隊還做了一組很有意思的實驗，專門研究"用其他語言的數據來訓練模型，能不能幫助韃靼語的去毒化效果"這個問題。這個思路叫做"跨語言遷移"——就好比你想學廣東菜，但沒有廣東菜食譜，於是你先學了一堆其他地方菜的食譜，希望這些通用廚藝經驗能遷移過來。

贊助商廣告

實驗的基礎模型是mT0-orpo，它已經被專門為去毒化任務做過調整。研究團隊分別用15種語言（每種400個樣本）的去毒化數據對它進行微調，語言覆蓋英語、法語、德語、俄語、西班牙語、日語、中文、阿拉伯語、希伯來語、印地語、烏克蘭語、阿姆哈拉語等，然後測試每種語言的遷移效果。此外，還有一個"全語言混合"版本（排除韃靼語）和一個直接用韃靼語數據訓練的版本。

結果在意料之中又出人意料：用韃靼語本身的數據訓練，得分最高（J=0.5598），這是預期中的結果。但第二名不是俄語，也不是"全語言混合"，而是法語（J=0.5567），幾乎與韃靼語版本持平。更令研究團隊驚訝的是，"全語言混合"版本（J=0.5415）排在了第三，俄語只排在倒數第三位（J=0.4897），甚至低於日語（J=0.5286）和阿拉伯語（J=0.5133）。英語（J=0.4792）和西班牙語（J=0.4879）同樣表現不佳，是所有語言裡得分最低的幾個。

為什麼法語的遷移效果這麼好，反而是文化上更近、語言關係上俄語與韃靼語同在同一地區的俄語表現不佳呢？研究團隊的解釋指向了一個"預訓練偏見"的問題。mT0-XL這個基礎模型在訓練時使用了大量法語的指令數據，所以它對法語的理解和表徵特別穩定，法語數據的遷移效果自然好。而mT0-orpo（在mT0-XL基礎上進一步微調的版本）主要是用俄語數據繼續訓練的，這個過程中模型可能反而"學壞了"——它接觸了大量俄語的粗俗和不正式用法，導致在面對需要去除毒性的任務時，模型內部存在某種反向慣性，更難被糾正。英語和西班牙語的糟糕表現，則更多反映了這兩種語言在去毒化任務的語用模式上與韃靼語差距較大。

這個發現對實際應用有重要啟示：跨語言遷移的效果，並不簡單取決於兩種語言在地理或文化上有多近，基礎模型自身的預訓練分布同樣是關鍵變量。

---

六、訓練數據越多越好？不一定

贊助商廣告

除了跨語言實驗，研究團隊還專門研究了"增加訓練數據量"對效果的影響。他們用俄語（12,206個樣本）和英語（19,744個樣本）兩個大數據集，逐步增加訓練樣本量，觀察模型表現如何變化。

結果呈現出一個有趣的"先升後平甚至下降"的曲線。具體來說，隨著訓練樣本增加，模型效果確實在提升，但俄語大約在5,000條樣本左右就開始飽和甚至波動，英語大約在7,000條附近。超過這個數量之後，繼續增加數據並沒有帶來持續的提升，反而可能出現輕微下滑或不穩定波動。

俄語數據的曲線明顯比英語更"鋸齒"——起伏更大，穩定性更差。研究團隊認為這與俄語數據集的結構有關：俄語數據集中，同一句髒話往往對應多個不同的乾淨版改寫，模型面對這種"一對多"的映射關係時，容易陷入混亂，不知道該學哪個版本。英語數據集則相對整齊，通常是"一對一"的配對，學起來更穩定。

整體上，同樣的模型在英語數據上微調的效果，優於在俄語數據上微調的效果。這再次說明，數據質量和一致性的重要性，有時甚至超過數據數量本身。

---

歸根結底，Tatoxa這項研究告訴我們一件很樸實的事：通用的大模型並不萬能，對於資源稀缺的小語種，哪怕是文化上相近的"鄰居語言"（比如俄語對韃靼語）也未必是最好的遷移來源。反而是通過精心設計的"翻譯+篩選+本地化訓練"流程，加上少量真實的本地標註數據，能夠讓去毒化系統在韃靼語這道難題上交出一份更好的答卷。

這項研究也留下了一些未竟的方向。比如，研究團隊承認，他們沒能測試同屬突厥語族的其他近親語言（如土耳其語、哈薩克語、烏茲別克語等）的遷移效果，而這些語言與韃靼語有更直接的親緣關係，理論上可能帶來更好的跨語言遷移效果。此外，模型只調整了約30%的可訓練參數，參數規模的約束也可能限制了性能的上限。

更大的意義在於，這套方法論——先做專項機器翻譯微調，再翻譯合成數據，再過濾，再訓練去毒化模型，再多候選擇優——為其他同樣面臨數據匱乏問題的小語種提供了一個可以借鑑的完整工作流程。韃靼語今天遇到的困境，正是全球數百種小語種共同面臨的困境，而Tatoxa給出的這套方案，或許能在其他語言上復刻同樣的突破。

贊助商廣告

值得思考的是：當AI系統越來越多地被用於內容審核，而這些系統對小語種的"語感"和文化理解如此有限時，誰來保障這些語言社區的用戶得到同等質量的保護？這不只是一個技術問題，也是一個關於語言平等和數字包容的社會問題。有興趣深入了解的讀者，可以通過arXiv論文編號2606.26015檢索完整的研究報告。

---

Q&A

Q1：Tatoxa系統是怎麼解決韃靼語訓練數據不足的問題的？

A：Tatoxa採用了一套"借雞生蛋"的策略。團隊先把俄語大量現成的"髒話—乾淨話"配對數據，通過一個專門微調過的俄韃翻譯模型翻譯成韃靼語，再用語義相似度工具過濾掉翻譯質量差的樣本，最終得到3.8萬餘對高質量的韃靼語訓練數據，解決了原始數據幾乎為零的問題。

Q2：為什麼用俄語數據訓練的模型效果反而不如用法語數據的？

A：主要原因是基礎模型的"預訓練偏見"。mT0-orpo這個模型在mT0-XL的基礎上大量使用俄語數據進行了額外訓練，這個過程讓模型深度接觸了俄語的粗俗和非正式用法，導致它在面對韃靼語去毒化任務時存在內部牴觸。而mT0-XL原本就有大量法語指令訓練，法語表徵更穩定，反而遷移效果更好。這說明跨語言遷移的效果，語言文化距離並不是唯一決定因素。

Q3：韃靼語文本去毒化系統Tatoxa和GPT-5、Claude這些商業大模型比，哪個效果更好？

A：在綜合得分上，Tatoxa明顯優於所有測試的商業大模型。Tatoxa在CLEF官方測試集上的綜合J得分為0.695，而GPT-5為0.539，Claude Opus 4.6為0.562，Gemini Pro為0.636。商業大模型的主要短板在於它們對韃靼語理解有限，去毒時容易過度改寫原文，導致意思丟失，而Tatoxa通過本地化訓練在保留原意的同時更準確地完成了去毒化。