當AI遇上「瀕危語言」：芬蘭ELLIS研究所和慕尼黑大學聯合探索，語法推理能拯救小語種機器翻譯嗎？

這項由芬蘭ELLIS研究所、圖爾庫大學與慕尼黑大學語言資訊處理中心聯合開展的研究，於2026年6月發布在預印本平台arXiv，論文編號為arXiv:2606.03782。研究聚焦於一個很少有人關注卻極為重要的問題：對於世界上那些幾乎沒有人工智慧"認識"的瀕危小語種，我們能不能藉助現有的語言學知識，讓大型語言模型學會翻譯它們？

贊助商廣告

地球上存在超過7000種語言，但其中只有極少數擁有足夠的平行文本數據，能夠訓練出像樣的翻譯系統。絕大多數語言，尤其是那些使用者只有幾千到幾萬人的小語種，在人工智慧的世界裡幾乎是"隱形的"。然而，這些語言並非全無記錄，語言學家們為它們編寫了詞典、語法書，甚至構建了精細標註的語法樹資料庫。問題在於，這些寶貴的語言學資料就像一本本專業教科書，人類翻譯者能藉助它們工作，但現有的大型語言模型卻往往不知道該如何有效利用這些知識。

研究團隊選取了兩種極度瀕危的語言作為測試對象：一是錫伯語（Xibe，語言代碼sjo），一種使用者約三萬人、分布在中國西北地區的通古斯語族語言；二是欽塔語（Chintang，語言代碼ctn），尼泊爾境內的一種漢藏語系語言，使用者僅約五千人。翻譯方向統一設定為從這兩種小語種翻譯成英語。團隊的核心思路是：與其讓模型直接"蒙"出一個翻譯，不如先教會它像語言學家一樣，一步步分析句子的結構，再逐漸"拼"出完整意思。

一、給語言模型一張"解題步驟紙"

要理解這項研究的核心方法，可以先想像一個場景：一名學生拿到一道從未見過的外語翻譯題，手邊有詞典、有語法書，卻不知道從何下手。大多數情況下，他會硬著頭皮把單詞一個個查出來，然後靠直覺拼湊句子——結果往往錯漏百出。但如果有人事先幫他準備了一份詳細的"解題步驟"，告訴他這個詞是什麼詞性、這兩個詞之間是什麼語法關係、先翻這個短語再翻那個從句……結果就會大不一樣。

贊助商廣告

研究團隊做的正是這件事。他們利用一種叫做"通用依存關係"（Universal Dependencies，簡稱UD）的語言學標註體系，這是一套被全球語言學家廣泛使用的框架，能夠為句子中的每個詞標註詞性、詞形、形態特徵，以及詞與詞之間的語法依存關係，就像給一棵樹標出每根樹枝如何連接到樹幹。錫伯語和欽塔語都擁有這樣的UD樹庫，欽塔語的UD注釋甚至包含每個詞根的英語詞義註解。

研究團隊開發了一套自動化的流水線，能夠從UD樹庫、詞典和語法規則庫這三種資源出發，為每一個待翻譯的句子自動生成一份"語言推理步驟說明書"。這份說明書遵循嚴格的自底向上的邏輯順序：先從句子最末端的小詞開始，逐步向上，每一步都對應UD樹中一個節點與其子節點的組合關係。每一步的內容都包括：當前詞的詞性和詞形特徵說明、根據這些特徵自動觸發的相關語法規則、詞彙意義的占位符，以及詞組翻譯的占位符。

舉個具體的例子，研究中提到了一個錫伯語句子："joobai, bargiyame gaifi gvwabsi genecina!"（意思是"算了，收拾好東西走人吧！"）。面對這個句子，自動生成的步驟說明會先告訴模型："'bargiyame'是一個動詞，其詞根形式是'bargiyambi'，意思是[詞彙意義]，它的形態特徵是未完成體副動詞形式。根據錫伯語語法：未完成體副動詞由後綴-me構成，其主要含義是從屬動作與主要動作同時發生……"接著說明這個副動詞與後面的主動詞之間是"advcl"（狀語從句修飾）關係，並留一個短語翻譯的空格等待填寫。整個步驟以此類推，直到推導出完整句子的翻譯。

有趣的是，這份說明書中的意義空格最初是故意留白的，研究團隊將其稱為"占位符"。在用於實時推理的場景中，這些空格就由語言模型在翻譯時自行填寫；而在用於訓練的場景中，則先用另一個模型（Gemini 3.1 Flash-Lite）根據詞典和標準答案翻譯把空格填好，再拿去訓練目標模型。

贊助商廣告

整個資源體系中，語法規則庫是一個亮點。錫伯語共整理出77條模組化語法規則，欽塔語有82條。每條規則都是一小段關於某個語法現象的文字解釋，並配有一個觸發條件——比如"當遇到形態特徵為未完成體副動詞時，插入這條規則"。這樣，每當系統在分析句子時碰到相應的形態或句法特徵，就會自動把對應的語法規則插入推理步驟中，就像翻卡片一樣精準及時。

二、三種不同的"使用方式"，效果差異顯著

有了這份"語言推理步驟說明書"，研究團隊接下來的問題是：這份說明書應該怎麼用？他們設計了三種截然不同的使用方式，並分別與不使用推理步驟的基線方案做對比。

第一種方式是上下文學習（ICL，In-Context Learning）。簡單說，就是把這份帶有空白占位符的推理步驟說明書直接塞進模型的提示詞裡，讓模型在翻譯時按照步驟一步步填寫。模型看著這份說明書，就像一位學生看著老師給的解題提示，照著推理流程走。這種方式不需要重新訓練模型，只是在輸入端給模型提供了更結構化的資訊。

第二種方式是監督微調（SFT，Supervised Fine-Tuning）。這裡用的是已經由Gemini模型填好了所有空格的完整推理步驟作為訓練數據，讓目標模型從這些例子中學習，希望模型之後面對新句子時，也能自己生成類似的推理步驟並得出正確翻譯。研究中同時對比了兩個子情況：只用最終翻譯作為訓練目標（不帶推理步驟）和用完整推理步驟加最終翻譯作為訓練目標。

第三種方式是強化微調（RFT，Reinforcement Fine-Tuning）。在監督微調的基礎上，用強化學習繼續訓練模型。獎勵信號來自三個方面：最終翻譯的質量（占權重的75%，通過字符級F分數、詞級BLEU分數和語義相似度綜合衡量）、輸出格式是否符合要求（占10%）、以及中間推理步驟中短語翻譯的準確性（占15%，通過將模型生成的中間短語翻譯與標準答案對比來評分）。設計這三重獎勵的邏輯是：既要最終結果好，也要中間過程合理，還要輸出格式規範。

贊助商廣告

實驗使用了兩個模型系列：Qwen3系列（包括4B、8B、14B三個尺寸）和Gemma 4系列（包括E2B、E4B、31B三個尺寸），全部使用指令微調版本。評估指標則涵蓋四個維度：BLEU分數（衡量詞級別的翻譯重疊度）、chrF分數（衡量字符級別的重疊度）、SBERT分數（用句子語義嵌入衡量翻譯與標準答案的語義相似度）、以及LLM-as-a-Judge評分（讓另一個大模型Gemini 3.1 Flash-Lite作為"考官"，對每個翻譯結果打0到100分）。

三、"說明書"直接用效果最好，拿去"教"模型則困難得多

實驗結果清晰地揭示了一個核心發現：把語言推理步驟說明書直接當作實時引導，效果遠遠好於把它拿去訓練模型。

在上下文學習設置中，加入推理步驟說明書之後，幾乎所有模型在兩種語言上的表現都有明顯提升。對於欽塔語來說，提升尤為顯著：Gemma 4 E4B模型的BLEU分數提升了5.57，chrF提升了11.89；Qwen3-8B模型的SBERT語義分數提升了18.57，LLM評分提升了21.12；Qwen3-4B模型的SBERT甚至提升了19.74，LLM評分提升了23.42。對於錫伯語，提升相對溫和但同樣普遍存在。最大的例外是最小的模型Gemma 4 E2B——它在SBERT上有所提升，但BLEU和chrF表現參差不齊，這可能是因為模型本身容量有限，基線表現較差，對噪音更為敏感。

在監督微調設置中，情況變得複雜。總體趨勢是"帶推理步驟訓練"比"不帶推理步驟訓練"稍好一些，但差距遠沒有上下文學習那麼明顯，而且結果因模型和指標而異，不夠穩定。其中提升最明顯的是Qwen3-4B，這個模型在微調後無論是否帶推理步驟，性能都大幅高於未微調狀態，但它的基線本來就很低，所以"起點低，提升空間大"的效應占了相當一部分功勞。更關鍵的發現是，微調後的模型雖然學會了生成正確格式的推理步驟，但推理內容本身常常出錯——選詞錯誤、句法分析錯誤，甚至錯誤地解讀語法關係。

研究團隊在論文附錄中提供了一個具體案例：對於錫伯語句子"xan be gidame honggon hvlhambi"（標準翻譯為"Cover ears while stealing a bell"，意思是掩耳盜鈴），模型生成的推理步驟犯了多處錯誤。它把"hvlhambi"解讀為"is robbing"而非正確的"steals"（詞義選擇錯誤），把"gidame"解讀為"pressing/crushing"而非正確的"closing/shutting"（多義詞選擇失誤），還搞錯了幾個詞之間的句法依存關係，導致最終翻譯成了"He is robbing small bells at the ear"，完全誤解了"掩耳盜鈴"的含義。

贊助商廣告

在強化微調設置中，效果同樣令人失望。在監督微調基礎上繼續進行強化學習訓練，提升非常有限，而且有時甚至出現小幅退步。研究團隊認為，這有兩方面原因：一是強化學習的探索空間不夠充分，每個提示詞只採樣4到8個候選回答，對於複雜的語言分析任務來說，這樣的探索量可能遠遠不夠；二是獎勵信號依然基於翻譯質量而非直接衡量句法分析的正確性，這意味著模型得到的反饋信號對於改進語言分析能力而言過於間接。

四、為什麼"提示引導"勝過"訓練學習"？

這一結果初看有些反直覺——通常我們認為訓練過的模型應該比只靠提示的模型表現更好，畢竟"訓練"意味著模型真正"學會"了什麼。但仔細想想，原因其實很清晰。

上下文學習用的推理步驟說明書來自真實的UD標註，這些標註是人類語言學家精心構建的，準確度極高。模型拿到這份準確的"答題提示"，自然更容易翻譯正確。而監督微調和強化微調用的訓練數據，其中間步驟雖然已經由Gemini模型填充了詞義和短語翻譯，但這些填充本身可能就包含錯誤。更關鍵的是，當訓練好的模型面對測試集中的新句子時，它必須自己生成這些推理步驟，而沒有任何外部的UD標註支撐——這就要求模型必須真正"學會"如何分析一門從未系統學過的瀕危語言的語法，這顯然是一個極大的挑戰。

打個比方：上下文學習就像一個學生考試時可以帶著一份詳細的解題提示進考場，這份提示是由領域專家親手寫的，沒有錯誤。而微調後的模型就像一個必須憑記憶考試的學生，他在備考時見過類似的提示，但有時候記混了細節，考場上自己推導出來的"提示"可能和正確的相差甚遠。

這一發現也呼應了此前其他研究的結論。劍橋大學等機構的研究曾指出，大型語言模型難以利用語法書中的語法描述來改進翻譯——它們能從語法書中的平行例句獲益，但對純粹的規則描述幾乎無動於衷。另一項來自北京大學的研究則發現，語法規則的檢索本身就是一個瓶頸，即使找到了正確的規則，模型處理複雜語法規則的能力也有限。本研究的貢獻在於更進一步：把語法規則不只是堆放在提示詞裡，而是將其精確綁定到具體句子的具體位置，並嵌入有序的推理步驟中，讓模型知道"這條規則在這裡用，現在用"。

贊助商廣告

五、這項研究告訴了我們什麼，未來還能怎麼做

研究團隊也坦率地指出了現有工作的局限性。在強化微調的設計上，由於計算資源有限，每個句子只採樣了少量候選翻譯，探索空間偏小。另一個局限在於獎勵函數：目前的過程獎勵只檢查短語翻譯的正確性，並不直接評估句法分析本身是否準確。研究團隊在展望中提出，未來的工作可以從模型的推理步驟中提取其預測的依存關係，然後與真實的UD樹結構對比，形成更直接的句法分析獎勵信號。一旦模型能夠更準確地分析句子語法結構，其利用語法資訊輔助翻譯的能力自然會大幅提升，有望復現上下文學習中觀察到的大幅改進。

從更宏觀的視角看，這項研究指出了一條可能的道路：對於極度資源匱乏的瀕危語言，UD樹庫、詞典和語法規則庫這三類語言學資源可以被系統性地整合進大型語言模型的翻譯流程中，而關鍵不在於把這些資源簡單地堆在提示詞裡，而在於如何把它們組織成能夠指導模型逐步推理的結構化引導。這一思路對於那些有語言學文獻積累但缺乏平行語料的小語種，具有相當現實的參考價值。

說到底，這項研究揭示的是一個關於"知道"與"會用"之間鴻溝的故事。語言模型在拿到專業的逐步分析引導時，能夠相當有效地翻譯以前從未接觸過的瀕危語言——這說明這些模型確實具備利用語言學知識的潛力。但當它們需要獨立生成這些分析時，往往力不從心。用一句話概括研究的核心發現：給大語言模型一份專家級的推理說明書，它能翻譯掩耳盜鈴；讓它自己寫這份說明書，它往往會把"掩耳盜鈴"翻成"在耳朵旁搶鈴鐺"。

對於關心語言多樣性保護的讀者來說，這項研究意味著，即便沒有海量的雙語語料，只要有語言學家的智慧結晶——哪怕只是一本詞典和一份語法描述——人工智慧也有可能成為瀕危語言的"翻譯助手"。而如何讓人工智慧真正內化這些知識，做到不依賴外部引導也能自主準確分析，將是接下來這個領域的核心挑戰。對這個話題感興趣的讀者，可以通過arXiv平台搜索論文編號2606.03782查閱完整原文。

贊助商廣告

Q&A

Q1：通用依存關係（UD）樹庫是什麼？它對低資源語言翻譯有什麼作用？

A：通用依存關係（UD）是一套全球通用的語言標註框架，能為句子中每個詞標註詞性、詞形、形態特徵及詞與詞之間的語法關係，就像給句子的語法結構畫一棵精確的樹形圖。對於低資源語言翻譯，UD樹庫提供了精確的句法分析，幫助系統理解句子結構，進而生成有順序的逐步推理步驟，讓翻譯模型能夠依照語法邏輯一步步推導出完整的翻譯，而不是僅靠猜測。

Q2：為什麼上下文學習（ICL）的翻譯效果比監督微調（SFT）更好？

A：上下文學習使用的推理步驟說明書來自人類語言學家精心構建的UD標註，準確度極高，模型拿到這份可靠的引導自然表現更好。而監督微調要求模型面對新句子時自己生成推理步驟，沒有外部標註支撐，模型往往會出現詞義選擇錯誤和句法關係判斷錯誤，錯誤的中間推理直接導致最終翻譯質量下降。簡單說，"拿著專家寫的提示做題"比"自己回憶專家怎麼分析再做題"要容易得多。

Q3：錫伯語和欽塔語為什麼被選為實驗語言？

A：錫伯語是中國西北地區的通古斯語族語言，使用者約三萬人，擁有詞典、語法書和UD樹庫，代表了"多種語言學資源並存"的典型低資源情況。欽塔語是尼泊爾的漢藏語系語言，使用者僅約五千人，主要依賴UD數據，代表了"只有UD注釋"的更極端情況。兩種語言分別代表不同資源條件下的低資源翻譯場景，使實驗結果具有更廣泛的參考價值。