四川大學與華為2012實驗室聯手揭秘：為什麼AI做邏輯題時「中文版」會突然變笨？

這項由四川大學數學學院與華為技術有限公司2012實驗室理論實驗室聯合開展的研究，於2026年6月16日以預印本形式發布在arXiv平台，編號為arXiv:2606.17905v1，研究方向歸屬於電腦科學中的計算與語言領域（cs.CL）。感興趣的讀者可以通過該編號在arXiv上查閱完整論文。

贊助商廣告

你有沒有遇到過這樣一個生活場景：同一道邏輯謎題，用英文寫出來，AI秒秒鐘給出正確答案；但換成中文，哪怕意思完全一樣，AI就開始磕磕絆絆，甚至給出截然相反的結論？這背後到底發生了什麼？研究團隊為了搞清楚這個問題，專門設計了一套叫做"CHLOGIC"的測試工具，像一個精密的語言檢測儀，專門用來量化AI在中英文邏輯推理之間的能力差距。

**一、一張考卷，兩種語言，測出AI的"中文軟肋"**

要理解這項研究做了什麼，可以先想像一個場景：某個學生用英語考試能得滿分，但同樣的試卷翻譯成中文後，他的分數卻大幅下滑。這並不是因為題目的邏輯變了，而是因為語言本身帶來的"包裝"讓他產生了誤解。AI面對邏輯推理任務時，恰恰存在類似的問題。

現有的邏輯推理基準測試（也就是用來衡量AI能力的標準化考題集）大多是英文的，或者即便有中文版本，也只是簡單翻譯，並沒有系統地檢驗：當同一個邏輯結構以不同的中文表達方式呈現時，AI的判斷是否還保持一致。CHLOGIC就是為了填補這個空白而誕生的。

研究團隊構建CHLOGIC的核心思路，就像是給同一塊樂高積木套上不同顏色的外殼，然後問AI："這些外殼裡裝的是同一種積木嗎？"邏輯結構是固定不變的積木本體，而中英文的不同表達方式就是五花八門的外殼。如果AI真的理解了邏輯本質，那不管外殼怎麼變，它的判斷都應該保持一致。

**二、這套考卷究竟是怎麼設計的？**

CHLOGIC由三個部分組成，各有側重，共同構成一個覆蓋面廣、難度分層的測試體系。

贊助商廣告

第一部分叫做"通用對齊集"（General aligned set）。研究團隊從九大邏輯模板家族中提煉出60條基礎邏輯命題，涵蓋從最基礎的"如果P則Q，P成立，那麼Q成立"（這叫假言推斷，日常生活中無處不在）到更複雜的關係邏輯和多步推理鏈條。每條命題被實例化為50個具體場景（比如把抽象的"P→Q"替換為"如果李明認真讀題，那麼他會通過考試"這樣的具體故事），一共生成3000道題。每道題都有一個英文版本，外加五個中文版本。五種中文版本各有特色：標準中文是直接照著英文邏輯結構翻譯過來的忠實版本；自然書面中文是更流暢、更符合中文書面語習慣的寫法；口語化中文是平時說話那種隨意的表達；反問式中文是用問句形式來表達同一個邏輯判斷（比如"他不就是因為認真讀題才通過考試的嗎？"）；擾動中文則是加入了干擾資訊、詞序變化或者語用歧義的版本。這三千道題，每道的邏輯答案是固定的（"是"或"否"），只有表達外殼不同。

第二部分叫做"困難對齊集"（Difficult aligned set）。研究團隊從數理邏輯教科書中精選了40個高難度邏輯骨架，這些題目涉及量詞交換（比如"對所有x存在y"和"存在y對所有x"在邏輯上完全不同，但中文表達很容易混淆）、關係屬性（傳遞性、反傳遞性、對稱性、反對稱性）、唯一性和等價性推理。這40個骨架同樣各自實例化為50道題，共2000道，每道也配有英文版和五種中文版。

第三部分叫做"純中文集"（Chinese-only set）。這部分完全沒有英文對照，專門針對中文獨有的語言現象。研究團隊設計了15種現象類型，每種100道題，共1500道。這15種現象包括：條件標記詞的區分（"只要A就B"表示A是B的充分條件，而"只有A才B"表示A是B的必要條件，兩者邏輯方向完全不同）、部分否定與全稱否定（"不都是"和"都不是"在中文裡很容易混淆，但邏輯含義截然不同）、"不一定"與"一定不"的區別、多重否定、反問句（反問句的字面意思和實際意思往往相反）、省略成分（中文句子裡經常省略主語或賓語，但AI需要能猜出省略的是誰）、多義詞、分詞歧義（同一串漢字可以切分出不同的詞，產生不同意思）、模糊量詞（"大多數""基本上""不少"這類詞的邏輯力度是模糊的）、比較結構、時序與因果的混淆（"A之後B發生了"不等於"因為A所以B"）、讓步與轉折、反諷與諷刺（字面說的和真實意思相反）、成語與網路用語（不能從字面意思推斷邏輯含義）以及規則式中文、品牌名稱和諧音詞造成的概念混淆。

贊助商廣告

在題目標籤設計上，通用對齊集和困難對齊集只有兩個標籤——"是"和"否"。"是"表示結論確實能從前提中合理推出；"否"表示結論要麼被前提反駁，要麼推理方式本身是無效的（即使結論本身不是明顯錯誤的）。純中文集則多了第三個標籤——"不確定"，專門用於那些因為中文表達的模糊性，使得單憑給定資訊真的無法判斷結論是否成立的情況。

**三、"考官"是如何出題的？**

整個題庫的構建流程就像一個嚴格的質檢流水線，分為六道工序，人機協作完成。

流程的起點是由研究人員手工確定邏輯模板、前提條件、目標問題和正確答案——邏輯骨架和標準答案是人定的，AI只是負責給這個骨架套上不同的語言外衣。出題時，DeepSeek-V3 四川大學與華為2012實驗室聯手揭秘為什麼AI做邏輯題時中文版會突然變笨負責生成六個版本的表述（一個英文，五個中文），Yi-1.5-34B-Chat則充當獨立"審查員"，檢查每個版本是否忠實地保留了原始前提、目標問題和正確答案，有沒有偷偷加進新的前提，或者刪掉了判斷所必需的資訊。在這一輪檢查中，共有300道候選題被標記為需要修改，隨後由DeepSeek-V3重新生成修訂版本。最終，所有留下來的題目還要經過人工審查員的逐一審核，確認中文表達是否自然流暢、語義是否與邏輯模板對齊，有100道題在這一關進行了手工修訂，沒有任何題目被直接廢棄。整個過程中，被用來接受測試的Qwen3、Ministral和GLM等AI模型完全沒有參與題庫構建，避免了"自己出題自己考"的問題。

這套製作流程的精髓在於：邏輯結構和答案由人類鎖定，AI只負責語言層面的創作，並由另一個AI進行初步質檢，人類做最終把關。

**四、AI們在考場上表現如何？**

研究團隊選擇了五款當時頗具代表性的大型語言模型參與測試：Qwen3系列（包括0.6B、8B、14B、32B四個規模版本）、Ministral系列（3B和8B兩個版本）以及GLM-5.1。所有模型都在零樣本設置下作答——也就是說，AI沒有事先看過任何類似的例題，直接上場。

贊助商廣告

測試結果揭示了一個清晰的規律，像是一幅凸顯中英文鴻溝的地圖。以GLM-5.1為例，它在通用對齊集的英文題上能拿到98.30%的正確率，幾乎接近滿分；但面對同樣邏輯內容的反問式中文版本，正確率跌到了78.89%，足足下降了近20個百分點。在更難的困難對齊集上，這種落差更加明顯：GLM-5.1的英文正確率是84.70%，但面對反問式中文版本時，正確率只剩下52.30%，基本上接近瞎猜的水平。

Qwen3-32B是所有參測模型里整體表現最強的。它在通用英文題上幾乎完美，達到99.07%；在通用中文的五種變體上，標準中文95.73%、自然書面中文93.33%、口語化中文95.70%、擾動中文97.00%，只有反問式中文稍微低一些，也有93.53%。這說明足夠大的模型在常規邏輯題上已經相當能適應各種中文表達。但一旦切換到困難集，Qwen3-32B的英文正確率是96.05%，而反問式中文版本立刻跌到了69.35%，差距依然觸目驚心。

Qwen3-8B的情況則更能說明模型規模的影響。它的通用英文正確率是98.40%，看起來很好；但通用中文五個變體的平均正確率只有79.61%，反問式中文更是只有68.69%。困難集上的英文是80.50%，反問式中文直接跌到34%。這個數字意味著在這類題上，Qwen3-8B的表現還不如隨機猜測兩倍準確——因為題目只有"是"和"否"兩個選項，隨機猜測的期望正確率已經有50%了。

更值得關注的是模型規模與中文魯棒性的關係。在Qwen3系列內部，隨著模型從8B擴展到14B再到32B，通用中文題的平均正確率從79.61%升到85.28%再升到95.06%。提升最明顯的恰恰是反問式和擾動式這兩類最"非常規"的中文表達，反問式從68.69%一路漲到93.53%。這說明更大的模型確實在"讀懂"非標準中文表達方面有顯著進步。但即便是最大的Qwen3-32B，在困難集的反問式中文上也只有69.35%，說明這個問題並沒有被規模完全解決。

Ministral-8B呈現出一個有趣的反常現象：它的通用英文正確率是92.03%，比幾個Qwen3的大模型低不少，但在困難集的某些中文變體上，它的表現反而比更強的模型更好。比如困難集的自然書面中文，Ministral-8B達到77.05%，比Qwen3-8B的61.58%和Qwen3-14B的60.42%都高出一截。這說明"英文邏輯準確率高"和"中文邏輯魯棒性強"並不是同一回事，是兩種可以相對獨立發展的能力。

贊助商廣告

Qwen3-0.6B和Ministral-3B的表現則暴露了另一類問題：它們的分數不是真正意義上的邏輯推理，而是被答案分布帶跑偏了。Qwen3-0.6B幾乎對所有題目都回答"是"，而通用對齊集恰好有78.33%的題目答案就是"是"，所以它"無腦"回答"是"也能得到78.30%的正確率——這顯然不是真正的推理。Ministral-3B則相反，它極度傾向於回答"否"，而在某些"否"答案占多數的題型上就顯得格外"準確"，但在"是"答案占多數的題型上幾乎全軍覆沒。研究團隊專門為這兩個模型做了更細緻的偏差感知指標分析，發現它們的平衡準確率（即在"是"和"否"兩類題上分別計算準確率後取平均）遠比總體準確率低，Qwen3-0.6B的平衡準確率只有50%，完全等於隨機猜測。

**五、到底是"看不懂邏輯"還是"讀不懂中文"？**

光知道AI在中文上分數低還不夠，研究團隊想進一步搞清楚：AI的錯誤到底是因為它不會邏輯推理，還是因為它沒能從中文表達中正確理解邏輯結構？這兩者的區別很重要，就好比一個人解不出數學題，你需要先判斷他是不懂數學，還是看不懂題目的中文描述。

為了區分這兩種錯誤來源，研究團隊設計了"回譯探針"實驗。做法是把標準中文版本用DeepSeek-V3翻譯回英文，然後用這個"經過中文轉了一圈再回來"的英文版本重新測試AI，看看分數會怎麼變化。

在通用對齊集上，回譯的效果非常顯著。Qwen3-8B在標準中文上的正確率是90.53%，翻譯回英文後飆升到99.10%，幾乎追平了直接用英文原版的98.40%。Qwen3-32B從95.73%升到99.30%，GLM-5.1從92.60%升到97.73%。這個模式在幾乎所有模型和所有邏輯家族上都成立，尤其是命題等價法則、謂詞基礎和量詞等價法則這些類別，回譯後的提升最為明顯。這強烈暗示：在通用邏輯任務上，AI的中文錯誤中有相當大一部分不是因為它不懂邏輯，而是因為它沒能從中文表達中準確"解碼"出邏輯結構。一旦把中文轉換回英文，那層語言障礙消失了，AI的邏輯推理能力就能重新發揮出來。

贊助商廣告

但在困難對齊集上，情況就複雜多了。Qwen3-8B和Qwen3-14B回譯後有明顯提升（分別提高22.10和23.47個百分點）；Ministral-8B小幅提升了3.10個百分點；但Qwen3-32B回譯後反而下降了4.10個百分點（從83.10%跌到79.00%），GLM-5.1更是大幅下滑了18.05個百分點（從81.00%跌到62.95%）。這說明回譯並不是一個中立的"去除中文噪音"的操作——翻譯本身可能簡化了措辭、改變了語氣、丟失了有助於判斷的細節，甚至引入了新的英文歧義。對於足夠強大的模型來說，原版中文裡其實包含了有用的資訊，回譯反而幫了倒忙。

在純中文集的15種現象上，回譯的效果也是高度分化的。對於省略成分類（原本中文省略了主語或賓語，回譯後補全了），Ministral-8B的正確率從20%一躍到100%，堪稱戲劇性反轉。時序與因果混淆類也有類似效果。模糊量詞類在多個模型上回譯後都有大幅提升。然而，反諷類題目在Qwen3-14B上回譯後從79%大幅跌到18%，諧音詞和品牌名稱類在Ministral-8B上從98%跌到30%。這兩類現象之所以回譯後變差，是因為諷刺的語氣和諧音造成的雙關在翻譯過程中被抹平了，原本AI還能靠中文語境猜出來，翻譯成直白英文後反而失去了線索。

**六、哪些邏輯類型最容易讓AI在中文裡出錯？**

研究團隊還對不同邏輯模板類型的錯誤進行了深入分析，發現了幾個特別容易踩坑的區域。

命題等價法則是最穩定的"絆腳石"。所謂等價法則，指的是一些像數學恆等式一樣成立的邏輯變換，比如"非(P且Q)"等價於"(非P)或(非Q)"（這就是著名的德摩根定律）。在英文裡，Ministral-8B對這類題的正確率是94.67%，但標準中文只有23.56%，反問式中文更只有8.00%——幾乎就是在瞎猜。GLM-5.1在英文等價法則上有98.22%的準確率，標準中文78.22%，但自然書面中文只剩34.44%，反問式中文43.33%。這說明等價關係需要全局追蹤和真值條件比較，而中文的各種改寫方式極容易打亂這種精確追蹤。

贊助商廣告

無效推理與邏輯謬誤類的情況則出現了一個反直覺的現象：在某些謬誤模板上，中文版本的正確率反而高於英文版本。以Ministral-3B為例，它在英文無效推理題上得了91.50%，但五種中文版本上竟然全部達到100%。Ministral-8B在英文無效推理上73.25%，但標準中文達到94.75%。研究團隊的解釋是：某些謬誤在中文的"忠實翻譯"版本里表達得更清晰、更直白，讓無效推理的錯誤更容易被識別出來；而英文原版可能因為措辭太簡潔，反而讓AI沒有足夠的語義線索去判斷。這個發現非常重要，它提醒我們不能籠統地說"AI在邏輯謬誤上表現差"——準確的說法應該是"AI在識別邏輯謬誤方面對表達方式極度敏感，同一個謬誤用不同語言或不同措辭寫出來，識別率可以相差懸殊"。

研究團隊還進行了一組針對性的增強實驗：專門選出幾個英文原版正確率出人意料地低的邏輯模板，然後製作了措辭更加明確、邏輯關係交代得更清楚的增強版英文表述。結果顯示效果非常顯著——對於Qwen3-8B，"分支推理"類模板的英文原版正確率只有10%，增強版直接達到100%；Qwen3-14B在分支推理上英文原版是0%，增強版同樣到了100%。"無效量詞分配"、"存在謬誤"、"大項不當"、"小項不當"等模板上也出現了類似的大幅提升。這再次證明：AI的許多邏輯錯誤根源在於讀不准表達方式，而不是真的不懂背後的邏輯規則。

**七、中文獨有的語言現象，AI應對得怎麼樣？**

在純中文集的15類現象上，不同模型展現出了截然不同的強項和弱點，整體正確率也普遍低於通用對齊集，說明這部分確實更難。

條件標記詞（只要/只有/除非/否則）是區分充分條件與必要條件的核心，多數模型在這類題上的正確率只在60%至78%之間，遠未達到令人滿意的水平。部分否定與全稱否定（不都是 vs. 都不是）同樣困難，Ministral-8B只有43%，Qwen3-32B只有51%。時序與因果混淆是所有現象類型中最難的，Ministral-8B的原始中文正確率竟然是0%，其他模型也普遍在13%至40%之間——大約與隨機猜測旗鼓相當。模糊量詞類的Qwen3-32B只有10%，Ministral-8B只有12%，GLM-5.1表現最好但也只有91%。

贊助商廣告

相比之下，多義詞與同形字類、品牌名和諧音詞類、法規規則式中文等現象上，多數模型表現較好，正確率普遍在80%至100%之間，說明現代大模型對這些表層詞彙特徵的處理已經較為成熟。反諷類在Qwen3-32B上有96%，GLM-5.1有95%，Ministral-8B竟然也達到100%——這有些出乎意料，說明這些模型在識別中文反諷的常見句式上還是有一定積累的。

**八、所有這些發現意味著什麼？**

歸根結底，這項研究用嚴謹的數據告訴我們一件很有價值的事：當今最強大的AI在邏輯推理上的能力，有很大一部分是"英文特權"——它們在英文邏輯題上磨礪出來的本領，並不能自動遷移到中文的各種表達方式上，尤其是那些利用了中文特有句式、語氣、量詞或語用現象的表達。

這背後有兩層獨立的挑戰。第一層是"讀懂邏輯結構"——從一句話里正確提取出邏輯關係（誰是條件，誰是結論，否定的是哪一部分）。第二層是"按邏輯推理"——在讀懂結構之後，正確地判斷結論是否成立。現有的大多數邏輯基準測試主要考的是第二層。而CHLOGIC的特殊價值在於，它通過把邏輯結構固定、只改變中文表達方式，把第一層的挑戰單獨剝離出來，讓我們能清楚地看到：相當多的錯誤，其實發生在第二層推理開始之前的第一層"解碼"階段。

研究結果還有一個實踐啟示：當AI系統被部署在中文自然語言處理場景中，比如合同審查、規則判定、邏輯問答等需要精確邏輯判斷的場合，僅憑英文基準測試上的高分，並不能保證中文場景下的可靠性。尤其是在涉及反問、多重否定、條件標記詞混淆、時序因果混淆等中文特有表達時，AI的判斷可能會出現令人意外的錯誤。

當然，這項研究也有其局限性。CHLOGIC是基於模板驅動的合成數據集，覆蓋的是結構化的邏輯推理場景，並不能代表日常語言中所有類型的推理。參與測試的模型只有七個，而且AI模型的能力還在持續疊代更新。儘管題目經過嚴格的人工審核，用AI生成的中文變體也可能殘留一些不自然的痕跡。回譯實驗本身也是一個經過AI中介處理的變換，並不是真正"中性"地去除了中文影響，而是引入了翻譯層面的新變量。

贊助商廣告

CHLOGIC最重要的貢獻，不是宣布AI有多差或多好，而是提供了一個可以細粒度、可重複、可控地衡量"多語言邏輯魯棒性"的工具。有了這個工具，未來的研究者可以更清楚地追蹤：當模型疊代改進後，中文邏輯理解的哪些弱點被修復了，哪些依然存在，從而為AI在多語言環境下的實際可靠性提供更有說服力的評估依據。

---

Q&A

Q1：CHLOGIC基準測試和普通的邏輯推理數據集有什麼區別？

A：普通邏輯推理數據集大多是英文的，或者即便有中文版也只是簡單翻譯，無法區分模型到底是"不懂邏輯"還是"讀不懂中文表達"。CHLOGIC的特殊之處在於，它把同一個邏輯結構同時用英文和五種不同風格的中文寫出來，而且答案是鎖定的。這樣，如果模型在英文上答對、在中文上答錯，就說明錯誤出在語言解碼階段，而非推理階段本身，為診斷AI的中文邏輯弱點提供了更精準的工具。

Q2：中文裡的"只要"和"只有"為什麼會讓AI產生邏輯錯誤？

A：這兩個詞在日常中文裡看起來很相似，但邏輯含義完全不同。"只要A就B"表示A是B的充分條件，意思是有A就必然有B；"只有A才B"表示A是B的必要條件，意思是沒有A就不會有B。兩個方向恰好相反。AI在處理這類題時，如果沒有準確捕捉到這個區別，就會把充分條件和必要條件搞混，得出錯誤的邏輯結論，而這類錯誤在CHLOGIC的測試中非常普遍。

Q3：回譯實驗為什麼在困難題上反而讓AI表現變差？

A：回譯（把中文翻譯回英文後再測試）在簡單題上通常有幫助，因為它消除了中文表達帶來的歧義。但在困難題上，情況會反過來：原版中文可能包含一些有助於判斷的語境線索，翻譯成英文後這些線索丟失了。此外，翻譯本身可能引入英文表達的新歧義，或者改變措辭的精確度。對於Qwen3-32B和GLM-5.1這類足夠強的模型，原版中文反而是更好的輸入，回譯後分數反而下降了。