宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

四川大學與華為2012實驗室聯手揭秘:為什麼AI做邏輯題時「中文版」會突然變笨?

2026年06月19日 首頁 » 熱門科技

這項由四川大學數學學院與華為技術有限公司2012實驗室理論實驗室聯合開展的研究,於2026年6月16日以預印本形式發布在arXiv平台,編號為arXiv:2606.17905v1,研究方向歸屬於電腦科學中的計算與語言領域(cs.CL)。感興趣的讀者可以通過該編號在arXiv上查閱完整論文。

你有沒有遇到過這樣一個生活場景:同一道邏輯謎題,用英文寫出來,AI秒秒鐘給出正確答案;但換成中文,哪怕意思完全一樣,AI就開始磕磕絆絆,甚至給出截然相反的結論?這背後到底發生了什麼?研究團隊為了搞清楚這個問題,專門設計了一套叫做"CHLOGIC"的測試工具,像一個精密的語言檢測儀,專門用來量化AI在中英文邏輯推理之間的能力差距。

**一、一張考卷,兩種語言,測出AI的"中文軟肋"**

要理解這項研究做了什麼,可以先想像一個場景:某個學生用英語考試能得滿分,但同樣的試卷翻譯成中文後,他的分數卻大幅下滑。這並不是因為題目的邏輯變了,而是因為語言本身帶來的"包裝"讓他產生了誤解。AI面對邏輯推理任務時,恰恰存在類似的問題。

現有的邏輯推理基準測試(也就是用來衡量AI能力的標準化考題集)大多是英文的,或者即便有中文版本,也只是簡單翻譯,並沒有系統地檢驗:當同一個邏輯結構以不同的中文表達方式呈現時,AI的判斷是否還保持一致。CHLOGIC就是為了填補這個空白而誕生的。

研究團隊構建CHLOGIC的核心思路,就像是給同一塊樂高積木套上不同顏色的外殼,然後問AI:"這些外殼裡裝的是同一種積木嗎?"邏輯結構是固定不變的積木本體,而中英文的不同表達方式就是五花八門的外殼。如果AI真的理解了邏輯本質,那不管外殼怎麼變,它的判斷都應該保持一致。

**二、這套考卷究竟是怎麼設計的?**

CHLOGIC由三個部分組成,各有側重,共同構成一個覆蓋面廣、難度分層的測試體系。

第一部分叫做"通用對齊集"(General aligned set)。研究團隊從九大邏輯模板家族中提煉出60條基礎邏輯命題,涵蓋從最基礎的"如果P則Q,P成立,那麼Q成立"(這叫假言推斷,日常生活中無處不在)到更複雜的關係邏輯和多步推理鏈條。每條命題被實例化為50個具體場景(比如把抽象的"P→Q"替換為"如果李明認真讀題,那麼他會通過考試"這樣的具體故事),一共生成3000道題。每道題都有一個英文版本,外加五個中文版本。五種中文版本各有特色:標準中文是直接照著英文邏輯結構翻譯過來的忠實版本;自然書面中文是更流暢、更符合中文書面語習慣的寫法;口語化中文是平時說話那種隨意的表達;反問式中文是用問句形式來表達同一個邏輯判斷(比如"他不就是因為認真讀題才通過考試的嗎?");擾動中文則是加入了干擾資訊、詞序變化或者語用歧義的版本。這三千道題,每道的邏輯答案是固定的("是"或"否"),只有表達外殼不同。

第二部分叫做"困難對齊集"(Difficult aligned set)。研究團隊從數理邏輯教科書中精選了40個高難度邏輯骨架,這些題目涉及量詞交換(比如"對所有x存在y"和"存在y對所有x"在邏輯上完全不同,但中文表達很容易混淆)、關係屬性(傳遞性、反傳遞性、對稱性、反對稱性)、唯一性和等價性推理。這40個骨架同樣各自實例化為50道題,共2000道,每道也配有英文版和五種中文版。

第三部分叫做"純中文集"(Chinese-only set)。這部分完全沒有英文對照,專門針對中文獨有的語言現象。研究團隊設計了15種現象類型,每種100道題,共1500道。這15種現象包括:條件標記詞的區分("只要A就B"表示A是B的充分條件,而"只有A才B"表示A是B的必要條件,兩者邏輯方向完全不同)、部分否定與全稱否定("不都是"和"都不是"在中文裡很容易混淆,但邏輯含義截然不同)、"不一定"與"一定不"的區別、多重否定、反問句(反問句的字面意思和實際意思往往相反)、省略成分(中文句子裡經常省略主語或賓語,但AI需要能猜出省略的是誰)、多義詞、分詞歧義(同一串漢字可以切分出不同的詞,產生不同意思)、模糊量詞("大多數""基本上""不少"這類詞的邏輯力度是模糊的)、比較結構、時序與因果的混淆("A之後B發生了"不等於"因為A所以B")、讓步與轉折、反諷與諷刺(字面說的和真實意思相反)、成語與網路用語(不能從字面意思推斷邏輯含義)以及規則式中文、品牌名稱和諧音詞造成的概念混淆。

在題目標籤設計上,通用對齊集和困難對齊集只有兩個標籤——"是"和"否"。"是"表示結論確實能從前提中合理推出;"否"表示結論要麼被前提反駁,要麼推理方式本身是無效的(即使結論本身不是明顯錯誤的)。純中文集則多了第三個標籤——"不確定",專門用於那些因為中文表達的模糊性,使得單憑給定資訊真的無法判斷結論是否成立的情況。

**三、"考官"是如何出題的?**

整個題庫的構建流程就像一個嚴格的質檢流水線,分為六道工序,人機協作完成。

流程的起點是由研究人員手工確定邏輯模板、前提條件、目標問題和正確答案——邏輯骨架和標準答案是人定的,AI只是負責給這個骨架套上不同的語言外衣。出題時,DeepSeek-V3四川大學與華為2012實驗室聯手揭秘為什麼AI做邏輯題時中文版會突然變笨負責生成六個版本的表述(一個英文,五個中文),Yi-1.5-34B-Chat則充當獨立"審查員",檢查每個版本是否忠實地保留了原始前提、目標問題和正確答案,有沒有偷偷加進新的前提,或者刪掉了判斷所必需的資訊。在這一輪檢查中,共有300道候選題被標記為需要修改,隨後由DeepSeek-V3重新生成修訂版本。最終,所有留下來的題目還要經過人工審查員的逐一審核,確認中文表達是否自然流暢、語義是否與邏輯模板對齊,有100道題在這一關進行了手工修訂,沒有任何題目被直接廢棄。整個過程中,被用來接受測試的Qwen3、Ministral和GLM等AI模型完全沒有參與題庫構建,避免了"自己出題自己考"的問題。

這套製作流程的精髓在於:邏輯結構和答案由人類鎖定,AI只負責語言層面的創作,並由另一個AI進行初步質檢,人類做最終把關。

**四、AI們在考場上表現如何?**

研究團隊選擇了五款當時頗具代表性的大型語言模型參與測試:Qwen3系列(包括0.6B、8B、14B、32B四個規模版本)、Ministral系列(3B和8B兩個版本)以及GLM-5.1。所有模型都在零樣本設置下作答——也就是說,AI沒有事先看過任何類似的例題,直接上場。

測試結果揭示了一個清晰的規律,像是一幅凸顯中英文鴻溝的地圖。以GLM-5.1為例,它在通用對齊集的英文題上能拿到98.30%的正確率,幾乎接近滿分;但面對同樣邏輯內容的反問式中文版本,正確率跌到了78.89%,足足下降了近20個百分點。在更難的困難對齊集上,這種落差更加明顯:GLM-5.1的英文正確率是84.70%,但面對反問式中文版本時,正確率只剩下52.30%,基本上接近瞎猜的水平。

Qwen3-32B是所有參測模型里整體表現最強的。它在通用英文題上幾乎完美,達到99.07%;在通用中文的五種變體上,標準中文95.73%、自然書面中文93.33%、口語化中文95.70%、擾動中文97.00%,只有反問式中文稍微低一些,也有93.53%。這說明足夠大的模型在常規邏輯題上已經相當能適應各種中文表達。但一旦切換到困難集,Qwen3-32B的英文正確率是96.05%,而反問式中文版本立刻跌到了69.35%,差距依然觸目驚心。

Qwen3-8B的情況則更能說明模型規模的影響。它的通用英文正確率是98.40%,看起來很好;但通用中文五個變體的平均正確率只有79.61%,反問式中文更是只有68.69%。困難集上的英文是80.50%,反問式中文直接跌到34%。這個數字意味著在這類題上,Qwen3-8B的表現還不如隨機猜測兩倍準確——因為題目只有"是"和"否"兩個選項,隨機猜測的期望正確率已經有50%了。

更值得關注的是模型規模與中文魯棒性的關係。在Qwen3系列內部,隨著模型從8B擴展到14B再到32B,通用中文題的平均正確率從79.61%升到85.28%再升到95.06%。提升最明顯的恰恰是反問式和擾動式這兩類最"非常規"的中文表達,反問式從68.69%一路漲到93.53%。這說明更大的模型確實在"讀懂"非標準中文表達方面有顯著進步。但即便是最大的Qwen3-32B,在困難集的反問式中文上也只有69.35%,說明這個問題並沒有被規模完全解決。

Ministral-8B呈現出一個有趣的反常現象:它的通用英文正確率是92.03%,比幾個Qwen3的大模型低不少,但在困難集的某些中文變體上,它的表現反而比更強的模型更好。比如困難集的自然書面中文,Ministral-8B達到77.05%,比Qwen3-8B的61.58%和Qwen3-14B的60.42%都高出一截。這說明"英文邏輯準確率高"和"中文邏輯魯棒性強"並不是同一回事,是兩種可以相對獨立發展的能力。

Qwen3-0.6B和Ministral-3B的表現則暴露了另一類問題:它們的分數不是真正意義上的邏輯推理,而是被答案分布帶跑偏了。Qwen3-0.6B幾乎對所有題目都回答"是",而通用對齊集恰好有78.33%的題目答案就是"是",所以它"無腦"回答"是"也能得到78.30%的正確率——這顯然不是真正的推理。Ministral-3B則相反,它極度傾向於回答"否",而在某些"否"答案占多數的題型上就顯得格外"準確",但在"是"答案占多數的題型上幾乎全軍覆沒。研究團隊專門為這兩個模型做了更細緻的偏差感知指標分析,發現它們的平衡準確率(即在"是"和"否"兩類題上分別計算準確率後取平均)遠比總體準確率低,Qwen3-0.6B的平衡準確率只有50%,完全等於隨機猜測。

**五、到底是"看不懂邏輯"還是"讀不懂中文"?**

光知道AI在中文上分數低還不夠,研究團隊想進一步搞清楚:AI的錯誤到底是因為它不會邏輯推理,還是因為它沒能從中文表達中正確理解邏輯結構?這兩者的區別很重要,就好比一個人解不出數學題,你需要先判斷他是不懂數學,還是看不懂題目的中文描述。

為了區分這兩種錯誤來源,研究團隊設計了"回譯探針"實驗。做法是把標準中文版本用DeepSeek-V3翻譯回英文,然後用這個"經過中文轉了一圈再回來"的英文版本重新測試AI,看看分數會怎麼變化。

在通用對齊集上,回譯的效果非常顯著。Qwen3-8B在標準中文上的正確率是90.53%,翻譯回英文後飆升到99.10%,幾乎追平了直接用英文原版的98.40%。Qwen3-32B從95.73%升到99.30%,GLM-5.1從92.60%升到97.73%。這個模式在幾乎所有模型和所有邏輯家族上都成立,尤其是命題等價法則、謂詞基礎和量詞等價法則這些類別,回譯後的提升最為明顯。這強烈暗示:在通用邏輯任務上,AI的中文錯誤中有相當大一部分不是因為它不懂邏輯,而是因為它沒能從中文表達中準確"解碼"出邏輯結構。一旦把中文轉換回英文,那層語言障礙消失了,AI的邏輯推理能力就能重新發揮出來。

但在困難對齊集上,情況就複雜多了。Qwen3-8B和Qwen3-14B回譯後有明顯提升(分別提高22.10和23.47個百分點);Ministral-8B小幅提升了3.10個百分點;但Qwen3-32B回譯後反而下降了4.10個百分點(從83.10%跌到79.00%),GLM-5.1更是大幅下滑了18.05個百分點(從81.00%跌到62.95%)。這說明回譯並不是一個中立的"去除中文噪音"的操作——翻譯本身可能簡化了措辭、改變了語氣、丟失了有助於判斷的細節,甚至引入了新的英文歧義。對於足夠強大的模型來說,原版中文裡其實包含了有用的資訊,回譯反而幫了倒忙。

在純中文集的15種現象上,回譯的效果也是高度分化的。對於省略成分類(原本中文省略了主語或賓語,回譯後補全了),Ministral-8B的正確率從20%一躍到100%,堪稱戲劇性反轉。時序與因果混淆類也有類似效果。模糊量詞類在多個模型上回譯後都有大幅提升。然而,反諷類題目在Qwen3-14B上回譯後從79%大幅跌到18%,諧音詞和品牌名稱類在Ministral-8B上從98%跌到30%。這兩類現象之所以回譯後變差,是因為諷刺的語氣和諧音造成的雙關在翻譯過程中被抹平了,原本AI還能靠中文語境猜出來,翻譯成直白英文後反而失去了線索。

**六、哪些邏輯類型最容易讓AI在中文裡出錯?**

研究團隊還對不同邏輯模板類型的錯誤進行了深入分析,發現了幾個特別容易踩坑的區域。

命題等價法則是最穩定的"絆腳石"。所謂等價法則,指的是一些像數學恆等式一樣成立的邏輯變換,比如"非(P且Q)"等價於"(非P)或(非Q)"(這就是著名的德摩根定律)。在英文裡,Ministral-8B對這類題的正確率是94.67%,但標準中文只有23.56%,反問式中文更只有8.00%——幾乎就是在瞎猜。GLM-5.1在英文等價法則上有98.22%的準確率,標準中文78.22%,但自然書面中文只剩34.44%,反問式中文43.33%。這說明等價關係需要全局追蹤和真值條件比較,而中文的各種改寫方式極容易打亂這種精確追蹤。

無效推理與邏輯謬誤類的情況則出現了一個反直覺的現象:在某些謬誤模板上,中文版本的正確率反而高於英文版本。以Ministral-3B為例,它在英文無效推理題上得了91.50%,但五種中文版本上竟然全部達到100%。Ministral-8B在英文無效推理上73.25%,但標準中文達到94.75%。研究團隊的解釋是:某些謬誤在中文的"忠實翻譯"版本里表達得更清晰、更直白,讓無效推理的錯誤更容易被識別出來;而英文原版可能因為措辭太簡潔,反而讓AI沒有足夠的語義線索去判斷。這個發現非常重要,它提醒我們不能籠統地說"AI在邏輯謬誤上表現差"——準確的說法應該是"AI在識別邏輯謬誤方面對表達方式極度敏感,同一個謬誤用不同語言或不同措辭寫出來,識別率可以相差懸殊"。

研究團隊還進行了一組針對性的增強實驗:專門選出幾個英文原版正確率出人意料地低的邏輯模板,然後製作了措辭更加明確、邏輯關係交代得更清楚的增強版英文表述。結果顯示效果非常顯著——對於Qwen3-8B,"分支推理"類模板的英文原版正確率只有10%,增強版直接達到100%;Qwen3-14B在分支推理上英文原版是0%,增強版同樣到了100%。"無效量詞分配"、"存在謬誤"、"大項不當"、"小項不當"等模板上也出現了類似的大幅提升。這再次證明:AI的許多邏輯錯誤根源在於讀不准表達方式,而不是真的不懂背後的邏輯規則。

**七、中文獨有的語言現象,AI應對得怎麼樣?**

在純中文集的15類現象上,不同模型展現出了截然不同的強項和弱點,整體正確率也普遍低於通用對齊集,說明這部分確實更難。

條件標記詞(只要/只有/除非/否則)是區分充分條件與必要條件的核心,多數模型在這類題上的正確率只在60%至78%之間,遠未達到令人滿意的水平。部分否定與全稱否定(不都是 vs. 都不是)同樣困難,Ministral-8B只有43%,Qwen3-32B只有51%。時序與因果混淆是所有現象類型中最難的,Ministral-8B的原始中文正確率竟然是0%,其他模型也普遍在13%至40%之間——大約與隨機猜測旗鼓相當。模糊量詞類的Qwen3-32B只有10%,Ministral-8B只有12%,GLM-5.1表現最好但也只有91%。

相比之下,多義詞與同形字類、品牌名和諧音詞類、法規規則式中文等現象上,多數模型表現較好,正確率普遍在80%至100%之間,說明現代大模型對這些表層詞彙特徵的處理已經較為成熟。反諷類在Qwen3-32B上有96%,GLM-5.1有95%,Ministral-8B竟然也達到100%——這有些出乎意料,說明這些模型在識別中文反諷的常見句式上還是有一定積累的。

**八、所有這些發現意味著什麼?**

歸根結底,這項研究用嚴謹的數據告訴我們一件很有價值的事:當今最強大的AI在邏輯推理上的能力,有很大一部分是"英文特權"——它們在英文邏輯題上磨礪出來的本領,並不能自動遷移到中文的各種表達方式上,尤其是那些利用了中文特有句式、語氣、量詞或語用現象的表達。

這背後有兩層獨立的挑戰。第一層是"讀懂邏輯結構"——從一句話里正確提取出邏輯關係(誰是條件,誰是結論,否定的是哪一部分)。第二層是"按邏輯推理"——在讀懂結構之後,正確地判斷結論是否成立。現有的大多數邏輯基準測試主要考的是第二層。而CHLOGIC的特殊價值在於,它通過把邏輯結構固定、只改變中文表達方式,把第一層的挑戰單獨剝離出來,讓我們能清楚地看到:相當多的錯誤,其實發生在第二層推理開始之前的第一層"解碼"階段。

研究結果還有一個實踐啟示:當AI系統被部署在中文自然語言處理場景中,比如合同審查、規則判定、邏輯問答等需要精確邏輯判斷的場合,僅憑英文基準測試上的高分,並不能保證中文場景下的可靠性。尤其是在涉及反問、多重否定、條件標記詞混淆、時序因果混淆等中文特有表達時,AI的判斷可能會出現令人意外的錯誤。

當然,這項研究也有其局限性。CHLOGIC是基於模板驅動的合成數據集,覆蓋的是結構化的邏輯推理場景,並不能代表日常語言中所有類型的推理。參與測試的模型只有七個,而且AI模型的能力還在持續疊代更新。儘管題目經過嚴格的人工審核,用AI生成的中文變體也可能殘留一些不自然的痕跡。回譯實驗本身也是一個經過AI中介處理的變換,並不是真正"中性"地去除了中文影響,而是引入了翻譯層面的新變量。

CHLOGIC最重要的貢獻,不是宣布AI有多差或多好,而是提供了一個可以細粒度、可重複、可控地衡量"多語言邏輯魯棒性"的工具。有了這個工具,未來的研究者可以更清楚地追蹤:當模型疊代改進後,中文邏輯理解的哪些弱點被修復了,哪些依然存在,從而為AI在多語言環境下的實際可靠性提供更有說服力的評估依據。

---

Q&A

Q1:CHLOGIC基準測試和普通的邏輯推理數據集有什麼區別?

A:普通邏輯推理數據集大多是英文的,或者即便有中文版也只是簡單翻譯,無法區分模型到底是"不懂邏輯"還是"讀不懂中文表達"。CHLOGIC的特殊之處在於,它把同一個邏輯結構同時用英文和五種不同風格的中文寫出來,而且答案是鎖定的。這樣,如果模型在英文上答對、在中文上答錯,就說明錯誤出在語言解碼階段,而非推理階段本身,為診斷AI的中文邏輯弱點提供了更精準的工具。

Q2:中文裡的"只要"和"只有"為什麼會讓AI產生邏輯錯誤?

A:這兩個詞在日常中文裡看起來很相似,但邏輯含義完全不同。"只要A就B"表示A是B的充分條件,意思是有A就必然有B;"只有A才B"表示A是B的必要條件,意思是沒有A就不會有B。兩個方向恰好相反。AI在處理這類題時,如果沒有準確捕捉到這個區別,就會把充分條件和必要條件搞混,得出錯誤的邏輯結論,而這類錯誤在CHLOGIC的測試中非常普遍。

Q3:回譯實驗為什麼在困難題上反而讓AI表現變差?

A:回譯(把中文翻譯回英文後再測試)在簡單題上通常有幫助,因為它消除了中文表達帶來的歧義。但在困難題上,情況會反過來:原版中文可能包含一些有助於判斷的語境線索,翻譯成英文後這些線索丟失了。此外,翻譯本身可能引入英文表達的新歧義,或者改變措辭的精確度。對於Qwen3-32B和GLM-5.1這類足夠強的模型,原版中文反而是更好的輸入,回譯後分數反而下降了。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新