OpenAI 科學家：為什麼大語言模型會產生幻覺？

這期內容比較特別，不是Big Name的商業方法論，而是技術分析課，由OpenAI研究科學家Adam Kalai在普林斯頓高等研究院所做的一場重要講座。Kalai曾是機器學習理論領域的知名學者，十五年前做出了一個在當時看來"反常"的決定，認為機器學習理論研究不如實踐有趣。

贊助商廣告

這場講座回答了一個被詞典選為年度詞彙的問題：為什麼語言模型會"幻覺"（hallucinate）？ Kalai的核心論點是：幻覺不是神秘的架構缺陷或推理失敗，主因是標準訓練和評估激勵機制的可預測後果。換句話說，不是模型出了問題，而是我們評價模型的方式出了問題。講座原文在油管Institute for Advanced Study 頻道，有大量的數學公式。

一、什麼是幻覺，為什麼它比你想像的更嚴重

講座一開始，Kalai就拋出了一個簡單的問題："PGGB代表什麼？"

現場沒有人回答——這正是Kalai想要的效果。

"我剛剛向你們證明了人類不會像語言模型那樣幻覺。有人說'人類也會像語言模型一樣幻覺，模型是從我們這裡學的'——我們不會。你們看到了，房間裡沒有人開始胡說八道。"

而語言模型則會"自信"地編造答案：

GPT

給出了三個不同的答案："Pulled Growth and Greenband"（網際網路上搜不到）、"Public Gaming Group of Belgium"（比利時人喜歡玩遊戲，肯定有這個組織吧？並沒有）、"Personal Growth and Golding"（聽起來很常見的術語，但根本不存在）

DeepSeek

給出了"Permutation of Go Given Barriers"——圍棋策略相關的胡編

Claude

給出了"Pacific Gas and Electric Company"——這家公司的縮寫是PG&E，連B都沒有。更荒謬的是，Claude還補充說"在某些語境下有時縮寫為PGGP"——問的是PGGB，它給的解釋是PGGP

"這很有趣，但也非常嚴重。今天就可能有人在詢問可能用於高風險決策的重要資訊，這可能造成真實傷害。"

Kalai還測試了自己的生日。他特意在提示中加入了"如果你知道，請只回答日期和月份"——明確給了模型說"我不知道"的選項。結果DeepSeek給了三個不同的錯誤猜測，ChatGPT給了兩個錯誤猜測，只有在第三次啟用"思考模式"後，模型花了1分26秒搜索，最後才承認不知道。

"好消息是我的生日不在網上。"Kalai說。

二、關於幻覺的四個常見誤解

誤解1：用準確率衡量幻覺

很多人看幻覺問題只看準確率，這是錯誤的思路。因為模型面對問題有三種選擇：回答正確、回答錯誤、或者說"我不知道"。80%的準確率可能意味著20%的錯誤率（這是幻覺），也可能意味著20%的"我不知道"（這不是幻覺）。真正衡量幻覺的指標是錯誤率，不是準確率。

贊助商廣告

誤解2：避免幻覺需要巨大的模型

Kalai半開玩笑地說：

"我認識的一些不那麼聰明的人，反而相當有自知之明。對我來說說'我不知道'很容易——你用俄語問我問題，我會直接告訴你我聽不懂。"

這其實是一個很好的學術挑戰方向：用小模型證明概念，做一個不幻覺的小語言模型，展示它有多實用，然後再把方法移植到大模型上。

誤解3：等準確率到100%就好了

問題在於，永遠會有無法回答的問題——涉及隱私的問題、資訊相互矛盾的問題、超出模型能力的數學問題。這時候模型需要說"我不知道"，而不是硬猜。

誤解4：幻覺要麼已解決，要麼永遠無法解決

兩種極端都不對。語言模型的幻覺率確實在下降，但還沒到人類的低水平。最終目標是讓模型以極低的概率幻覺，就像人類一樣。

有人問："說'我不知道'能達到100%正確嗎？會不會有哥德爾不完備性之類的理論障礙？"

Kalai回答："我不是說100%，但這個房間裡的人幻覺率極低，我認為模型應該達到那個極低的水平。要達到絕對的0%可能很難，取決於你怎麼定義。但你完全可以從一個只回答計算器問題、其他一概不答的聊天機器人開始——它就不會幻覺。"

三、核心理論：為什麼預訓練必然導致幻覺

這是講座最硬核的部分。Kalai提出了一個簡潔的理論框架來解釋幻覺的根源。

1、語言預測比分類更難

設想有兩個集合：有效陳述（valid）和錯誤陳述（error）。在傳統的二分類任務中，你同時看到正例和負例，學習區分它們。但在語言預訓練中，你只看到正例——訓練數據理論上都是"正確"的文本，模型從來沒見過"錯誤示範"。

"只從正例學習，應該比同時從正例和負例學習更難。"

這個直覺被形式化為一個定理：幻覺概率 ≥ 2倍分類錯誤概率 - 小項。

2、定理的核心洞察

如果存在一類事實，你根本無法學會區分正確和錯誤，那麼在這類問題上你必然會大量幻覺。

贊助商廣告

什麼樣的事實無法學會區分？比如人的生日——生日之間沒有規律可循，我告訴你房間左半邊人的生日，你不可能推斷出右半邊人的生日。在這類問題上，分類錯誤率接近50%（跟瞎猜差不多），對應的幻覺率就接近100%。

有人問："為什麼模型不能永遠說'我不知道'，或者只重複訓練數據里見過的內容？"

這是兩個理論上不幻覺的極端策略，但問題在於它們沒有"校準"（calibration）。什麼是校準？簡單說，就是模型對自己預測的置信度要準確——如果模型說某件事有70%的概率，那這件事真的應該在70%的情況下發生。

語言模型的訓練目標（最小化交叉熵損失，可以理解為讓模型預測的概率分布儘可能接近真實分布）天然會產生校準良好的模型。經驗觀察表明，語言模型說某件事有某個概率時，這件事確實以那個概率發生。而"永遠說我不知道"或"只重複訓練數據"這兩種策略，它們的概率預測是嚴重失真的，所以不會被訓練過程選中。

3、古德-圖靈估計器：量化幻覺率的下界

這個估計器來自圖靈的合作者Irving Good。圖靈當年研究的問題可以用釣魚來類比：你釣了100條魚，50條三文魚，20條金槍魚，還有一些其他品種……如果再釣一條，是你從沒見過的新品種的概率有多大？

答案是：看有多少種魚只出現過一次。直覺上，每種只出現一次的魚，就像是一個"差一點就沒見過"的樣本——如果你少釣一次，這種魚你就沒見過了。所以它們代表了"再釣一次可能遇到新品種"的概率。

應用到幻覺問題：幻覺率的下界 ≈ 訓練數據中只出現一次的事實占比。

Kalai問現場觀眾不同類型事實的出現頻率：

國家首都

- 在訓練數據中反覆出現很多次，幻覺率低

名人生日

- 有些人的生日出現很多次（比如愛因斯坦），有些可能從未出現（比如Kalai自己），是混合情況

論文標題

- 雖然每篇論文標題獨特，但作者會在簡歷、個人網站、arXiv到處貼，所以大多數其實出現多次

但這只是下界——實際幻覺率往往更高。比如論文標題，雖然在訓練數據中出現多次，但神經網路不是存儲和精確檢索標題的好方式。更好的方法是用資料庫直接存儲標題列表，需要時直接查詢。當表示方式不匹配任務需求時，實際幻覺率會遠高於理論下界。

贊助商廣告

類似的例子是數字母：問"ladder這個詞有幾個d"，語言模型的內部表示方式是把詞拆成token（詞元），每個token是一串字母的編號。模型必須學會"deer這個token（編號可能是19975之類的數字）包含一個d"——這是一個很彆扭的學習任務，因為表示方式根本不是為數字母設計的。

四、為什麼對齊階段沒能解決幻覺

語言模型訓練分兩個階段：預訓練（學習語言的統計規律）和對齊/後訓練（讓模型按照人類期望的方式回答）。預訓練產生幻覺可以理解，但對齊階段理論上應該消除幻覺。為什麼沒有？

1、評估標準的激勵扭曲

想想你自己考試的時候。有多少人遇到不會的題會寫"我不知道"或者空著？

幾乎沒有。因為說"我不知道"和答錯得分一樣——都是零分。既然如此，猜一個至少還有蒙對的可能，所以猜測永遠比承認無知更划算。博弈論里把這叫做"占優策略"（dominant strategy），意思是不管對手怎麼做，這個策略都是最優的。

語言模型面臨同樣的困境。MMLU、GPQA Diamond、各種數學競賽測試——這些主流評測（benchmark）都有一個共同特點：說"我不知道"等於答錯，得零分。

"如果有人做出了一個不幻覺的更好模型，它在這些測試上的分數反而會更低。因為它會對不確定的問題誠實地說'我不知道'，而在現有規則下，這等於白白丟分。"

2、人類評估同樣有偏差

另一種評估方式是讓人類對比兩個模型的輸出，選擇更好的那個。問題是：人們往往更喜歡幻覺的答案。

你問"PGGB代表什麼"，一個模型說"我不知道"，另一個模型給出帶要點列表的詳細解釋。人們傾向於選擇後者——因為他們自己也不知道PGGB是什麼，沒法判斷那個詳細解釋是編的。

"人們喜歡那些有條有理的要點列表。所以很多評估方式實際上在獎勵幻覺。"

3、真正的解決方案：改變評分規則

有人建議增加一個專門檢測幻覺的評估。Kalai認為這遠遠不夠：

贊助商廣告

"不要只加一個幻覺評估。語言模型現在有幾百個評估指標，如果這幾百個都在鼓勵幻覺，我們只加一個反幻覺的評估，那是杯水車薪。應該改變所有現有評估的評分方式。"

具體方案：在題目中明確告訴模型懲罰規則。

比如"答對得1分，答錯扣3分，說'我不知道'得0分"。這樣模型可以算出來：只有在超過75%確信時才應該作答，否則說"我不知道"期望收益更高。不同的懲罰係數對應不同的置信閾值，這提供了一個公平、可比較的評估框架。

之前有人提出過懲罰錯誤答案的想法，但關鍵的一步沒做：沒人把懲罰規則告訴模型。Kalai說這就像給你考試，告訴你"答錯會扣分，但我不告訴你扣多少"——你沒法做理性決策，而且不同模型也沒法公平比較，因為它們心裡假設的懲罰不一樣。

Kalai在普林斯頓高等研究院做了實驗驗證：隨著懲罰係數增加，模型說"我不知道"的頻率確實相應增加，符合預期。但有趣的是，如果你看模型的實際得分（正確數 - 懲罰×錯誤數），在某個閾值之後，模型的得分會低於"全部說我不知道"的策略。這說明模型仍然過度自信——它以為自己知道的比實際知道的多。

五、行為校準：一個衡量"誠實度"的新維度

傳統的校準（calibration）是關於預測準確性的：如果天氣預報說降雨概率是70%，那在所有預報說70%的日子裡，真的應該有70%下雨。如果實際只有50%下雨，就是校準不准。

Kalai提出了一個新概念：行為校準（behavioral calibration）。

"有些人會把手錶調快10分鐘。為什麼要欺騙自己？因為這樣對他們有好處——他們會更準時，表現更好。"

語言模型也有這個特點：如果你"騙"它說懲罰比實際更高，它的表現反而會提高。Kalai在實驗中發現，給模型一個"最優謊言"（讓它以為答錯的懲罰更重），得分會上升。

理想情況下，我們希望模型不需要被"騙"——你告訴它真實的風險程度，它就能相應地調整自己的回答策略。一個行為校準良好的模型，應該能根據你說明的重要性，合理地決定何時作答、何時承認不知道。

贊助商廣告

六、人類為什麼不幻覺：大腦雙系統的啟示

講座快結束時，Kalai在黑板上畫了一張大腦示意圖。

人類大腦有兩個主要的語言區域，功能截然不同：

韋尼克區（Wernicke's area）

：靠近耳朵，負責理解語言。它需要能聽懂各種內容，包括謊言、髒話、你明知不是真的東西——你的耳朵需要能理解那些你絕不會說出口的內容

布羅卡區（Broca's area）

：靠近嘴巴，負責產生語言。這部分只輸出你真正想說的、經過篩選的內容

有一種神經疾病叫韋尼克失語症（Wernicke's aphasia），患者會語無倫次地胡言亂語——這跟語言模型的幻覺驚人地相似。

"人類學會了不幻覺，因為如果我們胡說八道，我們看起來像傻瓜。我們不需要在考試里學這一課——在日常生活中瞎編被戳穿幾次，自然就學乖了。"

這給AI設計帶來一個啟示：也許需要把"理解一切"和"只說有把握的"分成兩個不同的模塊。

對齊研究的核心問題是：我們到底希望語言模型說什麼？這是一個對所有人開放的大問題，你不需要了解語言模型的技術細節就能思考它——因為我們自己也還沒有一個清晰的答案。

七、展望未來：當AI比我們更聰明時

Kalai在講座最後分享了一些更長遠的思考。

當AI變得比人類更聰明時，很多現有框架都會失效。幻覺仍然重要，公平性仍然重要，但會出現很多我們今天連定義都給不出的新問題。

他提出了一個發人深省的類比：把AI安全想像成密碼學，而不是生物學。

很多人把AI當作一種自然現象來研究——觀察它、記錄它的行為、像研究某種正在失控進化的有機體。但密碼學的視角完全不同：RSA加密和區塊鏈是人類工程設計的產物，我們可以在數學上證明它們的安全性，甚至面對比我們擁有更多算力和更高智能的對手，它們仍然安全。

"密碼學的核心就是：對抗一個比你有更多計算資源、可能比你更聰明的對手，同時保持安全。"

Kalai分享了一個與妻子Yael Tauman Kalai合作的理論結果：如果你有K個語言模型，其中大多數是"安全"的（不會產生有害輸出），你可以構造一個中位數分布（median distribution）——它能放大安全模型的特性。具體來說，如果每個安全模型產生有害輸出的概率都是極小的，那麼中位數分布會保持甚至強化這個特性。

贊助商廣告

但目前有個實際障礙：不同語言模型之間的"重疊"可能極小。如果你拿Gemini和GPT來做這個實驗，它們的輸出分布可能幾乎不重疊——比如同一道編程題，兩個模型給出的代碼風格完全不同。這會讓上述算法難以應用。

一個可能的解決方向是規範化輸出——比如定義一個標準的"正確程序分布"（比如：GPT-4在某個編程任務上輸出的、通過測試的程序的分布），讓所有模型都朝這個標準靠攏。這樣不同模型的重疊會變大，安全性放大的效果才能實現。

有人問："能不能在預訓練階段就改變損失函數來解決幻覺？"

Kalai認為預訓練可能不是解決這個問題的正確時機：

"因為有時候你其實想要幻覺。你讓它寫短篇小說、編菜譜——隨便發揮。我告訴你我廚房裡有什麼食材，你儘管創造一個新菜譜。但問生日的時候，我不希望你瞎編。所以這是一個微妙的平衡——這類問題可以猜，那類問題不能猜，另一類問題要特別謹慎。我覺得這更像是一個需要明確指導的過程，不是單純從數據里能學會的。"

有人追問："但人類能自動學會什麼時候該說'我不知道'，為什麼模型不能從數據中學會？"

Kalai承認這是個好問題，目前沒有完美答案。也許通過提示詞（prompting）就能部分解決——比如在提示中說"這是問題，現在請以那個非常謹慎的助手的身份回答"，或者"如果你答錯會很尷尬"，甚至"如果你答錯會被開除"。

他提到一個有趣的實驗發現：如果你在提示中告訴語言模型"答對給你20美元獎勵"，它的表現真的會變好。

所以，Kalai的講座揭示了一個令人不安但重要的事實：語言模型幻覺不是技術缺陷，而是激勵機制的必然結果。

當前的評估體系就像一場只看正確率、不懲罰胡說八道的考試——在這種規則下，猜測永遠比承認無知更划算。解決方案不是讓模型更大、訓練數據更多，而是從根本上改變我們評價模型的方式。

贊助商廣告

對於實際應用者來說，這意味著：

不要盲目相信模型的自信語氣

在高風險場景中，主動要求模型說明資訊來源和置信度

理解"說我不知道"是一種能力而非缺陷——能誠實承認無知的模型，往往比什麼都敢答的模型更值得信賴

對於AI開發者來說，這是一個明確的行動號召：停止使用那些獎勵幻覺的評估標準，開始設計能夠獎勵誠實表達不確定性的新標準。

核心洞察Q&A

Q1：為什麼語言模型在預訓練階段必然會幻覺？

A：預訓練只從"正確"的文本學習，從不接觸錯誤示例。這在統計上比同時從正例和反例學習要困難得多。可以從數學上證明：如果模型無法區分某類事實的正確與錯誤（比如人的生日——生日之間沒有可學習的規律，知道張三的生日推不出李四的），它在這類問題上的幻覺率會趨近100%。這不是模型不夠聰明的問題，而是只從正例學習這件事本身，就在統計上決定了模型無法學會對未知事物說"不"。

Q2：對齊階段為什麼沒能解決幻覺？

A：因為幾乎所有主流評測都把"說我不知道"等同於"答錯"——都得零分。在這種評分規則下，猜測永遠是更優策略：猜對了得分，猜錯了也不比說"我不知道"更差，那為什麼不猜？如果一個團隊真的做出了誠實的、不幻覺的模型，它在現有排行榜上的分數反而會更低。這是一個激勵機制與目標錯位的問題，不是技術能力問題。解決方案是改變遊戲規則：明確告訴模型答錯的懲罰是多少，讓它可以理性計算何時該冒險回答、何時該誠實說"我不知道"。

Q3：為什麼人類不像語言模型那樣幻覺？

A：兩個關鍵差異。第一，社會懲罰機制——如果你在專家面前胡說八道，你會丟臉、失去信任、甚至影響職業發展。這種懲罰發生在考試之外，讓人類早早學會了在不確定時保持沉默。語言模型沒有這種長期聲譽激勵。第二，大腦的功能分離——人類的語言理解區（韋尼克區）和語言產生區（布羅卡區）是分開的。你可以聽懂髒話但選擇不說；你可以理解一個謊言但不會複述它。語言模型沒有這種分離，它的"嘴巴"直接連著"耳朵"。訓練模型不幻覺，可能需要在架構上模擬這種分離——有一個可以理解和預測任何內容的模塊，以及一個只輸出高置信度、經過篩選內容的模塊。

贊助商廣告