這期內容比較特別,不是Big Name的商業方法論,而是技術分析課,由OpenAI研究科學家Adam Kalai在普林斯頓高等研究院所做的一場重要講座。Kalai曾是機器學習理論領域的知名學者,十五年前做出了一個在當時看來"反常"的決定,認為機器學習理論研究不如實踐有趣。
這場講座回答了一個被詞典選為年度詞彙的問題:為什麼語言模型會"幻覺"(hallucinate)? Kalai的核心論點是:幻覺不是神秘的架構缺陷或推理失敗,主因是標準訓練和評估激勵機制的可預測後果。換句話說,不是模型出了問題,而是我們評價模型的方式出了問題。講座原文在油管Institute for Advanced Study 頻道,有大量的數學公式。

一、什麼是幻覺,為什麼它比你想像的更嚴重
講座一開始,Kalai就拋出了一個簡單的問題:"PGGB代表什麼?"
現場沒有人回答——這正是Kalai想要的效果。
"我剛剛向你們證明了人類不會像語言模型那樣幻覺。有人說'人類也會像語言模型一樣幻覺,模型是從我們這裡學的'——我們不會。你們看到了,房間裡沒有人開始胡說八道。"
而語言模型則會"自信"地編造答案:
"這很有趣,但也非常嚴重。今天就可能有人在詢問可能用於高風險決策的重要資訊,這可能造成真實傷害。"
Kalai還測試了自己的生日。他特意在提示中加入了"如果你知道,請只回答日期和月份"——明確給了模型說"我不知道"的選項。結果DeepSeek給了三個不同的錯誤猜測,ChatGPT給了兩個錯誤猜測,只有在第三次啟用"思考模式"後,模型花了1分26秒搜索,最後才承認不知道。
"好消息是我的生日不在網上。"Kalai說。
二、關於幻覺的四個常見誤解
誤解1:用準確率衡量幻覺
很多人看幻覺問題只看準確率,這是錯誤的思路。因為模型面對問題有三種選擇:回答正確、回答錯誤、或者說"我不知道"。80%的準確率可能意味著20%的錯誤率(這是幻覺),也可能意味著20%的"我不知道"(這不是幻覺)。真正衡量幻覺的指標是錯誤率,不是準確率。
誤解2:避免幻覺需要巨大的模型
Kalai半開玩笑地說:
"我認識的一些不那麼聰明的人,反而相當有自知之明。對我來說說'我不知道'很容易——你用俄語問我問題,我會直接告訴你我聽不懂。"
這其實是一個很好的學術挑戰方向:用小模型證明概念,做一個不幻覺的小語言模型,展示它有多實用,然後再把方法移植到大模型上。
誤解3:等準確率到100%就好了
問題在於,永遠會有無法回答的問題——涉及隱私的問題、資訊相互矛盾的問題、超出模型能力的數學問題。這時候模型需要說"我不知道",而不是硬猜。
誤解4:幻覺要麼已解決,要麼永遠無法解決
兩種極端都不對。語言模型的幻覺率確實在下降,但還沒到人類的低水平。最終目標是讓模型以極低的概率幻覺,就像人類一樣。
有人問:"說'我不知道'能達到100%正確嗎?會不會有哥德爾不完備性之類的理論障礙?"
Kalai回答:"我不是說100%,但這個房間裡的人幻覺率極低,我認為模型應該達到那個極低的水平。要達到絕對的0%可能很難,取決於你怎麼定義。但你完全可以從一個只回答計算器問題、其他一概不答的聊天機器人開始——它就不會幻覺。"
三、核心理論:為什麼預訓練必然導致幻覺
這是講座最硬核的部分。Kalai提出了一個簡潔的理論框架來解釋幻覺的根源。
1、語言預測比分類更難
設想有兩個集合:有效陳述(valid) 和錯誤陳述(error)。在傳統的二分類任務中,你同時看到正例和負例,學習區分它們。但在語言預訓練中,你只看到正例——訓練數據理論上都是"正確"的文本,模型從來沒見過"錯誤示範"。
"只從正例學習,應該比同時從正例和負例學習更難。"
這個直覺被形式化為一個定理:幻覺概率 ≥ 2倍分類錯誤概率 - 小項。
2、定理的核心洞察
如果存在一類事實,你根本無法學會區分正確和錯誤,那麼在這類問題上你必然會大量幻覺。
什麼樣的事實無法學會區分?比如人的生日——生日之間沒有規律可循,我告訴你房間左半邊人的生日,你不可能推斷出右半邊人的生日。在這類問題上,分類錯誤率接近50%(跟瞎猜差不多),對應的幻覺率就接近100%。
有人問:"為什麼模型不能永遠說'我不知道',或者只重複訓練數據里見過的內容?"
這是兩個理論上不幻覺的極端策略,但問題在於它們沒有"校準"(calibration)。什麼是校準?簡單說,就是模型對自己預測的置信度要準確——如果模型說某件事有70%的概率,那這件事真的應該在70%的情況下發生。
語言模型的訓練目標(最小化交叉熵損失,可以理解為讓模型預測的概率分布儘可能接近真實分布)天然會產生校準良好的模型。經驗觀察表明,語言模型說某件事有某個概率時,這件事確實以那個概率發生。 而"永遠說我不知道"或"只重複訓練數據"這兩種策略,它們的概率預測是嚴重失真的,所以不會被訓練過程選中。
3、古德-圖靈估計器:量化幻覺率的下界
這個估計器來自圖靈的合作者Irving Good。圖靈當年研究的問題可以用釣魚來類比:你釣了100條魚,50條三文魚,20條金槍魚,還有一些其他品種……如果再釣一條,是你從沒見過的新品種的概率有多大?
答案是:看有多少種魚只出現過一次。直覺上,每種只出現一次的魚,就像是一個"差一點就沒見過"的樣本——如果你少釣一次,這種魚你就沒見過了。所以它們代表了"再釣一次可能遇到新品種"的概率。
應用到幻覺問題:幻覺率的下界 ≈ 訓練數據中只出現一次的事實占比。
Kalai問現場觀眾不同類型事實的出現頻率:
但這只是下界——實際幻覺率往往更高。比如論文標題,雖然在訓練數據中出現多次,但神經網路不是存儲和精確檢索標題的好方式。更好的方法是用資料庫直接存儲標題列表,需要時直接查詢。當表示方式不匹配任務需求時,實際幻覺率會遠高於理論下界。
類似的例子是數字母:問"ladder這個詞有幾個d",語言模型的內部表示方式是把詞拆成token(詞元),每個token是一串字母的編號。模型必須學會"deer這個token(編號可能是19975之類的數字)包含一個d"——這是一個很彆扭的學習任務,因為表示方式根本不是為數字母設計的。
四、為什麼對齊階段沒能解決幻覺
語言模型訓練分兩個階段:預訓練(學習語言的統計規律)和對齊/後訓練(讓模型按照人類期望的方式回答)。預訓練產生幻覺可以理解,但對齊階段理論上應該消除幻覺。為什麼沒有?
1、評估標準的激勵扭曲
想想你自己考試的時候。有多少人遇到不會的題會寫"我不知道"或者空著?
幾乎沒有。因為說"我不知道"和答錯得分一樣——都是零分。既然如此,猜一個至少還有蒙對的可能,所以猜測永遠比承認無知更划算。博弈論里把這叫做"占優策略"(dominant strategy),意思是不管對手怎麼做,這個策略都是最優的。
語言模型面臨同樣的困境。MMLU、GPQA Diamond、各種數學競賽測試——這些主流評測(benchmark)都有一個共同特點:說"我不知道"等於答錯,得零分。
"如果有人做出了一個不幻覺的更好模型,它在這些測試上的分數反而會更低。因為它會對不確定的問題誠實地說'我不知道',而在現有規則下,這等於白白丟分。"
2、人類評估同樣有偏差
另一種評估方式是讓人類對比兩個模型的輸出,選擇更好的那個。問題是:人們往往更喜歡幻覺的答案。
你問"PGGB代表什麼",一個模型說"我不知道",另一個模型給出帶要點列表的詳細解釋。人們傾向於選擇後者——因為他們自己也不知道PGGB是什麼,沒法判斷那個詳細解釋是編的。
"人們喜歡那些有條有理的要點列表。所以很多評估方式實際上在獎勵幻覺。"
3、真正的解決方案:改變評分規則
有人建議增加一個專門檢測幻覺的評估。Kalai認為這遠遠不夠:
"不要只加一個幻覺評估。語言模型現在有幾百個評估指標,如果這幾百個都在鼓勵幻覺,我們只加一個反幻覺的評估,那是杯水車薪。應該改變所有現有評估的評分方式。"
具體方案:在題目中明確告訴模型懲罰規則。
比如"答對得1分,答錯扣3分,說'我不知道'得0分"。這樣模型可以算出來:只有在超過75%確信時才應該作答,否則說"我不知道"期望收益更高。不同的懲罰係數對應不同的置信閾值,這提供了一個公平、可比較的評估框架。
之前有人提出過懲罰錯誤答案的想法,但關鍵的一步沒做:沒人把懲罰規則告訴模型。Kalai說這就像給你考試,告訴你"答錯會扣分,但我不告訴你扣多少"——你沒法做理性決策,而且不同模型也沒法公平比較,因為它們心裡假設的懲罰不一樣。
Kalai在普林斯頓高等研究院做了實驗驗證:隨著懲罰係數增加,模型說"我不知道"的頻率確實相應增加,符合預期。但有趣的是,如果你看模型的實際得分(正確數 - 懲罰×錯誤數),在某個閾值之後,模型的得分會低於"全部說我不知道"的策略。這說明模型仍然過度自信——它以為自己知道的比實際知道的多。
五、行為校準:一個衡量"誠實度"的新維度
傳統的校準(calibration)是關於預測準確性的:如果天氣預報說降雨概率是70%,那在所有預報說70%的日子裡,真的應該有70%下雨。如果實際只有50%下雨,就是校準不准。
Kalai提出了一個新概念:行為校準(behavioral calibration)。
"有些人會把手錶調快10分鐘。為什麼要欺騙自己?因為這樣對他們有好處——他們會更準時,表現更好。"
語言模型也有這個特點:如果你"騙"它說懲罰比實際更高,它的表現反而會提高。Kalai在實驗中發現,給模型一個"最優謊言"(讓它以為答錯的懲罰更重),得分會上升。
理想情況下,我們希望模型不需要被"騙"——你告訴它真實的風險程度,它就能相應地調整自己的回答策略。一個行為校準良好的模型,應該能根據你說明的重要性,合理地決定何時作答、何時承認不知道。
六、人類為什麼不幻覺:大腦雙系統的啟示
講座快結束時,Kalai在黑板上畫了一張大腦示意圖。
人類大腦有兩個主要的語言區域,功能截然不同:
有一種神經疾病叫韋尼克失語症(Wernicke's aphasia),患者會語無倫次地胡言亂語——這跟語言模型的幻覺驚人地相似。
"人類學會了不幻覺,因為如果我們胡說八道,我們看起來像傻瓜。我們不需要在考試里學這一課——在日常生活中瞎編被戳穿幾次,自然就學乖了。"
這給AI設計帶來一個啟示:也許需要把"理解一切"和"只說有把握的"分成兩個不同的模塊。
對齊研究的核心問題是:我們到底希望語言模型說什麼? 這是一個對所有人開放的大問題,你不需要了解語言模型的技術細節就能思考它——因為我們自己也還沒有一個清晰的答案。
七、展望未來:當AI比我們更聰明時
Kalai在講座最後分享了一些更長遠的思考。
當AI變得比人類更聰明時,很多現有框架都會失效。幻覺仍然重要,公平性仍然重要,但會出現很多我們今天連定義都給不出的新問題。
他提出了一個發人深省的類比:把AI安全想像成密碼學,而不是生物學。
很多人把AI當作一種自然現象來研究——觀察它、記錄它的行為、像研究某種正在失控進化的有機體。但密碼學的視角完全不同:RSA加密和區塊鏈是人類工程設計的產物,我們可以在數學上證明它們的安全性,甚至面對比我們擁有更多算力和更高智能的對手,它們仍然安全。
"密碼學的核心就是:對抗一個比你有更多計算資源、可能比你更聰明的對手,同時保持安全。"
Kalai分享了一個與妻子Yael Tauman Kalai合作的理論結果:如果你有K個語言模型,其中大多數是"安全"的(不會產生有害輸出),你可以構造一個中位數分布(median distribution)——它能放大安全模型的特性。具體來說,如果每個安全模型產生有害輸出的概率都是極小的,那麼中位數分布會保持甚至強化這個特性。
但目前有個實際障礙:不同語言模型之間的"重疊"可能極小。如果你拿Gemini和GPT來做這個實驗,它們的輸出分布可能幾乎不重疊——比如同一道編程題,兩個模型給出的代碼風格完全不同。這會讓上述算法難以應用。
一個可能的解決方向是規範化輸出——比如定義一個標準的"正確程序分布"(比如:GPT-4在某個編程任務上輸出的、通過測試的程序的分布),讓所有模型都朝這個標準靠攏。這樣不同模型的重疊會變大,安全性放大的效果才能實現。
有人問:"能不能在預訓練階段就改變損失函數來解決幻覺?"
Kalai認為預訓練可能不是解決這個問題的正確時機:
"因為有時候你其實想要幻覺。你讓它寫短篇小說、編菜譜——隨便發揮。我告訴你我廚房裡有什麼食材,你儘管創造一個新菜譜。但問生日的時候,我不希望你瞎編。所以這是一個微妙的平衡——這類問題可以猜,那類問題不能猜,另一類問題要特別謹慎。我覺得這更像是一個需要明確指導的過程,不是單純從數據里能學會的。"
有人追問:"但人類能自動學會什麼時候該說'我不知道',為什麼模型不能從數據中學會?"
Kalai承認這是個好問題,目前沒有完美答案。也許通過提示詞(prompting)就能部分解決——比如在提示中說"這是問題,現在請以那個非常謹慎的助手的身份回答",或者"如果你答錯會很尷尬",甚至"如果你答錯會被開除"。
他提到一個有趣的實驗發現:如果你在提示中告訴語言模型"答對給你20美元獎勵",它的表現真的會變好。
所以,Kalai的講座揭示了一個令人不安但重要的事實:語言模型幻覺不是技術缺陷,而是激勵機制的必然結果。
當前的評估體系就像一場只看正確率、不懲罰胡說八道的考試——在這種規則下,猜測永遠比承認無知更划算。解決方案不是讓模型更大、訓練數據更多,而是從根本上改變我們評價模型的方式。
對於實際應用者來說,這意味著:
對於AI開發者來說,這是一個明確的行動號召:停止使用那些獎勵幻覺的評估標準,開始設計能夠獎勵誠實表達不確定性的新標準。
核心洞察Q&A
Q1:為什麼語言模型在預訓練階段必然會幻覺?
A:預訓練只從"正確"的文本學習,從不接觸錯誤示例。這在統計上比同時從正例和反例學習要困難得多。可以從數學上證明:如果模型無法區分某類事實的正確與錯誤(比如人的生日——生日之間沒有可學習的規律,知道張三的生日推不出李四的),它在這類問題上的幻覺率會趨近100%。這不是模型不夠聰明的問題,而是只從正例學習這件事本身,就在統計上決定了模型無法學會對未知事物說"不"。
Q2:對齊階段為什麼沒能解決幻覺?
A:因為幾乎所有主流評測都把"說我不知道"等同於"答錯"——都得零分。在這種評分規則下,猜測永遠是更優策略:猜對了得分,猜錯了也不比說"我不知道"更差,那為什麼不猜?如果一個團隊真的做出了誠實的、不幻覺的模型,它在現有排行榜上的分數反而會更低。這是一個激勵機制與目標錯位的問題,不是技術能力問題。解決方案是改變遊戲規則:明確告訴模型答錯的懲罰是多少,讓它可以理性計算何時該冒險回答、何時該誠實說"我不知道"。
Q3:為什麼人類不像語言模型那樣幻覺?
A:兩個關鍵差異。第一,社會懲罰機制——如果你在專家面前胡說八道,你會丟臉、失去信任、甚至影響職業發展。這種懲罰發生在考試之外,讓人類早早學會了在不確定時保持沉默。語言模型沒有這種長期聲譽激勵。第二,大腦的功能分離——人類的語言理解區(韋尼克區)和語言產生區(布羅卡區)是分開的。你可以聽懂髒話但選擇不說;你可以理解一個謊言但不會複述它。語言模型沒有這種分離,它的"嘴巴"直接連著"耳朵"。訓練模型不幻覺,可能需要在架構上模擬這種分離——有一個可以理解和預測任何內容的模塊,以及一個只輸出高置信度、經過篩選內容的模塊。






