AI"幻覺"為何難以根除？谷歌與特拉維夫大學研究團隊給出了一個出人意料的解法

這項由谷歌研究院（Google Research）與特拉維夫大學（Tel Aviv University）聯合開展的研究，以預印本形式於2026年5月2日發布在arXiv平台，編號為arXiv:2605.01428v1，有興趣深入了解的讀者可通過該編號查詢完整論文。

贊助商廣告

每個用過ChatGPT、Gemini或者其他AI助手的人，大概都遇到過這樣的尷尬瞬間——你問AI一個問題，它用無比篤定的語氣給出了一個聽起來完全正確的答案，然而事後你一查，發現那個答案根本就是胡編亂造的。更氣人的是，AI並沒有絲毫猶豫，它說得比任何人都自信，仿佛它親眼所見一般。這種現象在AI領域有一個專門的名字："幻覺"（hallucination）。

這個問題困擾著整個AI行業。各大科技公司和研究機構為此投入了大量資源，試圖徹底消滅這種"說假話還一臉理直氣壯"的毛病。然而，這篇研究揭示了一個令人深思的現實：目前行業內的主流做法，可能從根本上就走錯了方向。研究團隊經過系統分析後認為，徹底消滅幻覺這個目標，本質上面臨著一個幾乎無法繞過的兩難困境——而真正的出路，恰恰藏在一個大多數人都沒有認真考慮過的方向里。

---

一、AI為何總是"說謊"？問題比你以為的更棘手

先用一個醫生的例子來打個底。假設你身邊有兩個醫生：一個醫生無論遇到什麼病情，都會給出一個清晰果斷的診斷，絕不含糊，但他其實經常判斷失誤；另一個醫生遇到把握不大的情況，會坦誠地說"這個我還需要進一步檢查，目前我傾向於認為是A，但也有可能是B"。這兩位醫生，哪個更值得信任？大多數人會選第二個，哪怕他有時候說"我不確定"。

現在的AI助手，基本上都在扮演第一種醫生——永遠自信滿滿，即便它其實完全不確定。這就是問題的癥結所在。

研究團隊把AI對知識的處理分成了兩個完全不同的維度。第一個維度是"知識邊界"——AI到底知道哪些事情，它的知識庫有多廣。第二個維度是"邊界意識"——AI是否清楚地知道自己的知識在哪裡結束，哪些是它真正掌握的，哪些只是它在"感覺"或者"猜測"。

贊助商廣告

研究團隊經過仔細梳理發現，過去幾年裡AI在事實準確性上取得的進步，幾乎全部來自第一個維度——不斷向AI餵入更多數據，讓它知道更多的事情。然而第二個維度，也就是讓AI真正搞清楚自己的知識邊界在哪裡，幾乎沒有實質性的進展。

這個區別至關重要。一個知識廣博但沒有邊界意識的AI，就像一個博覽群書但完全不知道自己什麼時候記錯了的人——他的知識越豐富，他說錯的時候也越令人難以分辨。

---

二、"徹底消滅幻覺"，為什麼是一個偽命題

研究團隊在這裡提出了一個精妙的概念區分，理解這個區分對於看清整個問題至關重要。

在統計和機器學習領域，有兩個長得很像但含義截然不同的概念：校準（calibration）和判別力（discrimination）。

校準，用最簡單的話來說，就是AI對某類問題的整體自信程度，是否和它在這類問題上的整體正確率相匹配。舉個例子：如果AI回答了一百個問題，每次都說"我有60%的把握"，那麼這一百個答案里，恰好有60個是對的，這就叫完美校準。

判別力則是另一回事：AI是否能夠在具體的每一個問題上，準確地感知到"這道題我答對了"還是"這道題我答錯了"。這要求AI能在個體層面上區分正確答案和錯誤答案。

關鍵在於，校準好，並不意味著判別力強。研究團隊舉了一個很直觀的例子：一個AI對所有問題都給出"60%的把握"，而它的整體正確率恰好也是60%，那麼從校準角度來說，它是完美的。但這個AI的判別力為零——它無法區分自己答對的那60道題和答錯的那40道題，因為它對所有問題的"感覺"完全一樣。

現有研究大量證明，現代大語言模型的校準其實還不錯。但判別力呢？研究團隊梳理了大量文獻中的數據，發現各種方法、各種模型在真實知識問答任務上，判別力指標（AUROC，可以理解為AI能在多大程度上用自信程度區分對錯）普遍集中在0.70到0.85之間。這聽起來不算太差，但問題在於，這個水平遠遠不夠。

贊助商廣告

研究團隊通過模擬計算揭示了一個令人吃驚的數據：如果AI的判別力在這個水平（AUROC約為0.71），同時它的基礎錯誤率是25%，那麼要把錯誤率從25%壓到5%，AI必須拒絕回答超過一半的問題——哪怕這些被拒絕的問題里，有超過一半其實是它完全能正確回答的。換句話說，為了消滅40%的錯誤，你付出的代價是失去超過50%的正確資訊。

就算把判別力提升到0.85這個文獻里幾乎最好的水平，要把錯誤率壓到5%，依然需要放棄28%的正確回答。要讓這個代價降到可以忽略不計（不到5%的正確資訊損失），需要判別力達到0.95以上——而目前沒有任何已知方法能在知識密集型任務上接近這個數字。

研究團隊還把這個現象在真實數據上做了可視化。他們分析了各大前沿AI模型在"SimpleQA Verified"這個知識問答基準上的表現，把每個模型的"回答覆蓋率"（願意回答多少問題）和"回答準確率"（回答的問題里有多少是對的）畫在一張圖上。結果這張圖呈現出了一個清晰的故事：絕大多數模型都沿著對角線分布，意思是它們選擇了"多答"的策略，覆蓋率高但錯誤率也高；少數選擇"少答求精"策略的模型，雖然準確率更高，但這是通過拒絕回答大量問題換來的，代價巨大。而那個理想中的"右上角"區域——既願意回答大量問題，又保持很高的準確率——完全是空的。沒有任何模型能到達那裡。這個空白區域，就是研究團隊所說的"判別力缺口"。

---

三、理論支撐：幻覺可能是無法避免的結構性問題

研究團隊並不是在做主觀判斷，他們還引用了若干從數學角度證明幻覺存在必然性的理論工作。

有研究利用"停機問題"（一個電腦科學中著名的不可解問題）和對角化論證，證明了沒有任何可計算的模型能夠在所有情況下驗證真相或學會所有真實函數。換句話說，從計算理論的根本層面，全知全能的AI就是不可能的。

贊助商廣告

另有研究證明，一個校準良好的語言模型，在面對那些真假無法從其他已知事實中推斷的問題時，數學上必然會產生幻覺。還有研究建立了一個正式的定理，證明將幻覺率降低到某個臨界值以下，必然導致模型輸出的多樣性急劇減少，最終陷入"模式崩塌"——它只會說少數幾種安全的答案，失去了作為語言模型的基本價值。

實際觀察到的種種現象也印證了這一點。比如一個令人頭疼的發現：那些加入了"深度思考"（extended reasoning）的AI模型，反而在某些任務上產生了更多幻覺，而不是更少。這個看起來很反直覺的現象，其實用判別力缺口可以解釋得很好——當模型被訓練成"一定要給出答案"的傾向時，它會通過更長的推理過程為錯誤答案找到看似合理的論據，而不是選擇承認自己不確定。訓練目標是"有用"，結果是"更自信地胡說"。

---

四、重新定義問題：幻覺不是"錯誤"，而是"沒有資格說的自信"

研究團隊在這裡提出了整篇論文最核心的概念轉變，也是他們找到出路的關鍵。

長期以來，"幻覺"在行業里被定義為"錯誤的輸出"。這個定義帶來了一個隱含的解法：要消滅幻覺，就要消滅錯誤。而消滅錯誤，要麼是讓AI知道更多（擴展知識邊界），要麼是讓AI在不確定的時候拒絕回答（收緊輸出門檻）。這就是那個兩難困境的來源：兩條路，一條讓AI越來越博學但仍然會犯錯，另一條讓AI越來越沉默但越來越"安全"。

研究團隊提出，不妨換一個角度來定義幻覺：**幻覺不是"錯誤的輸出"，而是"在沒有充分理由時，以確信的語氣給出的錯誤資訊"**。

這個區別看起來細微，但影響深遠。一個醫生說"你得了癌症"，如果他其實只是猜的，這是幻覺。但如果他說"從目前的症狀來看，有可能是癌症，但我需要進一步檢查才能確定"，哪怕後來證明他的懷疑方向是對的，他的表達是誠實的、負責任的，不是幻覺。錯誤不是問題，沒有資格卻以確信語氣表達出來的錯誤，才是幻覺。

贊助商廣告

這個重新定義打開了第三條路：既不需要AI什麼都知道，也不需要AI什麼都不說，而是需要AI**誠實地表達自己的不確定性**。

研究團隊把這種能力稱為"忠實不確定性"（faithful uncertainty）——AI在語言層面表達的確信程度，應當真實地對應它內部狀態的確信程度。簡單來說，就是：如果AI對某件事不太確定，它說話的方式也應該體現出這種不確定，而不是無論內心多動搖，對外永遠一副胸有成竹的樣子。

---

五、"忠實不確定性"到底是什麼，為什麼它是可以實現的

研究團隊在論文中給出了這個概念的精確定義，在這裡用更通俗的方式來解釋。

AI的"內部不確定性"（intrinsic uncertainty），可以理解為：如果你對同一個問題問AI一百遍，它會給出多少種不同的答案。如果每次都給出相同的答案，說明它內部很確定；如果答案五花八門，說明它內部其實很搖擺不定。這是一個可以被客觀測量的指標。

AI的"語言不確定性"（linguistic uncertainty），則是AI用來表達答案時，措辭里體現出的確信程度。"1961年8月4日"和"我好像記得是1961年，但不是很確定"，這兩種表達方式給讀者傳達的確信感是完全不同的。

所謂"忠實不確定性"，就是要讓這兩者對齊：當AI內部搖擺不定時，它說出來的話也應該帶有適當的猶豫和保留；當AI內部非常篤定時，它才用確定的語氣表達。

研究團隊特別強調了這個目標在原則上是可以實現的，而且比"徹底消滅錯誤"這個目標更容易實現。原因很簡單：消滅錯誤需要AI的內部狀態和外部世界的真相完全對應，而"忠實不確定性"只需要AI的語言輸出和它自己的內部狀態對應——這是一個閉環問題，AI不需要知道世界上所有的真相，只需要誠實地報告自己的"感覺"。

從技術角度來說，AI的內部確信程度（用生成某個答案的概率來衡量）是完全可以從模型內部提取出來的，這個信號本來就存在。問題只是現在的訓練方式讓AI學會了不理睬這個信號，在任何情況下都使用同樣自信的語氣。

贊助商廣告

研究團隊把這種能力——AI既能感知自己的不確定性，又能根據這種感知調整自己的行為——稱為"元認知"（metacognition），借用了心理學和認知科學中的一個概念，意思是"對自己認知的認知"，即對自己知道什麼、不知道什麼有清醒的認識。

---

六、"元認知"帶來的不只是誠實，還有真正的可靠實用性

研究團隊提出了一個他們稱為"可靠實用性"（reliable utility）的概念，來描述忠實不確定性能帶來的實際好處。

回到之前的例子：假設AI對一批問題的內部確信程度是60%，而這批問題里確實有60%是它能回答正確的。在"必須消滅幻覺"的框架下，AI面臨一個集體決策：為了避免那40%的錯誤，它必須對整批問題都拒絕回答，結果是那60%的正確答案也跟著消失了。這就是"實用性稅"——為了安全而付出的代價。

而在"忠實不確定性"的框架下，AI可以選擇回答這批問題，但用適當的語氣表達："我認為答案是X，但我不是很確定，你可以進一步核實。"這樣，那60%正確的答案被保留了，以有用的形式傳達給用戶；那40%錯誤的答案雖然仍然出現了，但被包裹在了適當的猶豫措辭里，用戶知道需要謹慎對待，危害大大降低。這個錯誤還是存在，但它不再是"幻覺"了——因為它被誠實地標記為了"不確定的猜測"，而不是"確定的事實"。

研究團隊用一個貼切的類比來說明這背後的邏輯：我們信任醫生，不是因為醫生無所不知，而是因為醫生能夠誠實地區分"確診"和"懷疑"。正是這種區分能力，讓我們能夠根據醫生給出的資訊做出恰當的判斷和行動。AI如果能做到同樣的事情，用戶就可以在不需要AI全知全能的情況下，依然從AI那裡獲得有價值的資訊。

---

七、在AI代理系統中，元認知變得更加關鍵

研究團隊還將這個分析延伸到了一個越來越重要的應用場景：AI代理（AI agents），也就是那些能夠自主使用各種工具、搜索網路、調用API來完成複雜任務的AI系統。

贊助商廣告

表面上看，AI代理好像解決了幻覺問題：既然我可以隨時上網查，為什麼還要擔心我的知識是否準確？直接搜就好了。

然而研究團隊指出，這個直覺是錯誤的，工具的存在不但沒有減少對元認知的需求，反而放大了它的重要性。

關鍵在於，AI代理面臨的是一個"控制問題"，而不僅僅是"儲存問題"。工具解決了"儲存"——AI不需要把所有資訊都裝進參數裡。但工具製造了新的控制挑戰：AI需要判斷什麼時候需要搜索（如果什麼都查，效率極低；如果什麼都不查，就退回了沒有工具的狀態），需要判斷搜出來的資訊是否可信（網上什麼都有，包括大量錯誤資訊），需要在搜到的資訊和自己原有的知識發生衝突時做出取捨。所有這些判斷，都需要AI對自己的內部確信程度有準確的感知。

研究團隊在論文中描繪了一幅圖景：元認知能力是連接AI核心能力（推理、語言、知識、指令理解）和外部工具系統（檢索、編排、驗證、記憶）之間的控制層。沒有這一層，外部系統就像是"盲飛"——它無法知道什麼時候該查、查完了該信多少、查到矛盾資訊時該怎麼辦。現有研究已經證實，當前的搜索增強型AI代理因為缺乏這種自我感知，普遍存在工具濫用的問題——對根本不需要搜的問題也去搜，效率低下而且引入了不必要的錯誤來源。

---

八、要實現真正的元認知，還有哪些硬骨頭要啃

研究團隊並沒有停留在描述問題上，他們還系統梳理了要實現忠實不確定性和元認知能力需要解決的幾個關鍵技術挑戰。

第一個挑戰，研究團隊稱之為"自舉悖論"。要教AI正確地表達不確定性，需要用訓練數據來示範什麼叫"該猶豫的時候猶豫"。但問題在於，這種訓練數據是靜態的，而AI的知識邊界是動態的——一個事實，可能在訓練數據製作時AI不知道，但經過進一步訓練後AI已經知道了。如果靜態數據里標著"我不確定歐巴馬的生日"，但現在的AI其實已經能自信地回答這個問題，那這條訓練數據反而會訓練出一個假裝不確定的AI。這需要開發動態數據基礎設施，讓訓練標籤能夠反映模型當前真實的知識邊界，而不是某個過去時間點的快照。

贊助商廣告

第二個挑戰是"對齊之後的信號保留"。現有證據顯示，大語言模型在預訓練完成之後，其實已經具備相當不錯的內部不確定性信號——它的內部狀態本來就包含著"這道題我比較有把握"和"這道題我不太確定"的區別。但是，後續的對齊訓練（比如RLHF，即用人類反饋做強化學習）會把這個信號破壞掉。為什麼？因為對齊訓練的目標是讓AI更有用、更符合人類偏好，而人類普遍偏好語氣確定、給出答案的回覆——這就逼著AI學會了無論內部多麼搖擺，對外都表現得很自信。如何在保留有用性和安全性的同時，不把這個珍貴的內部信號磨掉，是一個需要專門設計的"保留不確定性"對齊算法來解決的問題。

第三個挑戰是"置信度歸因"。要高質量地表達不確定性，光說"我不太確定"還不夠，還需要說清楚"為什麼不確定"——是因為問題本身有歧義，是因為AI確實不知道這件事，還是因為不同的價值觀或標準會導致不同的答案？不同原因導致的不確定性，需要用不同方式來表達。"這取決於您對X的具體定義"和"我對這件事沒有記憶"，表達的是完全不同性質的不確定性，但兩者都屬於"不確定"。研究團隊認為，高質量的元認知需要AI能夠追溯不確定性的來源，並映射到恰當的語言表達。

第四個挑戰是"因果性評估"。這是一個更深層的科學問題：我們如何確認一個AI真的在感知自己的內部狀態，而不是學會了一套表面的"表演不確定性"的規律？比如，一個AI可能學到"遇到生僻實體名稱的問題就加上'我不太確定'"這樣的簡單啟發式規則，但這只是在模仿不確定性的外表，而不是真的在讀取內部信號。如何設計評估框架，能夠區分"真正的元認知"和"對元認知的表演"，是研究團隊認為非常基礎性的工作。

第五個挑戰是"在代理場景中評估元認知"。在AI代理系統里，怎麼評估元認知能力？研究團隊認為，現有的評估方式太過關注"最終答案對不對"，而忽略了過程中的控制決策是否合理。一個AI代理可能通過搜索"碰巧"得到了正確答案，但它的判斷過程完全是混亂的——它不該搜的時候搜了，該信的資訊沒信，不該信的資訊信了，但最終結果湊巧對了。這樣的"成功"是脆弱的，不可復現的。真正的代理評估應該把"該搜的時候是否搜了"、"面對矛盾資訊時是否正確取捨"這樣的過程指標納入考核。

贊助商廣告

---

九、對研究界的實踐建議：換一把尺子量問題

研究團隊還對評估幻覺緩解效果的研究範式提出了具體的改進建議。

當前研究中常用的評估指標存在一個共同的盲點：它們都在某種程度上掩蓋了"消滅幻覺所付出的實用性代價"。比如校準誤差（ECE）是一個聚合指標，平均掩蓋了判別力缺口的存在；AUROC雖然更能反映判別力，但它也是一個匯總數字，無法直接告訴你"把錯誤率壓到5%需要放棄多少正確答案"。

研究團隊建議，未來的研究應該直接可視化"實用性-錯誤率權衡曲線"——把"為了把錯誤率降到X，需要放棄多少比例的正確答案"這件事，以曲線的形式畫出來。只有這樣，才能真正看清楚一個方法是真的提升了AI的判別能力，還是只是在同一條曲線上調了一下參數（比如調高了拒絕回答的門檻），並沒有實質性地改變底層能力。

與此同時，研究團隊建議要警惕干預措施帶來的"附帶損傷"。把AI調教得在某類生僻問題上更謹慎，往往會讓它在其他領域也變得過于謹慎，影響整體的幫助能力。評估一個方法的真實效果，需要同時在一整套任務上測試，包括推理、編程、寫作等，看看為了降低知識問答里的錯誤率，究竟在哪些地方付出了代價。

---

歸根結底，這篇研究想說的是：與其繼續把"幻覺"當成一個需要徹底剷除的頑敵，不如換一個視角，把它當成一個需要誠實承認和管理的現實局限。AI可以不全知全能，但它必須對自己知道什麼、不知道什麼有誠實的認識，並且誠實地傳達給用戶。

就像我們不需要醫生無所不知，我們只需要醫生在開處方的時候，能清楚地告訴我們"這個我很確定"和"這個我還在觀察"——正是這種誠實，讓醫患之間建立起了真正的信任。AI也應該走向這條路，而不是無止境地追逐一個完美無誤的幻象，同時讓自己在這個過程中越來越沉默或越來越不誠實。

贊助商廣告

研究團隊的這一視角，並非主張放棄讓AI更準確的努力。恰恰相反，他們認為兩件事應該並行：繼續拓展AI的知識邊界，同時讓AI學會誠實地表達剩餘的不確定性。這兩件事相輔相成，一個更博學且有元認知的AI，從任何角度來說都比只有其中一項的AI更值得信賴。有興趣深入了解這項研究完整論證過程的讀者，可以通過arXiv編號2605.01428查閱全文。

---

Q&A

Q1：AI幻覺中提到的"判別力缺口"是什麼意思，為什麼重要？

A：判別力缺口指的是AI無法在個體問題層面準確區分自己哪些答案是對的、哪些是錯的。即使AI整體上"知道"自己大約60%的時候是對的，它也分不清具體哪道題對、哪道題錯，因此無法有針對性地對錯誤答案保持謹慎。這個缺口導致了一個兩難：要大幅降低錯誤率，AI必須對大量實際上正確的答案也拒絕回答，付出巨大的實用性代價。

Q2：AI表達不確定性為什麼會被"對齊訓練"破壞掉？

A：對齊訓練（如RLHF）的目標是讓AI的回答更符合人類偏好，而人類普遍更傾向於收到語氣確定、直接給出答案的回覆，而非猶豫不決的回答。這導致AI在訓練過程中被獎勵"表現自信"、懲罰"表達猶豫"，久而久之，即便AI的內部計算其實很不確定，它也學會了用自信的語氣掩蓋這種不確定性，原本就存在的內部不確定性信號就這樣被訓練過程磨掉了。

Q3：在AI代理系統中，元認知能力會影響哪些具體行為？

A：元認知能力直接影響AI代理的多個關鍵決策。首先是工具調用的時機判斷——當AI對某個問題本已有足夠把握時，它應該知道不需要額外搜索，而不是什麼都去查一遍；其次是對檢索結果的取捨——當搜回的資訊與AI自身知識衝突時，它需要根據各自的可信程度做出判斷，而不是無腦相信最新檢索到的內容；最後是任務終止的時機——什麼時候資訊已經足夠，什麼時候還需要繼續驗證，這些都依賴於AI對自身確信程度的準確感知。

贊助商廣告