神廟大學研究發現：AI回答問題時，「第一個字」就已經暴露了它是否在胡說

這項由美國天普大學電腦與資訊科學系完成的研究，以預印本形式於2026年5月發表，論文編號為arXiv:2605.05166，有興趣深入了解的讀者可通過該編號查詢完整原文。

贊助商廣告

當你向一個朋友問路，他如果真的知道怎麼走，往往會毫不猶豫地開口說"直走然後左轉"。但如果他其實不確定，他會先停頓一下，猶豫地說"呃……好像是……往那邊？"——那個開口之前的停頓，那個第一個字吐出來時的遲疑，往往比他最終給出的答案本身更能告訴你他到底知不知道。

這篇研究的核心思路，正是這麼簡單：當大型語言模型（也就是我們常說的AI聊天機器人）回答一個問題時，它在生成答案的第一個詞的時候，究竟是胸有成竹還是患得患失？這個瞬間的"猶豫程度"，能不能直接告訴我們它接下來說的話是真知灼見還是一本正經的胡說八道？

研究團隊給這個"猶豫程度"起了一個正式的名字，叫做"第一個詞的置信度"，用希臘字母φ（phi）加下標"first"來表示，簡稱φfirst。他們發現，這個單一的、從AI回答第一個詞時就能讀取的數字，在判斷AI是否在"幻覺"（也就是胡編亂造）這件事上，表現得比那些需要讓AI把同一個問題回答十遍再做比較的複雜方法，還要略勝一籌——而且計算成本只有後者的十一分之一。

這個發現，可能會改變未來所有檢測AI是否在撒謊的工具的設計思路。

一、AI為什麼會"一本正經地胡說八道"

要理解這項研究解決的問題，需要先聊聊AI"幻覺"這件事。現代的大型語言模型，比如你可能用過的各種AI助手，在回答問題時並不是真的去"查資料"——它們更像是一個讀過海量書籍的人，憑記憶回答你的問題。這種方式的問題在於，當它們"記不太清楚"的時候，它們不會說"我不知道"，而是會非常流暢地編出一個聽起來很合理但實際上是錯誤的答案。研究者把這種現象叫做"幻覺"。

幻覺的危險性在於它的流暢性。AI說錯話的時候，往往和說對話的時候語氣一樣自信，一樣有條有理，讓人很難從表面判斷真假。這就催生了一個重要的研究方向：怎麼判斷AI說的話到底靠不靠譜？

贊助商廣告

目前最主流的一種方法叫做"自我一致性檢測"。原理很直接：把同一個問題問AI很多遍，看它每次給的答案是不是一致的。如果AI每次都說"莎士比亞寫了哈姆雷特"，那大概率是對的；如果它有時說莎士比亞，有時說別人，那就說明它自己也不確定。這個方法有一定效果，但有個顯而易見的問題——同一個問題要問十遍，成本太高了。

後來研究者又升級了這個方法，叫"語義自我一致性"。這個升級版不只是看AI每次給的答案字面上是否一樣，而是用另一個專門的AI模型來判斷這些答案的意思是否相同。比如"威廉·莎士比亞"和"莎翁"意思相同，但字面不同，升級版方法能識別出它們其實是同一個答案。這個方法更精準，但代價更大——要跑十次AI生成，還要再跑一遍專門的語義判斷模型。

天普大學的這支研究團隊想到了一個更根本的問題：我們真的需要問這麼多遍嗎？AI在第一次回答的第一個詞的時候，是不是就已經把它的"底"給露出來了？

二、偵探如何在嫌疑人開口的瞬間判斷真假

研究團隊的核心思路，可以用一個"偵探審訊"的場景來理解。經驗豐富的偵探知道，嫌疑人在被問到關鍵問題時，回答的第一個字往往最能說明問題。如果他張嘴就來，乾脆利落，說明他心裡有數，這個說法經過了充分"預演"。如果他開口前有個明顯的遲疑，嘴裡發出"呃……"或者"這個……"，說明他的大腦正在臨時處理這個問題，答案的可靠性就要打一個問號。

大型語言模型在生成文字的時候，有一個同樣的"猶豫時刻"。模型在生成每一個詞之前，實際上會在內部對詞彙表里所有可能的詞都打一個分數，分數高的詞更可能被選中輸出。這些分數經過處理後，可以看作是模型認為每個詞作為下一個詞的"概率"。

當模型被問到"哈姆雷特是誰寫的"時，如果它腦子裡非常確定，那麼"莎士比亞"這個詞或者它的第一個字符，會占據絕大多數的概率權重，其他所有詞的概率幾乎可以忽略不計。但如果模型不太確定，那麼這個概率會被分散到好幾個不同的候選詞上——"莎士比亞"、"馬洛"、"培根"……都可能有相當的概率，模型只是碰巧選了其中最高的那個輸出。

贊助商廣告

φfirst這個指標，衡量的正是這種概率分散程度的反面——也就是概率集中程度。研究團隊取AI在生成答案第一個有實際內容的詞時，概率最高的前100個候選詞，重新歸一化它們的概率，然後用一種叫"熵"的數學工具來衡量這些概率有多分散。熵越高，說明概率越分散，模型越猶豫；熵越低，說明概率越集中，模型越確定。最終的φfirst是用1減去歸一化後的熵，所以φfirst越高代表模型越有把握，越低代表模型越迷茫。

這個計算只需要AI跑一遍就能完成，不需要任何額外的模型，也不需要重複提問。

三、考場上的實驗設計

為了檢驗這個思路是否真的管用，研究團隊設計了一套相當嚴格的實驗。他們選擇了三個主流的開源AI模型，分別是Llama-3.1-8B、Mistral-7B-v0.3和Qwen2.5-7B，都是目前研究界常用的中等規模指令調優模型，參數量在70億到80億之間。如果你不熟悉這些名字，可以把它們理解為三個來自不同廠商、能力相近的AI助手，就像不同品牌但配置相當的智慧型手機。

測試的題目來自兩個標準的知識問答數據集。第一個叫PopQA，考的是關於各種事物的事實性問題，比如名人、地理、歷史等，這類問題的答案通常很短，一兩個詞就夠了；第二個叫TriviaQA，考的是各類知識競賽風格的問題，答案稍微複雜一些，涉及更多領域。每個數據集各抽取1000道題，三個模型都在同樣的1000道題上作答，這樣才能做公平的比較。

判卷的工作交給了另一個更大的AI模型（Qwen2.5-14B-Instruct的壓縮版），它會綜合考慮問題、AI給出的答案，以及標準答案的所有可接受形式，來判斷AI答對沒有。這相當於請了一個懂規矩的閱卷老師，而不是只靠死板的字符串匹配。

與φfirst對比的方法一共有五種，按照成本從低到高排列。最簡單的是"口頭置信度"，直接讓AI說出自己對答案有多大把握，給一個0到100的分數；接下來是三種不同精度的表面形式一致性檢測，分別是完整答案匹配、前三個詞匹配和只看第一個詞匹配，這三種都需要把同一個問題重複問10遍然後統計答案一致率；最後是語義自我一致性，同樣需要重複問10遍，但用DeBERTa這個專門的語義理解模型來判斷答案含義是否相同，然後統計意義一致的比例。

贊助商廣告

評價所有方法的標準，是一個叫AUROC的數字，你可以把它理解為"這個方法有多善於把真正答對的情況和答錯的情況區分開來"。AUROC等於0.5意味著完全隨機，跟拋硬幣沒區別；等於1.0意味著完美區分。一般來說，超過0.8就算是不錯的表現了。

四、"第一個詞"的驚人戰績

實驗結果相當令人印象深刻。從整體平均成績來看，φfirst獲得了0.820的AUROC，而最貴的對手——語義自我一致性只拿到了0.793，完整答案匹配的表面形式一致性是0.791，前三個詞匹配是0.782，只看第一個詞的匹配是0.752，直接讓AI自報把握度的口頭置信度最慘，只有0.700。

口頭置信度墊底這件事本身就值得多說兩句。讓AI直接說"我對這個答案有多少把握"，聽起來最直接，但實際上效果最差。這和以前很多研究的發現一致——AI在被要求直接評估自己的把握度時，往往並不可靠，它可能對錯誤答案充滿信心，也可能對正確答案過于謙虛。這說明AI並不擅長進行這種元認知——也就是"對自己的認知進行認知"這件事。

更細緻地拆分來看，φfirst在六個"數據集-模型"組合（兩個數據集乘以三個模型）里，有五個組合都取得了最高分，剩下那一個組合也只比最強對手低了0.002分，差距小到可以忽略不計。

在PopQA數據集上，φfirst的優勢更為明顯，三個模型的平均AUROC達到了0.875，而語義自我一致性只有0.839，差距超過了0.036。在TriviaQA數據集上，φfirst仍然領先，但差距縮小到了0.016。研究團隊對此有一個合理的解釋：TriviaQA的答案往往更長、字面形式更多變，這給了重複採樣的方法更多"施展空間"——不同的回答表述方式里，仍然攜帶了有用的一致性資訊。而PopQA的答案短，重複採樣能提供的額外資訊就更有限。這個細微的差異，後來也被研究團隊老老實實地列為局限性。

五、勝利是否站得住腳——統計檢驗的證明

單看AUROC數字還不夠，因為這些數字是在特定的1000道題上算出來的，萬一只是碰巧好呢？研究團隊為此做了一種叫"配對自助檢驗"的統計測試，通俗來說就是：把這1000道題反覆隨機抽樣重組，看在這些隨機重組的版本里，φfirst依然比對手好的比例有多高。如果這個比例超過95%，就認為差距是真實穩健的，而不是偶然。

贊助商廣告

結果顯示，φfirst對比完整答案匹配的表面形式一致性，在六個組合里有四個通過了這個檢驗；對比語義自我一致性，有三個組合通過了檢驗。那些沒通過的組合，差距在統計上不顯著，意味著在這些情況下兩者實力相當，而不是φfirst明顯落後。對比最簡單的只看第一個詞匹配的方法，φfirst在全部六個組合都通過了檢驗，贏得乾脆利落。

研究團隊對此的表述非常誠實：對於語義自我一致性，φfirst在部分情況下是"略勝"，在其他情況下是"打平"，而不是全面碾壓。這個客觀的描述，讓這項研究的結論顯得更加可信。

六、兩者說的是同一件事嗎？

φfirst和語義自我一致性成績接近，這本身就引出了一個有趣的問題：它們是不是在衡量同一種東西？換句話說，φfirst有沒有已經把語義自我一致性的資訊都"包含"進去了？

研究團隊為此專門做了一個"資訊包含性測試"。他們先看兩個指標之間的皮爾遜相關係數——這個數字越接近1，說明兩者走勢越一致，類似於兩個體溫計測量同一個人的體溫，結果必然高度吻合。計算結果顯示，六個組合里這個相關係數在0.54到0.76之間，均值為0.67。也就是說，兩者中等偏高度相關，走勢大體一致，但並非完全重疊。

更關鍵的測試是：如果把φfirst和語義自我一致性兩個指標合併在一起用（通過一個簡單的邏輯回歸模型把兩者結合成一個綜合判斷），比只用φfirst能提升多少？如果語義自我一致性提供了大量φfirst沒有的資訊，那合併之後應該有顯著提升；如果兩者說的基本是同一件事，那合併之後幾乎不會有提升。

實驗結果是：合併兩者之後，AUROC平均只提升了0.021，在六個組合里有五個提升幅度不超過0.025。這個提升微乎其微，說明φfirst已經捕獲了語義自我一致性絕大部分的判斷能力。多花十倍的計算成本去跑語義自我一致性，帶來的額外收益極為有限。

贊助商廣告

七、"答案越長越不自信"——這是真的嗎？

研究團隊還仔細檢驗了一個潛在的干擾因素：答案長度。有一種擔憂是，φfirst可能只是在間接衡量答案的長短——比如，答對的短答案往往第一個詞就很確定，而答錯的長答案往往第一個詞就更猶豫。如果是這樣，φfirst的有效性可能只是一種"身高歧視"，而不是真正在判斷模型的認知狀態。

為了檢驗這個擔憂，研究團隊做了兩步分析。第一步，直接算φfirst和答案長度之間的相關性，結果在0.11到0.25之間，方向是負的（越長越低置信度）。這個相關性本身不算強，只能解釋最多6.5%的變化，但確實存在。

第二步，研究團隊用了一個統計技巧，叫"偏相關"——簡單來說，就是先把"答對還是答錯"這個因素的影響從兩個變量里都去掉，然後再看剩餘的相關性。背後的邏輯是：我們知道答錯的模型往往既更猶豫（φfirst低），又傾向於生成更長的答案來掩飾不確定性。如果把這個共同原因去掉，φfirst和答案長度之間還剩多少關聯？

在PopQA數據集上，這個殘餘相關性從-0.13到-0.16縮水到了-0.02到-0.04，幾乎消失了。這說明在PopQA上，φfirst和答案長度之間的表面關聯，幾乎完全是因為兩者都跟"答對沒答對"相關，一旦控制了這個共同原因，兩者就基本獨立了。

在TriviaQA數據集上，情況略有不同：Llama和Mistral模型的殘餘相關性分別是-0.18和-0.17，下降幅度不如PopQA那麼徹底。研究團隊對此的態度依然誠實——這說明在TriviaQA上，答案長度對φfirst確實有一定的獨立影響，雖然不大，但無法完全排除。這也被明確列入了研究的局限性清單。

八、這項研究的邊界在哪裡

任何研究都有其適用範圍，這項研究的團隊在這方面非常坦誠。φfirst目前只在英語環境下的封閉式短答案事實問答上經過了驗證，所謂"封閉式"，是指模型完全憑自己的記憶來回答，不藉助任何外部文檔。這種設定下，第一個詞往往就決定了答案走向，所以第一個詞的信心高度有代表性。

贊助商廣告

但如果換成需要大段推理的問題，比如"請分析第一次世界大戰的主要原因"，答案的第一個詞可能只是一個"第"字，完全看不出模型接下來要說什麼。或者如果換成需要先檢索文檔再作答的場景，模型的不確定性來源就不只是記憶，還有檢索結果，第一個詞的信心可能無法代表全局。

此外，φfirst需要能夠訪問模型生成每個詞時的原始概率分布，這意味著它對那些只提供最終文字輸出、不開放內部數據的商業API（比如某些封閉的雲端AI服務）是完全不適用的。

研究團隊還在初步分析中發現，如果不只看第一個詞，而是把整個回答過程中所有詞的置信度匯總起來，在TriviaQA上可以獲得更好的效果。這個方向被留作未來的研究課題，意味著φfirst可能只是這類單次解碼置信度方法的冰山一角。

說到底，這項研究告訴我們一件很有實用價值的事情：在你決定花大價錢、大算力去問AI十遍同樣的問題之前，先花點時間看看它第一次回答的第一個詞有多自信——這個幾乎免費的信號，往往已經足夠告訴你它接下來說的話值不值得信任。

研究團隊為此建議，未來任何聲稱能檢測AI幻覺的新方法，都應該先把φfirst作為一個廉價的基準線報告出來，只有明顯超越了這個簡單基準，新方法的額外成本才算物有所值。

這個發現本身有一種令人愉快的簡潔感——AI在開口的那一刻，就已經在某種程度上"供認"了它自己是否心中有數。我們需要做的，只是學會讀懂那個瞬間。如果你希望深入了解這項研究的所有細節，可以在學術預印本平台通過編號arXiv:2605.05166查閱完整論文。

Q&A

Q1：什麼是"AI幻覺"，為什麼很難被發現？

A：AI幻覺是指大型語言模型在不知道正確答案的情況下，仍然流暢地編造出一個聽起來合理但實際錯誤的答案。之所以難以發現，是因為AI在說錯話時語氣和說對話時幾乎一樣自信，沒有明顯的猶豫或警示信號，普通用戶很難從表面判斷真假。

贊助商廣告

Q2：第一個詞置信度檢測方法需要額外購買工具或服務嗎？

A：不需要額外工具，但前提是你能訪問模型生成每個詞時的內部概率數據。這對開源模型完全可行，但對那些只開放文字輸出、不開放內部數據的商業AI接口則無法使用，這是該方法目前最主要的適用限制。

Q3：語義自我一致性和第一個詞置信度哪個更適合實際應用？

A：對於短答案事實問答場景，兩者效果相當，但第一個詞置信度的計算成本只有語義自我一致性的約十一分之一，還不用額外部署語義理解模型。實際應用時優先使用第一個詞置信度更經濟，只有當答案較長、形式多變時，語義自我一致性才能體現出些許額外優勢。