AI也會「說謊」？Adobe研究院推出雙重核查機制，讓大語言模型的每一句話都有據可查

這項由Adobe及Adobe Research團隊共同完成的研究，以預印本形式發布於2026年4月23日，論文編號為arXiv:2604.21193，感興趣的讀者可通過該編號檢索完整論文。

贊助商廣告

我們每天都在和各種AI助手打交道——問它們問題，讓它們幫忙寫文章，甚至請它們輔助醫療諮詢和法律分析。這些AI往往表現得非常自信，措辭流暢、邏輯清晰，看起來什麼都懂。但有一個令人不安的事實：它們有時會一本正經地編造根本不存在的事實，而且說謊的時候和說真話時一樣鎮定自若。

這個問題在學術界有個專門的名字叫"幻覺"（hallucination），意思是AI憑空生成了聽起來合理但實際上錯誤的資訊。這在日常聊天裡也許只是個小笑話，但在醫療、法律、科學這些領域，一個錯誤的陳述可能帶來嚴重後果。正是為了應對這一挑戰，Adobe的研究團隊構建了一套名為DAVinCI的框架——這個名字既致敬了文藝復興時代的全才達·芬奇，也是"雙重歸因與驗證推斷"這一英文全稱（Dual Attribution and Verification in Claim Inference）的縮寫。

DAVinCI的核心思路可以用一個生活場景來理解：假設你的朋友告訴你一件事，你會怎麼判斷他說的是否可信？你可能會追問"你從哪裡聽來的"，然後自己去查一查那個消息來源是否靠譜，最後再結合他平時的可信度打個折扣。DAVinCI做的事情與此完全一致——它先追問AI的陳述"證據在哪裡"，再由一個獨立的"檢察官"來判斷證據和陳述是否吻合，最後還會給出一個置信度評分，如果這個評分太低，就主動說"我不確定"而不是強行下結論。

這套框架在FEVER和CLIMATE-FEVER兩個公開數據集上進行了測試，最終將分類準確率和F1分數提升了5%到20%。接下來，我們就來詳細拆解這套系統究竟是如何運作的，以及它的每個組件究竟起到了什麼作用。

一、AI為什麼會"說謊"，而且說得這麼自信

要理解DAVinCI解決的問題，首先得弄清楚大語言模型（LLM）究竟是個什麼東西。

贊助商廣告

可以把大語言模型理解成一個讀了海量書籍、文章和網頁的"超級鸚鵡"。它通過不斷預測"下一個詞應該是什麼"來生成文本，這個過程讓它產生了驚人的語言流暢性。但問題在於，它在生成文字時並沒有一個獨立的"事實核查部門"在旁邊把關。它只是在做統計意義上的詞語拼接——哪些詞在語言上最自然地接在前面的內容後面，它就輸出哪些詞。

正因如此，當它遇到一個它"不太確定"的問題時，它不會說"我不知道"，而是會生成一段聽起來最像正確答案的文字。這就像一個臨時抱佛腳的學生在考試中遇到不會的題，憑著對題目風格的感知硬寫了一段聽起來像正確答案的內容——有時候能蒙對，有時候則完全是無中生有。

這個問題在高風險領域尤為突出。研究團隊引用了大量前人工作來說明這一點：從新聞核查、到科學寫作、再到法律分析，人們對AI輸出內容的可信度越來越高，但AI自身的"自我約束"機制卻遠未跟上。現有的解決方案各有局限：有的系統只做資訊檢索，不做真假判斷；有的系統只做真假判斷，卻不說明判斷依據。更關鍵的是，大多數系統把"找證據"和"判斷真假"當成兩個完全獨立的步驟，沒有讓這兩個環節相互配合、相互增強。DAVinCI要做的，正是把這兩個環節打通，讓"找什麼證據"和"怎麼判斷真假"形成一個互相反饋的閉環。

二、DAVinCI的兩大核心引擎：歸因模組與驗證模組

DAVinCI的工作流程好比一套嚴格的新聞核查程序，分為兩個緊密相連的環節。

第一個環節是"歸因"，即找證據。當系統收到一個待核查的陳述（比如"卡羅琳·甘迺迪是美國人"），歸因模組的任務是找出與這個陳述最相關的證據文本。研究團隊在這裡設計了兩種不同的策略，分別應對不同的現實場景。

第一種策略叫做"全證據歸因"，即直接使用完整的證據段落。在FEVER和CLIMATE-FEVER這兩個數據集中，每個陳述都配有經過人工標註的標準證據文本，系統可以直接拿來使用，不做任何裁剪。以上面的例子為例，證據就是："卡羅琳·布維爾·甘迺迪（生於1957年11月27日）是一位美國作家、律師和外交官，曾於2013年至2017年擔任美國駐日本大使。"有了這段完整的證據，"她是美國人"這一陳述就被標記為"支持"（ENTAILMENT）。

贊助商廣告

第二種策略叫做"基於片段的歸因"，更接近現實世界的使用場景。在真實情況下，我們往往沒有現成的標準證據，只有一大堆可能相關的文本。這時候，系統會調用一個專門的問答模型（基於RoBERTa架構的閱讀理解模型），把待核查的陳述當作"問題"，從候選證據中抽取最相關的一段文字作為答案。這種方法的優點是能夠精確定位關鍵資訊，但缺點是可能遺漏重要的上下文，正如後面的實驗結果所揭示的那樣。

用一個類比來說明這兩種策略的區別：全證據歸因好比你拿到了一整份偵探報告，所有線索都完整呈現；而基於片段的歸因則像你只能從報告中挑出幾句關鍵句子，有時候單句話脫離上下文會產生歧義，判斷難度自然更大。

第二個環節是"驗證"，即判斷真假。歸因模組找到證據之後，這段證據會連同原始陳述一起被送入一個"自然語言推理"（NLI）模型。這個模型的任務是判斷：給定這段證據，該陳述是"被支持的"、"被反駁的"，還是"證據不足"？

系統的輸入格式非常直接，就是把陳述和證據拼在一起：[陳述] [分隔符] [歸因證據]。模型會為這個組合給出一個標籤，同時輸出一個介於0到1之間的置信度分數——0表示完全不確定，1表示非常確定。

研究團隊測試了四種不同的驗證模型，分別是微軟的DeBERTa-large、Facebook的RoBERTa-large、Facebook的BART-large，以及一個在多個推理數據集上聯合訓練的RoBERTa-large模型。這四種模型各有側重，通過對比它們的表現，研究團隊能夠更全面地評估DAVinCI框架的通用性，而不是僅僅為某一個模型量身定製。

三、置信度重校準：給"不確定"一個合法出口

DAVinCI最具特色的設計之一，是它的置信度重校準機制。

在沒有這套機制的情況下，驗證模型會對每一個輸入都給出一個確定的答案——要麼支持，要麼反駁，要麼證據不足。但現實中存在大量"灰色地帶"：證據模糊、陳述含義不清、或者找到的證據段落本身不夠充分。在這種情況下，模型往往會給出一個"勉強的答案"，但它的置信度分數會比較低，反映出內在的不確定性。

贊助商廣告

DAVinCI的做法是設置一個閾值τ（默認值為0.6）：如果模型的置信度分數低於這個閾值，無論它原本給出什麼標籤，都會被強制改為"資訊不足#"（Not Enough Info#，用"#"符號表示這是經過重校準後的結果）。這就相當於給模型設了一條底線：只有當你足夠有把握的時候，才能下結論；否則，誠實地承認"我不確定"遠比給出一個錯誤答案更有價值。

這種設計背後有深刻的實踐智慧。回到新聞核查的比喻：一個負責任的記者在證據不充分時，寧願說"目前尚無定論"，也不會冒險發布一篇可能出錯的報道。DAVinCI的重校準機制正是把這種職業素養內化進了系統的決策邏輯。

對於有多條證據的情況，DAVinCI會對各條證據的驗證結果進行匯總，採用多數投票或加權平均的方式得出最終判斷。這進一步提升了系統的魯棒性，避免單條質量較差的證據導致錯誤結論。

研究團隊還對不同的閾值設置進行了系統性測試，分別測試了0.7、0.8和0.9三個閾值，以探索精確率與召回率之間的權衡關係。這部分內容在後面的消融實驗中會詳細展開。

四、測試場地：兩個專為"核查真假"設計的數據集

為了評估DAVinCI的實際表現，研究團隊選擇了兩個在事實核查領域具有廣泛影響力的數據集。

FEVER數據集是事實核查研究的經典基準，包含從維基百科中提取的陳述，每條陳述都被人工標註為"蘊含"（entailment）、"矛盾"（contradiction）或"中立"（neutral），並附有相應的證據句子。研究團隊使用的子集共包含2287條樣本，其中蘊含類792條、矛盾類812條、中立類683條，三類分布相對均衡。

CLIMATE-FEVER數據集則聚焦於氣候變化這個專業領域，陳述來源於科學文獻，標籤分為"支持"、"反駁"和"資訊不足"三類。這個數據集的特殊之處在於它的類別分布極為不均衡：在共計1535條樣本中，"資訊不足"類有996條，占比接近65%，而"反駁"類只有164條。這種不均衡性讓分類任務更具挑戰性，也更貼近現實——在真實的科學聲明中，大量陳述都處於"無法確定"的狀態。

贊助商廣告

這兩個數據集的組合非常有意思：FEVER測試的是通用知識領域的核查能力，CLIMATE-FEVER則考驗系統在專業科學語境下的表現。一個真正有用的核查系統，必須在這兩個場景下都能可靠運作。

五、實驗結果：DAVinCI的全面表現

研究團隊將DAVinCI與"純驗證基線"進行了對比，即直接將完整證據輸入驗證模型、不做任何歸因處理或置信度重校準的版本。這種對比設計讓我們能清楚地看到，DAVinCI的哪些環節真正帶來了性能提升。

在FEVER數據集上，四個模型經過DAVinCI-Recalibrated處理後，均表現出一致的提升。以DeBERTa-large為例，準確率從0.42提升到0.48，宏觀F1分數從0.36提升到0.41，宏觀精確率從0.52躍升至0.61，加權精確率從0.53提升至0.62。RoBERTa-large-mnli的提升更為顯著，準確率從0.36提升至0.44，宏觀F1分數從0.30增至0.38。BART-large的提升相對溫和，準確率從0.42提升至0.43，F1分數從0.36提升至0.37。RoBERTa-large-snli的準確率從0.38提升至0.42，宏觀F1分數從0.34提升至0.40。

在CLIMATE-FEVER數據集上，DAVinCI同樣帶來了跨模型的一致提升。DeBERTa-large的準確率從0.60提升至0.63，加權F1從0.51提升至0.55。RoBERTa-large-mnli的準確率從0.60提升至0.63，加權F1從0.54提升至0.57，宏觀F1從0.38提升至0.44。BART-large的整體提升較為平穩，RoBERTa-large-snli則從基線的0.65準確率提升至0.66，加權F1從0.54提升至0.56。

值得關注的是，在這兩個數據集上，DeBERTa-large-mnli在經過DAVinCI處理後，在精確率指標上表現最為突出——FEVER上達到宏觀精確率0.61、加權精確率0.62，這意味著當它做出判斷時，這些判斷的質量相當可靠。而即便是基線分數較低的RoBERTa-large-mnli，在DAVinCI的加持下也獲得了顯著提升，說明這套框架的增益效果不依賴於某一特定模型的先天優勢，具有相當好的普適性。

六、消融實驗：拆開零件，看看誰最重要

消融實驗是研究中非常重要的一個環節，它的作用好比拆解一輛汽車，把發動機、變速箱、剎車系統一個個單獨測試，看看拿掉哪個零件會讓車跑不動。DAVinCI的消融實驗主要比較了三件事：全證據歸因和片段歸因哪個更好，以及不同的置信度閾值如何影響性能。

贊助商廣告

關於全證據歸因與片段歸因的對比，實驗結果非常清楚地指向了同一個方向：完整證據遠勝於提取片段。在FEVER數據集上，全證據版本比片段版本在準確率上高出9%到18%，F1分數也更加穩定。最極端的例子是RoBERTa-large-snli：使用全證據時，它的宏觀F1分數可以達到0.48；而只用提取片段時，這個分數直接跌到0.19——足足相差29個百分點。

在CLIMATE-FEVER數據集上，差距同樣明顯但稍微小一些：全證據版本相對於片段版本的準確率提升幅度在1.6%到19.6%之間，其中RoBERTa-large-mnli的提升幅度接近20%，DeBERTa-large和BART-large的提升幅度在5%到7%之間。

這個結果背後的邏輯其實不難理解：核查一件事的真假，往往需要理解整段話的語境，而不是某個孤立的片段。把一句話從上下文中抽出來，有時候意思會完全反轉。這對AI系統在實際應用中如何進行資訊檢索提出了明確要求：寧可多檢索一些完整段落，也不要過度依賴精準但可能斷章取義的短片段。

關於不同閾值的影響，研究團隊在FEVER和CLIMATE-FEVER兩個數據集上分別測試了0.7、0.8、0.9三個閾值，發現了一個在兩個數據集上均成立的規律：閾值越高，精確率越高，但召回率越低，整體準確率也隨之下滑。

在FEVER數據集上，閾值0.7時DeBERTa-large的準確率為0.47，到0.8時降至0.46，0.9時進一步降至0.45。最極端的變化發生在RoBERTa-large-snli上：閾值0.7時準確率為0.38，宏觀F1為0.33；到了0.9時，準確率跌至0.31，宏觀F1更是暴跌至0.19。

在CLIMATE-FEVER數據集上，情況略有不同——精確率隨閾值提高而穩步上升，而準確率的下降幅度非常有限，最大不超過1.6%。這說明對於CLIMATE-FEVER這個類別分布不均衡的數據集，提高閾值在不大幅犧牲準確率的前提下，能顯著減少誤判。

綜合來看，閾值0.7在兩個數據集上都提供了精確率與召回率之間最佳的平衡點，而閾值0.9則適合那些"寧可放過，不可錯殺"的高風險場景——比如醫療或法律領域，在這些場景中誤報的代價遠大於漏報。

贊助商廣告

七、這套系統有哪些局限，未來路在何方

任何誠實的研究都必須正視自己的局限，DAVinCI也不例外。

第一個局限是對高質量證據的依賴。DAVinCI的表現建立在能夠找到相關證據的前提之上。在FEVER和CLIMATE-FEVER這樣的數據集中，證據是由人工標註提供的，質量有保障。但在真實的開放域場景中，系統需要從網際網路或知識庫中自動檢索證據，檢索質量直接決定了後續驗證的上限。消融實驗中片段歸因的糟糕表現，正是對這一問題的預警。

第二個局限是驗證模組依賴靜態的推理模型。當前使用的四個NLI模型都是在特定數據集上訓練好的固定模型，它們可能難以處理需要多步驟推理的複雜陳述，也可能在面對特定領域的專業詞彙時表現欠佳。

第三個局限是缺少內部歸因能力。DAVinCI目前只能追溯"外部證據"——即從現有文本中找證據。但它無法追溯AI生成某個陳述的內部原因——比如是訓練數據中的哪些內容導致了這個陳述，或者是模型結構的哪個部分產生了這個輸出。這種"內部歸因"能力對於真正理解和糾正AI的幻覺問題同樣至關重要。

第四個局限是語言覆蓋範圍有限。目前的實驗完全在英語數據集上進行，對於中文、法語、西班牙語等其他語言的適用性尚未經過驗證。

第五個局限是閾值需要人工調整。當前的置信度閾值是手動設定的，在不同領域、不同任務之間可能需要重新調整，缺乏自適應能力。

針對這些局限，研究團隊規劃了若干未來方向：引入密集檢索器（如DPR、E5）替代當前的片段提取方式，增強資訊檢索質量；開發多跳推理模組，處理需要串聯多條證據才能判斷真假的複雜陳述；探索基於提示追蹤（prompt tracing）或激活聚類（activation clustering）的內部歸因技術；將框架擴展至多語言和低資源語言環境；以及研究自適應的置信度校準策略，減少對人工調參的依賴。

贊助商廣告

說到底，DAVinCI解決的是一個非常實際的問題：我們已經把大量的信任交給了AI，但AI並不總是值得信任。這套框架的價值不在於讓AI變得更聰明，而在於讓AI變得更誠實——不只告訴你答案，還告訴你答案的依據，甚至在沒有足夠依據時主動承認不確定。

從實驗數據來看，這套設計路線是有效的。在FEVER和CLIMATE-FEVER兩個數據集上，無論是準確率、精確率、召回率還是F1分數，DAVinCI都實現了一致的、跨模型的提升，改善幅度在5%到20%之間。更重要的是，這套框架是模組化的——歸因模組和驗證模組可以獨立替換和升級，這意味著隨著檢索技術和推理模型的持續進步，DAVinCI的整體性能也有望隨之水漲船高。

我們正處於AI被廣泛應用於高風險決策的關鍵時期，一個能夠說出"這是我的依據，我有X%的把握"的AI系統，遠比一個只會給出答案卻無法解釋原因的系統更值得信賴。如果你對這套框架的技術細節感興趣，可以通過論文編號arXiv:2604.21193查閱完整論文，或訪問文中提到的代碼倉庫獲取可復現的實現版本。

Q&A

Q1：DAVinCI框架和普通的AI事實核查系統有什麼區別？

A：普通的AI核查系統通常只做"驗證"這一步，即判斷某句話是真是假，但不解釋判斷依據。DAVinCI的不同之處在於它將"歸因"和"驗證"打通成一個閉環：先找證據，再根據證據判斷真假，最後還會給出置信度評分——如果評分太低，系統會主動說"我不確定"而不是強行下結論。這種設計讓整個判斷過程透明可追溯，更適合醫療、法律等高風險領域。

Q2：DAVinCI中的置信度閾值是什麼意思，普通用戶需要關心它嗎？

A：置信度閾值（τ）是一個門檻值，當系統對某個判斷的把握低於這個門檻時，它會自動把結論改為"資訊不足"，而不是給出一個不可靠的答案。研究發現0.7是兩個測試數據集上最佳的平衡點，但如果應用場景對準確性要求極高（如醫療診斷），可以提高到0.9，代價是會有更多陳述被標記為"不確定"。普通用戶如果直接使用基於DAVinCI的產品，不需要手動調整，但了解這個機制有助於理解為何系統有時會說"無法確認"。

贊助商廣告

Q3：DAVinCI框架目前支持中文或其他語言嗎？

A：目前不支持。DAVinCI的所有實驗均在英語數據集（FEVER和CLIMATE-FEVER）上進行，研究團隊也明確將多語言和低資源語言的擴展列為未來工作方向之一。因此，現階段這套框架主要適用於英語場景，中文或其他語言的適用性需要等待後續研究。