這項由法國阿圖瓦大學聯合法國國家科學研究中心(CNRS)及法國大學研究院(IUF)共同完成的研究,於2026年4月發表,論文編號為arXiv:2604.24170,有興趣深入了解的讀者可通過該編號查詢完整論文。
一、問題的起點:AI說"我有60%把握",這話到底靠不靠譜?
假設你正在面試一位助手,讓他幫你判斷一份餐廳評論的情感傾向。他看完評論之後告訴你:"我有60%的把握認為這條評論是正面的。"你接下來怎麼辦?
這裡有個關鍵的問題藏在背後——這位助手的不確定性,到底來自哪裡?也許是因為他在培訓時見過的類似評論太少,導致判斷力不足;也可能是因為這條評論本身寫得太模糊,換十個人來看,也會得出截然不同的結論。這兩種情況,對你接下來的行動意味著完全不同的方向:前者告訴你要給助手更多練習樣本,後者告訴你應該找個更有經驗的人工審核。
然而,今天大多數AI系統在表達不確定性時,只會給你一個單一的數字,把這兩種截然不同的情況混在一起。這就好比一個醫生告訴你"這個病你有50%的概率康復",卻不說清楚他是因為醫學數據太少而無法判斷,還是因為你的病情本身就變數極大。兩種情況的應對策略差之千里,但這個數字卻讓你無從區分。
法國阿圖瓦大學的研究團隊針對這個問題提出了一套新的解決方案,他們將其命名為CREDENCE
,全稱是"置信集合
概念估計"(Credal Ensemble Concept Estimation)。這套系統的核心創新在於:它不只告訴你AI有多不確定,還告訴你AI為什麼不確定,並根據不確定性的類型,為決策者提供不同的行動建議。
二、兩種截然不同的"不知道":認識CREDENCE的核心分類
在深入了解這套系統的運作方式之前,有必要先理解研究團隊所區分的兩種不確定性。
第一種叫做"認知不確定性
",用專業一點的詞叫"epistemic uncertainty"。這種不確定性來自於模型自身知識的缺口。以一位剛入職的年輕醫生為例,當他第一次遇到一種罕見疾病時,他的不確定感來自於他見過的病例太少。但關鍵在於,這種不確定性是可以通過學習來消除的——只要給他更多相關病例,他就能變得更有把握。對於AI來說,這類不確定性意味著:模型在訓練時接觸到的類似情況太少,一旦補充足夠的訓練數據,它完全可以做得更好。
第二種叫做"偶然不確定性
",專業術語是"aleatoric uncertainty"。這種不確定性來自於輸入資訊本身固有的模糊性,不是AI的問題,而是現實世界本身就有爭議。比如"還不錯吧"這樣一句話,不管AI見過多少類似的評論,不管給它提供多少訓練數據,人類評註者對這句話的理解也會產生分歧——有人覺得這是正面評價,有人覺得是中性,有人甚至覺得是一種委婉的否定。這種情況下,增加訓練數據並不能讓AI變得更有把握,因為連人類專家都無法達成共識。
正是因為這兩種不確定性在本質上完全不同,它們應該觸發截然不同的應對措施。認知不確定性意味著需要收集更多數據、改進模型;偶然不確定性意味著需要將決策交由人類審核,或者直接告知用戶這個問題本身存在爭議。當AI把這兩種情況混為一談時,系統管理者便失去了採取正確行動的依據。
三、概念瓶頸模型
:先說概念,再做判斷
在介紹CREDENCE的具體工作方式之前,還需要了解它所依託的基礎框架——概念瓶頸模型(Concept Bottleneck Model,CBM)。這個框架的名字聽起來有些複雜,但背後的邏輯其實相當直觀。
以餐廳評價分類為例。傳統的AI系統會直接從評論原文跳到最終結論,比如"這條評論是正面的"。整個推理過程就像一個黑箱,沒有人知道AI是根據什麼做出這個判斷的。而概念瓶頸模型則在中間加了一個"停靠站",讓AI在得出最終結論之前,先對一些人類可以理解的具體屬性做出判斷。
在餐廳評價的例子中,這些中間屬性可以是:食物質量是否正面?服務質量是否正面?環境是否令人滿意?噪音水平是否可接受?AI首先對這四個具體屬性給出評估,然後再根據這四個評估綜合得出整體情感傾向。這樣的設計讓整個推理過程變得透明可見,人類可以檢查每個中間環節,甚至在必要時手動修正某個屬性的判斷,從而糾正最終結果。
然而,傳統的概念瓶頸模型在處理不確定性時存在致命缺陷:它對每個屬性只給出一個單一的概率值,比如"食物質量正面的概率是70%",這個數字把認知不確定性和偶然不確定性混在了一起,無法區分。CREDENCE的創新正是在這個關鍵點上展開。
四、CREDENCE的運作方式:五個"審閱官"加一個"歧義感知器"
研究團隊設計CREDENCE的方式,類似於一個精心設計的評審委員會體系,同時配備了一個專門檢測爭議性內容的特別感知器。
CREDENCE的核心架構分為四個階段。第一階段是資訊提取:將輸入文本交給一個凍結的預訓練語言模型,讓它生成文本的數字化表示,這一步就像是把原始評論翻譯成AI能理解的內部語言。
第二階段是多頭集成評估。這裡引入了一個關鍵設計:不是只有一個AI模組來對各個屬性做出判斷,而是同時有五個獨立的"審閱官"(稱為集成頭)來對同一屬性各自做出獨立評估。這五個審閱官之間存在刻意設計的差異——它們使用的是不同複雜度的低秩適應(LoRA
)技術,秩數分別為4、8、16、32、64,以及不同的隨機遮蔽率(dropout rate),從0.05到0.25不等,還有不同的資訊匯聚方式。這種差異化設計確保了五個審閱官在面對同一份文本時,能從不同角度做出獨立判斷,而不是像五個完全相同的複製人那樣總是得出一模一樣的結論。
第三階段是置信區間聚合。五個審閱官的判斷結果會被匯總,取其中的最小值和最大值,形成一個區間,比如"這條評論在食物質量上正面的概率落在60%到80%之間"。這個區間被稱為"置信集合"(credal set),來自不精確概率理論的學術傳統。區間的寬窄直接反映了審閱官之間的分歧程度:如果五個審閱官意見高度一致,區間就很窄,說明認知不確定性低;如果五個審閱官各說各話,區間就很寬,說明認知不確定性高。
在這個過程中,還有另一條平行運作的"偶然不確定性"評估通道。這是一個專門訓練的獨立模組,其任務是學習預測一段文本本身固有的歧義程度。這個模組在訓練時使用了真實的人類標註者分歧數據作為監督信號——也就是說,當不同的人類標註者對同一條評論意見不一時,這個模組被訓練去識別這種內在的歧義性。在實際推理時,這個模組不需要任何標註數據,它已經學會了從文本本身感知歧義程度。
第四階段是最終分類。將五個審閱官的平均判斷結果交給一個線性分類器,得出最終的預測標籤。與此同時,通過精確的區間算術運算,可以將屬性層面的不確定性區間傳播到最終分類結果上,得到每個可能標籤的置信上下界。
這整套設計的精妙之處在於認知不確定性和偶然不確定性從根本上來自不同的參數和不同的計算路徑,因此它們不可能在數學上相互混淆或坍縮成同一個數值。
五、實驗設計:在現實數據上檢驗理論的成色
研究團隊用四個真實數據集對CREDENCE進行了驗證,這四個數據集覆蓋了情感分析、情緒識別和毒性檢測三類典型的NLP任務。
CEBaB數據集是其中最重要的一個,包含約9800條餐廳評論,涵蓋食物、服務、環境和噪音四個屬性的人工標註,還有專門的"未知"標籤記錄標註者無法確定的情況,這類標籤占所有標註的52.2%。這個數據集的存在讓研究團隊能夠直接驗證:CREDENCE預測的偶然不確定性是否真的對應於人類標註者之間的真實分歧。GoEmotions數據集包含43000條來自Reddit的評論,涵蓋28種情緒類別,同樣有多個人工標註者。HateXplain數據集包含15000條關於仇恨言論檢測的樣本,有人工標註。SST-2數據集則包含67000條電影評論,概念標註由大型語言模型自動生成,作為擴展驗證和消融實驗用途。
研究團隊測試了六種不同規模的底層語言模型,包括三種編碼器模型(DistilBERT-base、RoBERTa-base、DeBERTa-v3-base,參數量從6600萬到1.84億不等)以及三種大型語言模型(Phi-3-mini、Mistral-7B、Llama-3.1-8B,參數量從38億到80億不等,使用LoRA微調)。
對比基準方法涵蓋了多種主流不確定性估計方法:貝葉斯近似的MC Dropout(50次隨機前向傳播)、深度集成(5個獨立訓練的模型)、溫度縮放(事後校準)、證據深度學習(基於Dirichlet分布的不確定性估計),以及多個CBM特定基準,包括標準CBM、CBM加MC Dropout、CBM加集成,以及概率CBM(P-CBM)。
評估指標設計得相當有針對性。任務準確率(Acc)直接衡量最終分類性能。認知不確定性的驗證指標(ρepi)是認知不確定性分數與預測錯誤之間的斯皮爾曼相關係數,正值意味著不確定性更高時模型更容易犯錯,這正是我們期望看到的。偶然不確定性的驗證指標(ρale)是偶然不確定性分數與標註者"未知"率之間的相關係數,正值意味著不確定性更高時標註者之間的分歧也更大。干預增益(ΔAcc)則衡量在將某些屬性的預測值替換為真實值後,最終準確率提升了多少。
六、實驗結果:數字背後的故事
研究結果展現出一幅清晰而令人印象深刻的圖景,而理解這幅圖景的關鍵在於理解"分離性"這個核心發現。
在偶然不確定性與標註者分歧的對應程度上,CREDENCE取得了大幅領先於所有基準方法的成績。以CEBaB數據集為例,表現最好的CREDENCE模型(基於DeBERTa或RoBERTa)達到了ρale = 0.785,而最好的基準方法(CBM加集成)只有0.356,提升幅度超過一倍。換句話說,當CREDENCE說"這段文本的偶然不確定性很高"時,現實中人類標註者的分歧程度也確實很高,兩者的吻合程度遠超現有方法。
在認知不確定性與預測錯誤的對應程度上,CREDENCE同樣穩步超過對標方法。以CEBaB數據集上的RoBERTa版本為例,CREDENCE達到ρepi = 0.287,而使用相同底層模型和相同數量集成頭(5個)的CBM加集成方法只有0.189。這意味著CREDENCE在預測AI會在哪裡犯錯這件事上,比現有最好的可比方法更準確。
最有說服力的驗證來自不同數據集之間的對比行為。SST-2數據集沒有多標註者分歧記錄,在這個數據集上,CREDENCE的偶然不確定性與預測錯誤之間呈現出輕微的負相關(ρale略小於0),意味著偶然不確定性高的樣本並不是更容易出錯的樣本。而在CEBaB數據集上,偶然不確定性與標註者分歧高度正相關(ρale = 0.785)。與此同時,在兩個數據集上,認知不確定性與預測錯誤都穩定地呈正相關。這種跨數據集的截然不同行為表明,兩種不確定性確實在追蹤兩種不同的現實現象,而不是同一個信號的兩種包裝。
更有趣的是,在CEBaB數據集中,按概念的歧義程度分析偶然不確定性的相關係數,可以看到一個穩步遞增的趨勢:食物質量屬性(25%的"未知"標註率)對應ρale = 0.72,服務質量屬性(45%未知率)對應0.78,環境屬性(63%未知率)對應0.81,噪音屬性(75%未知率)對應0.83。越是人類標註者無法達成共識的屬性,CREDENCE的偶然不確定性分數就越高,精準程度令人稱奇。
七、不確定性知道了,然後呢?四象限路由
框架
知道兩種不確定性的高低之後,能做什麼?研究團隊提出了一個直觀的四象限決策框架,將認知不確定性和偶然不確定性分別按高低劃分,得到四個不同的情況,每種情況對應不同的處理建議。
第一象限是低認知、低偶然的情況,研究團隊稱之為"信任區"。這種情況說明模型自信而且輸入清晰,典型文本是"服務非常出色,食物也很好"這樣明確表達的評論。對應的行動建議是放心自動化處理,準確率達到78.8%。
第二象限是高認知、低偶然的情況,稱為"數據區"。這種情況說明模型困惑,但輸入本身其實是清晰的,是人類標註者能夠輕鬆達成共識的文本,典型例子是"龍蝦通心粉十分美味,但服務糟透了"這樣同時包含正負面元素的評論。模型在如何綜合相互矛盾的屬性時犯了錯,但這個錯誤是可以通過更多訓練數據來修正的。對應的行動建議是優先進行主動學習,收集更多類似的混合情感訓練樣本,準確率只有56.6%。
第三象限是低認知、高偶然的情況,稱為"審查區"。這種情況最為微妙——模型自信,但輸入本身存在內在歧義,連人類專家也可能意見不一。典型例子是"令人失望"這樣簡短而含義模糊的評論,或者"就是這樣吧"這樣慣用語表達的評論。模型預測正確,但不同用戶可能對正確答案本身有不同看法。對應的行動建議是交由人工審核,不是因為模型犯了錯,而是因為這個判斷本身存在主觀性。這個象限的準確率實際上高達85.7%,這個數字背後的含義是:模型在這類文本上通常是對的,但標註者分歧告訴我們有些人會不同意這個答案。
第四象限是高認知、高偶然的情況,稱為"棄權區"。這種情況下模型困惑,輸入也存在固有歧義,典型例子是"去過很多次了"這樣沒有任何明顯情感信號的陳述。這類情況最好是拒絕給出預測,或者升級給領域專家處理,準確率為65.3%。
研究團隊還測試了另一個實際應用:選擇性概念干預。當標註預算有限時,應該優先讓人工標註者來修正哪些屬性的AI預測?研究發現,優先修正偶然不確定性最高的屬性,平均可以帶來18.9%的準確率提升;而優先修正認知不確定性最高的屬性,只能帶來平均4.3%的提升。這個結果可以直觀理解:偶然不確定性高的屬性,是那些人類標註者自己也感到困難的屬性,這些屬性往往對最終判斷結果影響最大;而認知不確定性高的屬性,反映的是模型在一些罕見或邊緣情況上的困惑,這些情況往往對整體預測影響有限。
八、當沒有人工標註數據時:優雅降級與替代方案
一個自然的疑問是:如果沒有足夠的人工標註者分歧數據來訓練偶然不確定性模組,CREDENCE還能用嗎?
研究團隊專門測試了幾種不同的偶然不確定性訓練模式,結果表明系統可以在沒有標註數據的情況下優雅降級。當使用有監督的標註者分歧數據(即CREDENCE的完整版本)時,ρale = 0.785,表現最好。當改用異方差負對數似然(一種無需標註數據、通過讓模型同時預測值和方差來隱式建模不確定性的方法)時,ρale = 0.523,大幅低於完整版本,但仍明顯高於完全不建模偶然不確定性時的0.356。當使用基於預測熵的無監督方法時,ρale = 0.412。在完全不使用偶然不確定性模組、僅靠集成方差作為代理指標時,ρale = 0.356。
貫穿所有這些變體的一個穩定特徵是:ρepi在所有配置下保持在0.279到0.285之間,說明改變偶然不確定性的訓練方式完全不影響認知不確定性的估計質量。這驗證了兩個組件在架構層面的真正獨立性。
研究團隊還通過一個額外的驗證來確認偶然不確定性分配的可靠性:將CREDENCE的偶然不確定性二分類結果與CEBaB數據集中真實的多標註者"未知"率進行Cohen's κ和Krippendorff's α計算,總體κ = 0.47,落在"中等一致性"範圍內。按屬性細分,食物質量屬性κ = 0.31,服務質量κ = 0.44,環境κ = 0.52,噪音κ = 0.61,與偶然不確定性相關係數的遞增趨勢完全吻合,表明高歧義屬性上人與模型的判斷一致性更高。
九、消融實驗:拆開來看,每個設計決策為何重要
研究團隊進行了大量消融實驗來驗證每個設計選擇的必要性,這些實驗揭示了CREDENCE有效性的深層邏輯。
在集成頭數量的影響方面,從H=1增加到H=20,認知不確定性的預測能力穩步提升,ρepi從0.052增至0.318;而偶然不確定性的預測能力幾乎保持不變,ρale穩定在0.774至0.785之間。這個結果本身就是對"結構性分離"設計的有力證明:增加更多的集成頭只強化了認知不確定性,對偶然不確定性毫無影響,因為兩者來自完全不同的參數。
在多樣性來源的貢獻方面,實驗將五種多樣性機制(隨機遮蔽率差異、LoRA秩差異、資訊匯聚方式差異等)逐一移除進行測試。結果顯示,完全統一配置的集成(所有頭相同)只能達到ρepi = 0.087,而完整CREDENCE達到0.287。每增加一種多樣性來源,都能提升認知不確定性的預測能力,同時對偶然不確定性幾乎無影響。這個結果驗證了一個反直覺的原則:認知不確定性的質量取決於集成成員之間是否真正存在分歧,而不僅僅取決於集成的數量。五個真正不同的審閱官,比十五個幾乎相同的克隆體更有價值。
在移除偶然不確定性模組的實驗中,結果非常清晰:ρepi保持不變(0.285 vs 0.287),而ρale從0.785驟降至0.356。這意味著單靠集成方差,無法捕捉人類標註者的真實分歧——模型在哪裡困惑,和人類在哪裡意見不一,是兩件完全不同的事情,必須用不同的方法分別去測量。
在LoRA秩配置的實驗中,等比數列配置{4, 8, 16, 32, 64}略優於等差數列{4, 19, 34, 49, 64}(ρepi分別為0.287和0.256),而倒序配置{64, 32, 16, 8, 4}效果相近(0.284),說明關鍵在於秩的多樣性而非特定的排列順序。
計算成本方面的比較也令人滿意:CREDENCE(5個頭版本)的參數量僅為1.26億,約為5個獨立完整模型集成(6.25億參數)的五分之一,訓練時間為後者的四分之一,推理時間為後者的三分之一,但在認知不確定性預測能力上(ρepi = 0.287 vs 0.189)和偶然不確定性預測能力上均大幅超越後者。共享的凍結編碼器是效率優勢的關鍵來源。
十、局限性與未來方向
研究團隊也坦誠地指出了這套方法目前面臨的局限。首先,CREDENCE的運作依賴於預先定義好的屬性集合,這些屬性需要人工標註,在某些領域這可能是一個較高的成本門檻。其次,集成推理需要同時運行5個概念頭(儘管可以並行),推理時間約為單模型的1.4倍。第三,當編碼器處於凍結狀態時,偶然不確定性的學習依賴於訓練數據中的標註者分歧標籤,在新領域中可能需要重新獲取此類數據。第四,認知不確定性與預測錯誤之間的相關係數雖然穩定,但並非完美,說明邊界情況可能同時受兩種不確定性影響,尚無法完全分離。
未來研究方向包括無監督偶然不確定性估計(不依賴標註者分歧數據的方法)、將框架擴展到生成式語言模型場景,以及探索比簡單平均更精巧的集成頭聚合方式。
說到底,這項研究解決的是AI系統中一個長期被忽視卻至關重要的問題:當AI表達不確定性時,這種不確定性到底來自哪裡,以及應該如何應對。法國阿圖瓦大學團隊給出的答案是一套結構性分離的框架,通過不同的參數路徑分別估計兩種不同性質的不確定性,並將這種區分直接轉化為可操作的決策建議。無論是醫療AI、法律文書分析還是內容審核系統,這種"不僅知道有多不確定,還知道為什麼不確定"的能力,都意味著決策者可以在正確的地方採取正確的行動,而不是把所有模糊情況一律交給人工審核或一律忽視。有興趣深入了解這套框架技術細節的讀者,可以通過論文編號arXiv:2604.24170查閱完整原文。
Q&A
Q1:CREDENCE框架區分的兩種不確定性有什麼本質區別?
A:認知不確定性來自AI模型自身知識的缺口,是因為訓練數據不足導致的,可以通過補充數據來改善;偶然不確定性來自輸入文本本身固有的歧義性,即使是人類標註者也會對其產生分歧,無法通過增加訓練數據來消除。兩者觸發完全不同的應對措施:前者建議收集更多數據改進模型,後者建議交由人工審核或告知用戶存在爭議。
Q2:CREDENCE框架在沒有人工標註分歧數據時還能正常使用嗎?
A:可以,但效果會有所下降。研究團隊測試了多種替代方案:使用異方差負對數似然方法時,偶然不確定性相關係數可達0.523,仍明顯優於不建模偶然不確定性時的0.356;而認知不確定性的估計質量在所有配置下均保持穩定,不受偶然不確定性訓練方式的影響。
Q3:CREDENCE框架比現有的AI不確定性估計方法好在哪裡?
A:最核心的改進在於結構性分離:現有方法通常只給出一個混合了兩種不確定性的單一數值,而CREDENCE通過讓兩種不確定性分別來自不同的參數路徑,確保它們在數學上無法相互混淆。在實驗中,CREDENCE的偶然不確定性與標註者分歧相關係數達到0.785,比最好的基準方法0.356提升超過一倍,且認知不確定性預測能力也穩步優於對標方法。






