宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

多模態大模型也會「不懂裝懂」?港浸大團隊揭秘AI如何學會說「我不知道」

2025年09月26日 首頁 » 熱門科技

在人工智慧飛速發展的今天,多模態大語言模型(就是那些能同時看圖片、理解文字的AI系統)已經變得非常強大。不過,有一個問題一直困擾著研究者們:這些AI模型總是傾向於給出一個答案,哪怕它們其實並不確定。這就像是一個不願意承認自己不知道答案的學生,總是會猜一個答案而不是誠實地說"我不知道"。

這項由香港浸會大學的周凱楊教授領導、聯合阿聯穆罕默德·本·扎耶德人工智慧大學研究團隊開展的研究,於2025年9月發表在arXiv預印本平台上。研究團隊包括來自阿聯穆罕默德·本·扎耶德人工智慧大學的童炳奎,以及來自香港浸會大學的夏家爾和尚思豐。有興趣深入了解的讀者可以通過https://github.com/maifoundations/HumbleBench訪問完整的研究代碼和數據集。

這個問題其實比我們想像的更嚴重。當AI系統被用於醫療診斷、自動駕駛或者其他關鍵決策場景時,一個"不懂裝懂"的AI可能會帶來災難性的後果。就像一個醫生如果不確定病情卻硬要給出診斷一樣危險。研究團隊意識到,目前幾乎所有的AI評估方法都只關注"AI能否選對答案",卻忽視了一個更重要的能力:當所有選項都不對時,AI是否能夠勇敢地說"以上都不對"。

為了解決這個問題,研究團隊開發了一個全新的測試平台,叫做HumbleBench(謙遜基準測試)。這個名字很有意思,因為它要測試的正是AI模型的"認知謙遜"能力——也就是在不確定的時候承認自己不知道的智慧。這種能力在心理學中被稱為"認知謙遜",是人類理性思維的重要組成部分。當一個人面對不確定的資訊時,選擇保留判斷而不是盲目猜測,這恰恰體現了真正的智慧。

研究團隊構建了一個包含22,831個多選題的大型數據集,這是目前為止最大的AI幻覺評估數據集。每個問題都有五個選項,其中第五個選項永遠是"以上都不對"。這種設計巧妙地模擬了現實世界中的複雜情況:有時候,所有看似合理的答案其實都是錯的。

一、像偵探一樣構建測試題庫

構建這個測試平台就像是在組裝一個巨大的偵探推理題庫。研究團隊選擇了全景場景圖數據集作為"案發現場",這個數據集包含了超過4萬張圖片,每張圖片都有非常詳細的標註資訊,就像是案發現場的詳細勘察報告。

整個構建過程分為幾個關鍵步驟。首先,研究團隊需要從圖片中提取各種"證據"。對於物體和關係資訊,他們直接使用數據集中已有的精確標註,這就像是現成的指紋和DNA證據。但是對於屬性資訊(比如顏色、形狀、材質等),數據集中並沒有現成的標註,研究團隊就讓InstructBLIP模型來充當"證據分析專家",通過觀察圖片中裁剪出來的物體片段來描述它們的特徵。

接下來,研究團隊使用GPT-4-Turbo作為"題目編寫專家",基於這些證據資訊生成各種推理題目。這個過程特別有趣,因為GPT-4需要同時扮演出題者和干擾項設計師的角色。它不僅要根據真實的圖片內容出題,還要設計出看起來很合理但實際上完全錯誤的選項。這就像是在設計一個推理遊戲,既要有正確答案,也要有足夠迷惑性的錯誤選項。

最關鍵的是人工篩選環節。研究團隊開發了一套專門的審核軟體,讓人類審核員像法官一樣對每個題目進行最終裁決。審核員需要判斷題目是否清晰明確、選項是否合理、答案是否正確。在初始的41,843個候選題目中,最終只有22,831個通過了嚴格的篩選,通過率約為54.56%。這個過程確保了每個題目都經得起推敲,就像確保每個法庭案例都有充分可靠的證據支持。

二、三種不同類型的"推理陷阱"

HumbleBench設計了三種不同類型的測試,就像是三種不同的推理陷阱,分別考驗AI模型在不同方面的判斷能力。

第一種是物體幻覺測試,主要考驗AI能否準確識別圖片中到底有什麼東西。比如一張圖片中明明只有麵包,題目問"圖片中有多少個三明治?"正確答案應該是"以上都不對",因為圖片中根本沒有三明治。這就像是測試一個目擊證人能否準確描述現場看到的物品,而不是根據主觀推測添加一些實際不存在的東西。

第二種是關係幻覺測試,重點考察AI能否正確理解物體之間的空間關係和交互關係。例如,圖片中一個女人坐在椅子旁邊,但題目的所有選項都暗示她坐在椅子上面或者有其他關係,這時正確答案就是"以上都不對"。這種測試就像是在驗證證人能否準確描述事件中人物的位置關係和行為動作,而不是基於常識或偏見進行推測。

第三種是屬性幻覺測試,專門檢驗AI對物體特徵(如顏色、材質、形狀等)的判斷準確性。比如天空明明是藍色的,但所有選項都提供了其他顏色,這時AI應該選擇"以上都不對"。這類測試模擬了現實中需要精確觀察細節的情況,就像鑑定專家需要準確描述證物的特徵,不能因為主觀印象或常見情況而做出錯誤判斷。

這三種測試類型在數據集中相對均衡分布,物體類問題占31.64%,關係類問題占32.97%,屬性類問題占35.39%。這種平衡設計確保了測試的全面性,就像一個完整的能力評估需要覆蓋不同的認知維度一樣。

三、讓頂尖AI模型接受"謙遜考試"

研究團隊選擇了19個當前最先進的多模態AI模型進行測試,這些模型可以分為兩大類:通用型模型和推理特化型模型。通用型模型就像是全科醫生,什麼都懂一點;而推理特化型模型則像是經過額外訓練的專科醫生,在複雜推理方面應該更強。

在通用型模型中,表現最好的是Qwen2.5-VL,準確率達到了72.20%。這就像是班級里成績最好的學生,雖然已經很優秀,但距離滿分還有不小差距。其他模型的表現大多集中在60%左右,這意味著它們在面對"以上都不對"的情況時,有約40%的概率會被錯誤選項迷惑。

有趣的是,推理特化型模型並沒有表現出預期中的優勢。表現最好的GLM-4.1V-Thinking模型雖然達到了73.46%的準確率,但相比最好的通用模型只有微弱提升。更令人意外的是,有些推理模型甚至表現得比它們的基礎模型更差。比如R1-Onevision是基於Qwen2.5-VL進行推理能力強化訓練的,但它的表現(66.89%)明顯不如原始的Qwen2.5-VL(72.20%)。

這個結果就像發現經過專業訓練的專科醫生在某些基礎判斷上反而不如全科醫生一樣令人意外。研究團隊認為,這可能是因為推理模型的訓練過程過度強調了給出答案的能力,反而削弱了在不確定時保持謙遜的能力。這提醒我們,在AI訓練中,有時候教會模型"不知道就說不知道"比教會它們"無論如何都要給出答案"更加重要。

另一個有趣的發現是,模型的參數規模(可以理解為模型的"大腦容量")與表現並不嚴格相關。比如只有4B參數的Visionary-R1模型就超過了許多更大的模型,而12B參數的Pixtral卻被5B參數的Phi-4超越。這說明在培養AI的認知謙遜能力方面,訓練方法和數據質量比單純增加模型規模更重要。

四、極端壓力測試揭示AI的致命弱點

為了更深入地了解AI模型的弱點,研究團隊設計了兩個極端的壓力測試,就像是給汽車做極限性能測試一樣。

第一個壓力測試叫做HumbleBench-E,在這個測試中,所有題目的正確答案都被設置為"以上都不對"。這就相當於讓AI面對一堆完全沒有正確選項的題目,看它們能否堅持選擇"以上都不對"而不是被錯誤選項誘惑。

結果令人震驚。大多數模型在這個測試中的表現都急劇下降,甚至低於隨機猜測的基準線(20%)。表現最好的Qwen2.5-VL也只達到了28.89%的準確率,而在總體測試中表現最佳的GLM-4.1V-Thinking在這裡竟然只有0.06%的準確率,幾乎完全失效。更極端的是,包括LLaVA-Next、Molmo-D等在內的多個模型的準確率直接歸零,這意味著它們在面對全是錯誤選項的情況時,永遠不會選擇"以上都不對"。

這個結果就像發現即使是最優秀的學生,在面對全是陷阱題的考試時也會完全迷失方向。只有Cambrian模型表現相對正常,達到了60.68%的準確率,成為這場"誠實度測試"中的少數倖存者。

第二個壓力測試更加極端,叫做HumbleBench-GN。在這個測試中,研究團隊用完全的高斯噪聲圖像(就是電視沒信號時的雪花屏)替換了所有的原始圖片。由於這些噪聲圖像不包含任何有意義的視覺資訊,理性的AI應該對所有關於圖像內容的問題都回答"以上都不對"。

這個測試的結果暴露了AI模型的另一個嚴重問題:當缺乏視覺資訊時,它們往往會依賴語言模型的先驗知識來"編造"答案。比如當問到"天空是什麼顏色"時,即使圖像完全是噪聲,Qwen2.5-VL仍然會回答"灰色",因為它的語言部分"記得"天空通常是灰色或藍色的。

在這個測試中,不同模型的表現差異巨大。Qwen2.5-VL表現最佳,準確率達到90.53%,說明它能較好地識別噪聲圖像並拒絕給出具體答案。但Phi-4的準確率只有28.19%,儘管它在正常測試中的表現與Qwen2.5-VL相當。這種差異揭示了一個重要問題:有些模型雖然在正常情況下表現良好,但在面對無意義輸入時缺乏足夠的"視覺忠實度"。

五、AI"胡編亂造"背後的深層原因

通過對錯誤案例的深入分析,研究團隊發現了AI模型產生幻覺的幾個典型模式,就像醫生通過症狀分析找到病因一樣。

最常見的問題是AI模型缺乏選擇"以上都不對"的勇氣。就像前面提到的麵包和三明治的例子,圖片中明明是一塊麵包,但當問題問"有多少個三明治"時,AI會傾向於猜測"一個"而不是誠實地說"圖片中沒有三明治"。這種行為模式反映了當前AI訓練方式的一個根本問題:模型被訓練成總是要從給定選項中選擇一個答案,而不是學會在不確定時保持沉默。

第二種常見錯誤是關係幻覺,AI經常會根據常識或刻板印象來推斷物體之間的關係,而不是嚴格根據圖像內容。比如看到女人和椅子在一起,就默認女人坐在椅子上,而忽視了實際的空間位置關係。這就像一個目擊證人根據常理推測而不是根據實際觀察來作證一樣不可靠。

最嚴重的是視覺忠實度缺失問題。在噪聲圖像測試中,一些AI模型完全無視圖像內容,純粹基於問題中的文字線索來生成答案。當問到"天空的顏色"時,即使圖像是完全的噪聲,AI仍然會根據"天空"這個詞聯想到常見的顏色如"藍色"或"灰色"。這種現象說明這些模型在視覺和語言資訊的整合方面存在根本缺陷,就像一個人閉著眼睛卻聲稱看到了什麼一樣。

研究團隊還發現,模型的自注意力機制可能會過度偏向語言資訊而忽視視覺輸入。當視覺資訊不明確或缺失時,模型會自動切換到依賴預訓練語言知識的模式,導致它們"編造"出看似合理但實際上與圖像內容無關的答案。

這些發現揭示了當前多模態AI系統的一個根本性挑戰:如何在保持強大推理能力的同時,培養適度的不確定性和認知謙遜。這不僅是技術問題,更是AI系統設計理念的問題。

六、重新定義AI評估標準的意義

這項研究的意義遠超出了技術層面,它實際上在重新定義我們應該如何評估AI系統的可靠性。傳統的AI評估就像只看學生能否在選擇題中選對答案,而忽視了一個更重要的能力:知道自己不知道什麼。

HumbleBench填補了現有評估體系的關鍵空白。以往的幻覺評估基準主要採用簡單的是非判斷或者假設總有一個正確選項的多選題格式。這就像是在一個理想化的考試環境中測試學生,所有題目都有標準答案,學生只需要找到正確選項即可。但現實世界遠比這複雜,有時候所有看似合理的選項都可能是錯誤的,這時候承認"我不知道"反而是最明智的選擇。

研究結果顯示,即使是目前最先進的AI模型,在面對"以上都不對"的情況時也表現得相當脆弱。這個發現對AI系統的實際應用有重要啟示。在醫療診斷、法律諮詢、金融決策等高風險場景中,一個會"不懂裝懂"的AI系統可能比一個會說"我不確定,需要人類專家判斷"的系統更危險。

更深層次的意義在於,這項研究促使我們重新思考AI訓練的目標。當前的AI訓練往往過度強調準確率和性能指標,而忽視了不確定性建模和風險意識培養。就像教育一個孩子不僅要教會他們回答問題,更要教會他們什麼時候應該說"我不知道"一樣,AI系統也需要學會這種認知謙遜。

研究團隊還發現,單純增加模型規模並不能解決認知謙遜問題,有時甚至會讓問題變得更嚴重。這提醒我們,在追求AI系統能力提升的過程中,需要更多關注訓練數據的質量、訓練方法的設計,以及如何在模型中嵌入適當的不確定性機制。

七、為AI安全發展指明方向

這項研究不僅識別了問題,更為解決這些問題指明了方向。研究團隊的工作表明,要構建真正可信賴的AI系統,我們需要從根本上改變AI訓練和評估的範式。

首先,需要重新設計訓練數據和訓練目標。傳統的訓練方式鼓勵模型總是給出答案,即使在不確定的情況下也要"猜"一個。而新的訓練範式應該獎勵模型在不確定時選擇沉默,就像訓練一個負責任的專家一樣,不確定時寧可承認無知也不要給出可能誤導人的建議。

其次,評估標準需要更加全面和現實化。除了傳統的準確率指標,還應該包括模型的"誠實度"、"謙遜度"等指標。一個好的AI系統不僅要在知道答案時表現準確,更要在不知道答案時表現誠實。

研究團隊開源了HumbleBench的完整代碼和數據集,這為整個AI研究社區提供了一個標準化的工具來評估和改進模型的認知謙遜能力。這就像為醫學研究提供了標準化的診斷工具,使得不同研究團隊可以在同一個基準上比較和改進他們的方法。

對於AI系統的實際部署,這項研究也提供了重要的指導原則。在設計AI產品時,應該為用戶提供清晰的不確定性指示,讓用戶知道AI什麼時候是確信的,什麼時候是在猜測。這種透明度對於建立用戶信任和確保AI系統的負責任使用至關重要。

展望未來,認知謙遜可能會成為評估AI系統成熟度的重要標準。一個真正智能的系統不僅要知道很多事情,更要清楚地知道自己的知識邊界。這種自我認知能力是人類智慧的重要組成部分,也應該成為人工智慧發展的重要目標。

說到底,這項研究揭示了AI發展中一個看似簡單卻極其深刻的道理:有時候,承認"我不知道"比給出一個錯誤答案更需要智慧。隨著AI系統在我們生活中扮演越來越重要的角色,培養它們的認知謙遜不僅是技術進步的需要,更是確保AI安全發展的必然要求。當AI學會了說"我不確定",我們才能真正信任它們說的"我知道"。

Q&A

Q1:HumbleBench和其他AI測試有什麼不同?

A:HumbleBench最大的特點是每個題目都包含"以上都不對"選項,專門測試AI能否在所有選項都錯誤時承認不知道。傳統測試只看AI能否選對答案,而HumbleBench要看AI是否具備"認知謙遜"——即在不確定時拒絕猜測的能力。這更接近現實世界的複雜情況。

Q2:為什麼連最先進的AI模型在HumbleBench上表現都不好?

A:因為現有AI模型的訓練方式存在根本問題。它們被訓練成總要從給定選項中選擇一個答案,而不是學會在不確定時保持沉默。就像一個不願承認無知的學生總要猜一個答案,這些AI模型寧可選擇錯誤選項也不願選擇"以上都不對"。

Q3:這項研究對普通用戶使用AI有什麼實際意義?

A:這提醒我們在使用AI時要保持警惕,特別是在重要決策場景中。當前的AI系統很可能在不確定時還會表現得很自信,給出看似合理但實際錯誤的答案。用戶應該學會識別AI的不確定性信號,在關鍵問題上尋求多方驗證,而不是完全依賴AI的判斷。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新