說起人工智慧看圖識字這件事,你可能以為它總能準確無誤地理解我們給它的圖片和文字。但實際情況遠比這複雜。設想一下這樣的場景:你給AI展示了一張紅色正方形的圖片,同時配上一段文字說"這個正方形是藍色的"。此時AI該相信誰?是相信自己的"眼睛"還是相信文字的描述?
這個看似簡單的問題,實際上牽涉到當前多模態大語言模型面臨的核心挑戰。來自北京大學、南華工業大學、清華大學、喬治亞大學、阿卜杜拉國王科技大學以及MBZUAI的研究團隊,在2025年11月發表的一項研究中,對這個問題進行了深入探討。

這項研究最引人注目的地方在於,它第一次系統性地將AI處理衝突資訊的行為,拆解成了兩個可以量化的核心要素。第一個要素是"相對推理不確定性",說白了就是AI對兩種資訊來源分別有多大把握。第二個要素是"內在模態偏好",也就是在條件相似時,AI天生更傾向於相信圖像還是文字。過去的研究往往只關注最終的統計數據,比如統計AI有多少次選擇了文字描述,有多少次選擇了圖像資訊。但這種粗略的統計方式,就像只看考試的平均分,卻忽略了每道題的難易程度對學生答題的影響一樣。
AI的選擇困境:當眼見與耳聞不一致
在日常生活中,我們經常遇到眼睛看到的和耳朵聽到的資訊不一致的情況。比如朋友告訴你"那輛車是紅色的",但你明明看到的是一輛藍色的車。這時候,你會相信自己的眼睛還是朋友的話?對於今天的多模態AI系統來說,這種矛盾資訊的處理同樣是一個巨大挑戰。
多模態大語言模型(簡稱MLLMs)就像一位同時具備視覺和聽覺的智能助手,它能夠同時處理圖像和文本資訊。這種能力讓它在網頁導航、輔助視障人士等應用中發揮著重要作用。然而,當圖像顯示的是藍色汽車,而配文描述卻說是紅色時,AI必須做出選擇——這種行為被研究者稱為"模態跟隨"。這就像一位偵探面對兩份相互矛盾的證詞,必須決定相信哪一方。
以往的研究通常只是統計AI在大量案例中選擇相信圖像還是文本的比例,這種粗糙的方法就像只看偵探的破案率,卻忽略了每個案子的具體難度。北京大學團隊認為,這種方法忽視了一個關鍵因素:AI對每個單獨預測的信心程度。同樣是給出正確答案,有的模型可能非常確定,而另一個模型可能只是勉強猜對。即使是同一個模型,面對不同的問題,其確定程度也會有天壤之別。這種潛在的信心差異直接影響著模型在面對矛盾時的最終選擇。
破解謎團的新思路:雙重因素理論
研究團隊提出了一個革命性的觀點:AI的模態跟隨行為實際上是一個動態過程,受兩個核心因素共同支配。第一個因素是"相對推理不確定性",這反映了AI在處理純文本和純圖像時的信心差距。第二個因素是"固有模態偏好",指的是當兩種模態的推理難度相當時,AI天生的傾向性。
打個比方,這就像一位偵探在破案時會綜合考慮兩個方面。首先是證據的可靠程度——指紋證據可能比目擊證詞更可靠。其次是偵探個人的辦案習慣——有的偵探更相信物證,有的則更看重人證。當文本資訊的推理優勢(也就是其相對不確定性較低)足夠大,能夠克服模型對視覺資訊的潛在偏好時,AI才會選擇相信文本。
為了驗證這個假設,研究團隊精心設計了一套可控的實驗數據集。他們能夠獨立地調節視覺和文本輸入的推理難度,從而在不同的不確定性水平下觀察AI的行為。在顏色識別任務中,視覺難度通過添加干擾物、縮小目標物體或引入遮擋來控制。比如,低難度的圖像可能只有一個清晰的紅色方塊,而高難度的圖像則可能在眾多彩色形狀中包含一個被部分遮擋的小方塊。文本難度則通過推理複雜度來調節——從直接陳述"方塊是藍色的",到需要多步推理的"方塊的顏色和蝴蝶翅膀相同"。
研究團隊使用輸出熵來量化模型的感知不確定性。熵就像溫度計一樣,能夠精確測量AI的"猶豫程度"。低熵值表示AI非常確定自己的答案,就像偵探掌握了確鑿證據;高熵值則表示AI在多個可能答案之間搖擺不定,仿佛偵探面對模稜兩可的線索。

突破性發現:單調遞減的普適規律
研究的第一個重大發現令人驚嘆。通過對六個不同的多模態模型進行測試,包括LLaVA系列和Qwen-VL系列,研究團隊發現了一個普遍規律:隨著某一模態的相對不確定性增加,模型跟隨該模態的概率呈現出平滑的單調遞減趨勢。換句話說,當文本變得相對於圖像更難理解時,AI選擇相信文本的可能性會穩定且可預測地降低。
這個發現就像發現了一條物理定律。無論是哪種架構或規模的模型,都遵循著這個基本規律。這直接證實了研究團隊的核心假設:模態跟隨不是一個固定的特徵,而是一個受相對推理不確定性支配的動態行為。
更有趣的是"平衡點"的發現。雖然所有模型都遵循單調遞減規律,但它們的曲線在坐標軸上的位置各不相同。研究團隊將模型同等可能跟隨任一模態(50%的概率)時對應的相對不確定性值定義為"平衡點"。這個平衡點提供了一種原則性的、定量的方法來衡量模型的固有偏好。平衡點在零以下表示固有的視覺偏好(因為文本必須顯著更容易才能被同等對待),而平衡點在零以上則表示固有的文本偏好。

這個框架成功解釋了之前看似矛盾的現象。比如Qwen2-VL看起來比Qwen2.5-VL更傾向於跟隨視覺,但深入分析發現,這主要是因為Qwen2-VL在特定數據集上的視覺能力更強,導致更多數據點落在"視覺更容易"的區域。而Qwen2.5-VL實際上具有更強的固有視覺偏好,因為即使在文本明顯更容易的情況下,它仍然傾向於相信視覺資訊。
內部機制揭秘:模型的"思想鬥爭"
研究的第二個重大貢獻是揭示了AI內部的決策機制。為什麼當相對不確定性接近平衡點時,模型會表現出猶豫和平均化的行為?研究團隊通過逐層分析模型的推理過程,發現了"振盪"這一內部機制。

研究者將衝突場景分為兩類區域。在"清晰區域",一個模態顯著比另一個容易理解,模型會在早期處理層就快速且穩定地選定更容易的模態。這就像偵探面對一份清晰的指紋證據和一份模糊的目擊證詞,會毫不猶豫地選擇相信指紋。相反,在"模糊區域",兩個模態的不確定性水平相近,接近模型的平衡點,此時模型會表現出猶豫。這種猶豫在內部表現為"振盪"——模型的預測在文本支持的答案和視覺支持的答案之間反覆切換。
通過可視化技術,研究團隊展示了這種內部鬥爭的過程。在清晰區域,對數差異(文本答案的置信度減去視覺答案的置信度)會迅速偏向某一方並保持穩定。而在模糊區域,這個差異會在零附近徘徊,反映出模型的內部不確定性。這種數值上的猶豫正是振盪的直接原因。
一個具體的案例研究生動地展示了這一發現。研究者將同一張圖片與三個不同推理難度的文本配對。簡單文本讓模型快速穩定地選擇了文本;困難文本讓模型果斷地選擇了視覺;而中等難度的文本則讓模型陷入了內部的"思想鬥爭",其軌跡在決策邊界附近徘徊,完美詮釋了可控輸入難度如何塑造相對不確定性,進而決定模型的內部狀態和最終選擇。
研究的深遠意義
這項研究不僅在理論上取得了突破,更為實際應用提供了重要指導。通過理解AI如何處理矛盾資訊,我們可以設計更可靠的多模態系統。比如在自動駕駛場景中,當攝影機捕捉的圖像與地圖文本資訊衝突時,系統可以根據各自的不確定性水平做出更明智的決策。
研究還揭示了傳統評估方法的局限性。簡單的文本跟隨率或視覺跟隨率等宏觀指標具有誤導性,因為它們混淆了兩個不同的因素:模型的能力和其固有偏好。新框架成功地將這兩者分離,為更準確地評估和改進多模態AI系統提供了理論基礎。
更重要的是,這項研究為理解AI的"思維過程"提供了新視角。通過觀察模型內部的振盪行為,我們能夠直觀地看到AI在面臨困難決策時的"糾結"過程。這種理解不僅有助於改進現有系統,還為開發更透明、更可解釋的AI系統指明了方向。
研究團隊的工作還具有很強的普適性。他們在多個數據集和任務上驗證了發現的規律,包括顏色識別、物體識別、屬性識別和位置推理等任務,都觀察到了相同的單調模式。這證明相對不確定性與模態跟隨之間的關係是一個穩健而普遍的原則。
隨著多模態AI系統在各個領域的廣泛應用,理解它們如何處理衝突資訊變得越來越重要。這項研究提供的框架和見解,將幫助我們構建更智能、更可靠的AI系統,讓它們在面對複雜、矛盾的真實世界資訊時,能夠做出更好的判斷和決策。






