AI看懂「弦外之音」：中科院軟體所等機構聯合攻克影片隱喻理解難題

這項由中國科學院軟體研究所中文資訊處理實驗室、快手科技、清華大學自動化系等機構聯合開展的研究，以預印本形式發表於2026年5月，論文編號為arXiv:2605.25461。

贊助商廣告

當你刷到一段影片，畫面里幾頭穿著燕尾服的豬圍坐豪華宴席大快朵頤，鏡頭切到桌下幾只貓在搶食殘渣——你很可能一秒鐘就明白了：這是在諷刺上層社會揮霍無度，而底層民眾艱難求存。這種"看圖說話"的能力對人類來說幾乎是本能，但對如今最頂尖的人工智慧而言，卻是一道真正的難關。

研究團隊注意到，現有的多模態大語言模型（簡稱MLLMs，可以理解為"能同時處理圖像和語言的AI"）在識別影片裡的物體、描述畫面發生了什麼這些基礎任務上表現不錯，但一旦涉及"這個畫面背後想表達什麼"，AI就開始犯難了。為了系統地研究和解決這個問題，研究團隊做了三件事：建立了一套專門用來測試AI隱喻理解能力的標準題庫（MetaphorVU-Bench），用這套題庫摸清了現有AI的真實水平和短板所在，最後提出了一種叫做MetaphorBoost的方法來幫助AI補足這塊短板。

---

一、為什麼"看懂弦外之音"這麼難

回到那個燕尾服豬的例子。當我們看到這個畫面時，大腦會自動完成一系列高難度操作：首先認出畫面里有豬、有燕尾服、有宴席、有桌下的貓；接著把"穿燕尾服的豬"這個奇怪組合和"權貴階層"聯繫起來，把"桌下搶殘渣的貓"和"底層民眾"聯繫起來；最後才能讀出畫面背後的社會批判。

認知科學把這個過程叫做"跨域映射"——把眼前看見的東西（視覺域）映射到一個完全不同的抽象概念世界（意義域）。對人類來說，這是日積月累的文化薰陶和生活經驗幫我們建立起來的直覺。但對AI來說，它在訓練時學到的更多是"豬就是豬、宴席就是宴席"這樣的字面關係，很少被訓練去做這種跨越具象與抽象的聯想跳躍。

更麻煩的是，隱喻影片無處不在。社交媒體上的短影片、廣告、公益宣傳片……大量內容都不是在直白敘事，而是用視覺語言"暗示"更深層的意思。如果AI理解不了這些，它在很多真實應用場景里就會顯得"智商不夠用"——比如內容理解、情緒分析、輿情研判等等。

贊助商廣告

---

二、給AI出一套"隱喻理解"考卷

研究團隊首先意識到，要衡量AI在這方面的能力，必須先有一套科學、系統的考題。於是他們花了大量精力，從零開始構建MetaphorVU-Bench這套評測基準。

這套題庫的源頭是快手短影片平台上的海量真實影片。研究團隊從數十億條影片出發，設計了一套四階段篩選流程，最終精選出860個真正含有隱喻邏輯的影片。第一步，他們先按評論數量過濾，只保留評論超過150條的影片，篩出約7萬條；因為評論多往往意味著這個影片引發了觀眾的深層思考或解讀。第二步，用GPT-5分析影片簡介、語音識別文字和評論，判斷是否存在隱喻邏輯，縮減到1.6萬條。第三步，用Gemini-3-Pro這樣的多模態AI直接看影片，核實前一步的分析是否符合實際畫面，進一步壓縮到4000條。最後，由人工團隊做最終審核，確認每條影片確實含有清晰的隱喻意圖，並標註隱喻類型，最終留下860條影片。

為了讓評測有理有據，研究團隊還專門構建了一套影片隱喻分類體系，把隱喻手法分成了八種類型。這八種類型並非隨意劃分，而是紮根於電影學、符號學、表演理論等多個學科的理論基礎。

第一類叫"肢體語言"，靠角色誇張或具有象徵意義的動作來傳遞含義，比如一個人越來越沮喪的走路姿態。第二類叫"氛圍語言"，通過畫面色調、光線、構圖的刻意變化營造情緒，比如畫面逐漸變暗來暗示心境低落。第三類叫"文化符號"，藉助特定文化中約定俗成的象徵物，比如放飛孔明燈代表祈願、升學前途。第四類叫"自然符號"，用動植物等自然元素的行為來映射人類情感，比如一隻公雞守在死去母雞旁邊不肯離去，暗喻忠貞的愛情。第五類叫"因果蒙太奇"，通過剪輯拼接暗示因果關係，讓觀眾自己推斷出邏輯鏈條，比如把戴上婚戒的鏡頭和做繁瑣家務的鏡頭接在一起，暗示對婚姻的顧慮。第六類叫"類比蒙太奇"，把兩組相似但不同的畫面並列，引導觀眾發現它們之間的類比關係，比如把成年人重玩童年遊戲和童年動畫並列，表達對童年的懷念。第七類叫"超現實敘事"，用動畫或AI生成的虛構角色和情節來打破物理規律，表達現實難以直述的意思，就像開頭那段穿燕尾服的豬的例子。第八類叫"表演性敘事"，由真人演員扮演誇張的劇情，通過故事轉折揭示諷刺或批判，比如一個強行要求年輕女孩讓座的老人最後發現對方是殘疾人，諷刺"道德綁架"現象。

贊助商廣告

在人工標註環節，研究團隊要求標註者參考影片簡介和觀眾評論，統一按照"哪些視覺元素傳遞了哪些隱含含義"的格式撰寫解讀。每條影片都經過三位標註者的交叉驗證，確保答案的準確性和一致性。為了排除字幕和語音內容對標註的干擾，團隊還提前用工具對所有影片進行了靜音和字幕去除處理，讓整個評測完全依賴視覺資訊。最終，860條影片的人工標註解讀平均每條約114個詞，覆蓋了教育壓力、社會批評、情感關係、人生感悟等大量日常生活話題。

---

三、AI現在的真實成績單

拿到了這套考題，研究團隊邀請了11款主流AI模型參加測試，包括GPT-5、GPT-4o、Gemini-3-Pro、Gemini-2.5-Pro、Qwen3-VL系列、Doubao-1.5-Vision-Pro等閉源產品，以及Qwen2.5-VL-7B、LLaVA-onevision等開源模型。同時還測試了一批專門增強推理能力的方法，包括VideoRFT、Vision-R1、ReAd-R、LTR、ViTCoT，以及思維鏈提示工程和少樣本示例兩種經典方法。

為了有參照物，研究團隊還從題庫中隨機抽取了100條影片，讓真人來做，把人類的得分作為上限標準。評分方式是用DeepSeek-V3 AI看懂弦外之音中科院軟體所等機構聯合攻克影片隱喻理解難題這個大語言模型充當"閱卷老師"，對照人工標註的標準答案，給AI的輸出評0到10分（折算為百分制展示）。研究還特地驗證了這個AI閱卷方式的可靠性：隨機抽100條讓人類評分和AI評分比較，兩者的皮爾遜相關係數達到0.85，統計顯著性極高，證明AI閱卷結果是可信的。

成績單出來後，情況比較明顯。真人的平均分是83.4分。表現最好的AI是Gemini-3-Pro，平均63.8分，GPT-5平均63.7分，兩者相差不多。其餘閉源模型基本在50到62分之間。開源的小模型差距更大，Qwen2.5-VL-7B只有33.8分，LLaVA-onevision也只有38.1分，即便是參數量大得多的Qwen3-VL-235B，平均也只有58.6分。

最好的AI和人類之間差了將近20分，而且這還是在給AI提供了影片標題這個額外資訊的前提下。換句話說，現有最頂尖的AI在理解影片隱喻方面，相當於一個只能讀懂字面意思、缺乏文化感知力的外行，而不是一個能讀懂"弦外之音"的內行。

贊助商廣告

那些專門增強推理能力的方法表現如何？結論相當令人意外。LTR和ViTCoT這兩種專門設計來增強物體識別和事件描述能力的推理方法，反而讓基礎模型的成績下降了。思維鏈提示和少樣本示例能帶來一些提升，但幅度很有限，平均提升也就兩三分。通過大量額外訓練數據進行強化學習的VideoRFT和Vision-R1，相比基礎模型的進步也微乎其微。這意味著，過去那些專注於"看清楚""描述準確"的AI增強手段，在"理解含義"這件事上幾乎無能為力。

---

四、AI到底在哪裡卡殼

為了搞清楚AI失分的根本原因，研究團隊手動翻查了大量AI的"做題過程"（也就是AI在給出最終答案前的內部推理記錄），發現了四種典型的失分模式。

第一種是"認錯了東西"——AI識別畫面里的視覺元素時出錯，把豬認成了別的，或者沒認出來是燕尾服。第二種是"漏掉了聯繫"——AI認出了豬和燕尾服，但完全沒有把這個組合和"權貴"這類抽象概念聯繫起來，直接跳過了。第三種是"聯繫太淺"——AI能做出一點點聯繫，但只停留在表面，比如說"豬穿著燕尾服，顯得很奇怪，也許表示這隻豬想裝成貴族"，而沒有深入到"諷刺真實社會中的權貴群體"這個層次。第四種是"聯繫方向錯了"——AI確實做出了跨域映射，但映射到了錯誤的概念上，導致解讀偏差。

研究團隊統計了這四種錯誤在兩個代表性模型（Gemini-3-Pro和Qwen3-VL-8B-Thinking）中的占比，結論非常明確：認錯東西只占大約10%到14%，而各種形式的"跨域映射失敗"（漏掉、太淺、方向錯）加起來占了80%以上。

這個發現非常關鍵，因為它告訴我們：AI的問題不是"眼神不好"，而是"聯想能力不夠"。過去我們訓練AI的時候，大量精力花在提升識別準確率、描述能力上，但對這種從具體到抽象的"意義跳躍"訓練得太少。

研究團隊還發現，八種隱喻類型中，AI在前四類（肢體語言、氛圍語言、文化符號、自然符號）上表現相對較好，在後四類（因果蒙太奇、類比蒙太奇、超現實敘事、表演性敘事）上表現明顯更差。原因不難理解：後四類的影片往往包含更多層次的隱喻元素，需要AI做更多、更複雜的跨域映射，而這恰恰是AI的弱點所在。

贊助商廣告

---

五、給AI裝一張"隱喻地圖"

既然問題出在跨域映射上，研究團隊的解題思路就變得清晰了：與其讓AI自己"無中生有"地猜測象徵意義，不如給它準備一張現成的"隱喻地圖"，告訴它哪些具體的東西通常象徵哪些抽象的概念。

這張"隱喻地圖"就是他們構建的隱喻知識圖譜。用圖書館來打個比方：這個知識圖譜就像一本超級厚的《隱喻詞典》，裡面記錄了大量"A象徵B"的配對關係，而且每個詞條之間還有交叉索引，可以順藤摸瓜地查幾層關聯。

具體來說，研究團隊收集了四個公開的文本隱喻數據集，總共包含約3.7萬條帶有隱喻含義的文本（其中一部分原本是中文，團隊用GPT-5翻譯成了英文以保證通用性）。然後用DeepSeek-V3從每段文本里提取"源概念→目標概念"的隱喻配對，比如從"他用鎖鏈束縛了自己的思想"這句話里提取出"鎖鏈→心理束縛"這個配對。最終積累了54,687個概念節點和200,268條邊（即概念之間的關聯關係），構成了整個隱喻知識圖譜。

有了這張地圖，研究團隊設計了MetaphorBoost這套方法來在AI答題時使用它。整個流程分三步。第一步，讓AI先仔細看影片，把畫面里出現的所有有意義的視覺元素列出來，比如"豬、燕尾服、宴席、桌下的貓、食物殘渣"。第二步，拿著這些關鍵詞去查隱喻知識圖譜，沿著關聯關係最多走兩跳（即兩層關聯），找出和這些關鍵詞連接最緊密的抽象概念，默認返回前10個最相關的結果，比如"權貴→腐敗、揮霍→社會財富、弱者→被剝削"等。第三步，把這些檢索到的隱喻概念作為參考提示，讓AI結合實際影片內容生成最終的隱喻解讀，並在提示里特別說明這些參考只是靈感來源，不能完全依賴。

研究團隊還做了一個巧妙的設計：檢索時優先返回那些同時與多個關鍵詞都有連接的概念節點，而不是隨機返回。這背後的邏輯是：如果一個抽象概念既和"豬"有關，又和"燕尾服"有關，還和"宴席"有關，那它很可能就是這個影片真正想表達的核心意義。這種"多線索匯聚"的方式能有效降低誤導性參考的干擾。

贊助商廣告

---

六、驗證效果：確實管用，而且原因清晰

MetaphorBoost在三個不同規模的基礎模型上都進行了測試，結果一致有提升。基於Qwen2.5-VL-7B這個小模型，平均分從33.8提升到37.9，提升了4.1分，表現超過了所有專門做了額外訓練的強化方法。基於Qwen3-VL-8B-Thinking，從52.0提升到55.9，提升3.9分，超過了所有推理時擴展方法。基於Gemini-3-Pro這個最強基礎模型，從63.8提升到66.1，提升2.3分，達到了所有參與測試方法中的最高分。

為了證明提升是真實有效的，而不是偶然的數據波動，研究團隊還專門分析了AI在引入MetaphorBoost前後，"漏掉聯繫"、"聯繫太淺"、"聯繫方向錯"這三類問題的出現次數變化。結果顯示，三類問題在使用MetaphorBoost之後都明顯減少。比如在Gemini-3-Pro上，漏掉聯繫的次數從一個較高數值降低了，聯繫太淺和方向錯誤的情況也同步減少。這直接驗證了MetaphorBoost確實在幫助AI完成那個關鍵的"跨域映射"動作，而不只是在做無謂的優化。

研究團隊還做了一系列消融實驗來驗證設計決策的合理性。首先，如果不用外部知識圖譜，改成讓AI自己問自己來補充聯想，效果會下降，說明外部知識的補充是真正有效的，AI自身的知識庫在這方面確實有缺口。其次，如果不用圖譜結構，改成直接從原始文本數據集裡檢索，效果也會下降，說明圖譜的結構化關係比散亂的文本更有利於準確召回隱喻概念。再者，如果把專門構建的隱喻知識圖譜換成通用常識知識圖譜ConceptNet，效果同樣下降，說明隱喻理解需要的不是普通常識，而是專門的隱喻域知識。

超參數實驗也驗證了默認設置（最多走兩跳、返回10個結果）是相對最優的配置，走一跳或者只返回5個結果都會讓效果有所下滑，說明適度的深度和數量能在覆蓋面和噪聲之間取得較好的平衡。

---

歸根結底，這項研究做了一件重要的事：它把"AI能不能理解影片的言外之意"這個模糊的問題，變成了一個可以精確測量、系統分析、針對性改進的工程問題。從建立八類隱喻的分類體系，到篩選860條真實影片並精細標註，再到發現"跨域映射失敗"是AI的核心瓶頸，最後用隱喻知識圖譜作為認知腳手架給AI補足短板——整個研究形成了一條完整的認知鏈條。

贊助商廣告

目前最好的AI與人類之間仍有將近20分的差距，而且MetaphorBoost雖然有效，提升幅度也相對有限，說明這個問題還有很大的探索空間。影片中的隱喻往往高度依賴特定的文化背景，知識圖譜目前主要覆蓋通用隱喻，對文化特異性的隱喻理解還相對薄弱。未來如何讓AI真正"入鄉隨俗"地理解不同文化語境下的隱喻，可能是這個方向上下一個值得深挖的問題。

對那些關注AI應用的讀者來說，這項研究提示了一個現實：當我們把AI用在內容審核、情感分析、影片理解等領域時，需要清醒地意識到，當前的AI對"話外音"的感知能力還相當有限，依賴它來解讀含有大量隱喻的內容時需要保持足夠的謹慎。有興趣深入了解全部細節的讀者，可以通過arXiv編號2605.25461查閱完整論文。

---

Q&A

Q1：MetaphorVU-Bench這套評測基準是怎麼篩選出來的，憑什麼說它選的影片質量有保障？

A：MetaphorVU-Bench經過四輪篩選。先按評論數量過濾留下7萬條，再用GPT-5分析文字內容壓縮到1.6萬條，然後用Gemini-3-Pro直接看影片核實到4000條，最後由三名人工標註者逐條審核，任何一人認為影片隱喻不明確就直接剔除，最終留下860條。每條影片的解讀也經過"一人寫、兩人審、三人共同修改直到滿意"的流程，並提前做了影片靜音和字幕去除，確保評測完全依賴視覺內容。

Q2：MetaphorBoost為什麼要用圖譜結構，直接搜索文本數據集不行嗎？

A：研究團隊專門做了對比實驗。把隱喻知識圖譜換成直接檢索原始文本數據集，整體平均分會下降約1.6分。原因在於圖譜的結構化關係能同時利用多個關鍵詞之間的交叉連接來鎖定最相關的抽象概念，而散亂的文本檢索更容易帶回噪聲資訊或不相關的隱喻配對。圖譜天然支持多跳查詢，可以發現"A→B→C"這樣的間接隱喻關聯，這是平鋪文本做不到的。

Q3：現有AI在哪幾種隱喻類型上表現最差，原因是什麼？

贊助商廣告

A：AI在因果蒙太奇、類比蒙太奇、超現實敘事、表演性敘事這四類上表現明顯更差，最差的類型得分有時只有30多分，而最好的類型能達到60到70分以上。原因是這四類影片通常包含更多層次的隱喻視覺元素，需要AI同時對多個元素做跨域映射並整合成一個連貫的含義，而前四類相對更依賴單一的象徵符號，難度較低。簡單說，越複雜的"暗語系統"，AI越讀不懂。