這項由伊利諾伊大學厄巴納-香檳分校聯合哥倫比亞大學和谷歌共同完成的研究,於2026年6月以預印本形式發布,論文編號為arXiv:2606.20970,有興趣深入了解的讀者可通過該編號查閱完整原文。
人和人之間的交流,從來都不只是嘴巴說了什麼。當你的朋友用一種特別平淡的語氣說"哦,真棒啊",你立刻就能聽出那是諷刺。當一個人說話時眼神飄忽、嘴角帶著不自然的微笑,你知道他在撒謊或者掩飾什麼。這種從表情、聲音、肢體動作和語言內容中綜合讀取真實含義的能力,是人類社交智能的核心。然而,對於當今最先進的人工智慧系統來說,這件事依然非常困難。
研究團隊將這個問題稱為"有多模態輸入,不代表用對了多模態"。換句話說,一個AI系統雖然能同時接收影片、音頻和文字,但它不一定知道在什麼情況下應該重點聽聲音、什麼情況下應該重點看臉、什麼情況下聲音和畫面是互相矛盾的。正是為了解決這個問題,研究團隊提出了一個叫做CogniRoute的系統,並配套建立了一個叫做OmniSocialBench的測試基準。最終結果表明,CogniRoute在社交影片理解任務上比最強的開源同類系統高出了將近27個百分點,甚至超越了谷歌旗下Gemini這類頂級商業系統超過15個百分點。
---
一、當AI"看"不懂人心:問題出在哪裡
為了理解這項研究到底在解決什麼難題,不妨先想像一個場景。你正在觀看一段影片,畫面里一個人嘴上說"沒事,我很好",但聲音裡帶著哽咽,眼眶微微泛紅,手指在桌上不停地敲擊。如果有人問你"這個人現在心情怎麼樣",你肯定不會相信他嘴上說的"沒事",而會綜合所有信號判斷他其實很難過。
現有的AI系統在面對這類問題時,表現出一個讓研究者頭疼已久的毛病。這些系統雖然擁有同時處理影片、音頻和文字的能力,但它們並不知道哪個信號在這道特定的題目里才是關鍵線索。有時候它們給出了正確答案,但那只是碰巧猜對了,背後的推理過程其實用錯了證據。就像一個考試作弊的學生,雖然答案寫對了,但根本沒有真正理解題意。
更麻煩的是,現有的測試數據集通常只告訴AI"正確答案是什麼",卻不告訴它"為什麼是這個答案""應該重點看哪段影片""聲音和畫面之間的關係是什麼"。這就好比只給廚師一份菜譜的最終成品照片,卻不告訴他食材的比例、烹飪的順序和每個步驟的火候。廚師可能做出一道賣相相似的菜,但裡面的味道和營養成分可能完全不對。
研究團隊還特別指出,這個問題在社交場景中尤為突出。社交互動中充滿了模糊性和歧義——一個手勢、一個眼神、一個停頓都可能改變整段對話的含義。在這類場景里,AI如果只是靠"猜"而不是靠真正理解證據來回答問題,危害是非常大的。
---
二、破案需要"專家分工":MoE架構是什麼
在深入了解CogniRoute的設計之前,需要先理解一個叫做"混合專家"(Mixture of Experts,MoE)的架構。這是AI系統內部的一種組織方式,非常類似於一個大型偵探機構的運作模式。
一個大型偵探機構里有很多不同專長的偵探。有擅長分析現場視覺證據的,有專門解讀當事人聲音和說話方式的,有精通社會關係網路的,也有專門研究時間線和事件先後順序的。當一個案件進來,機構不會讓所有偵探同時上陣處理每一個細節,而是根據案件類型,把合適的偵探派到合適的崗位上。
AI系統里的"專家"就是處理資訊的不同模組。在處理每一個輸入時,系統會從眾多專家模組中挑選一部分來處理當前的資訊,而不是讓所有模組都同時工作,這樣既節省計算資源,又能讓合適的模組處理合適的資訊。
問題在於,在現有的MoE系統中,這個"派活"的路由器(Router)是怎麼決定派哪些專家的呢?答案令人有些失望:它主要依賴於每個輸入詞的局部特徵,並通過預測下一個詞的訓練目標來間接優化。這就相當於偵探機構的調度員只看每個字的表面意思來分配偵探,而不考慮案件的整體性質——是需要視覺鑑定的案件,還是需要語音分析的案件,還是需要梳理人際關係的案件。調度員從未接受過"根據案件類型分配專家"的專項訓練,完全靠本能和運氣。
CogniRoute的核心創新,就是給這個路由器裝上了一套"案件分類手冊",讓它學會根據每道題的證據類型、推理需求和時間範圍來決定派哪些專家出馬。
---
三、案件檔案:認知圖式是什麼,怎麼用
研究團隊給每一個訓練樣本都編制了一份"案件檔案",他們把這個檔案叫做"認知圖式"(Cognitive Schema)。這份檔案從三個維度來描述每道問題的證據結構。
第一個維度叫做"證據來源"。這個維度回答的問題是:要回答這道題,主要應該依賴視覺資訊、音頻資訊,還是兩者兼需?更特殊的情況是,畫面和聲音是不是相互矛盾的,答案需要從這個矛盾中推斷出來?具體來說,這個維度有四種可能的標籤。"視覺"表示主要證據來自面部表情、肢體動作、場景布置等畫面資訊;"音頻"表示主要證據來自說話內容、音調、笑聲、沉默等聲音資訊;"聯合"表示兩種模態都很重要,缺一不可;"衝突"表示視覺和聽覺傳遞了相反的信號,答案需要理解並解決這個矛盾,比如前面提到的那個說"沒事"卻哭著的人。
第二個維度叫做"推理需求"。這個維度描述的是回答這道題需要什麼類型的思考過程。它有六種標籤。"直接感知"是最簡單的,直接從可見或可聽的線索中得出答案;"時序推理"需要理解事件發生的先後順序和時間關係;"因果推理"需要找出什麼導致了什麼;"心理狀態推理"需要推斷一個人隱藏的情緒、意圖或信念;"社會規範推理"需要理解社會習俗、角色期待和場合的適當性;"反諷推理"需要識別字面意思和真實意圖之間的落差。
第三個維度叫做"時間範圍"。這個維度說明的是回答問題需要看影片的哪個範圍。"瞬時"表示只需關注某個短暫的時刻;"局部窗口"表示需要看關鍵事件前後的一小段連續片段;"長程"表示證據分散在整段影片的大部分時間裡;"多片段"表示需要把影片中幾個分散的不連續片段聯繫起來分析。
這三個維度的標籤組合在一起,就構成了一道題的完整認知圖式。例如,一道關於"某人拒絕請求時表現如何"的題,其認知圖式可能是:證據來源=衝突(嘴上答應但肢體語言顯示排斥),推理需求=心理狀態推理(需要推斷其真實態度),時間範圍=局部窗口(只需關注對話發生的那段時間)。
有一點特別重要:這份"案件檔案"只在訓練階段使用,幫助AI學習如何根據問題類型分配專家資源。一旦訓練完成,正式使用CogniRoute解答問題時,它根本看不到這份檔案,只能憑藉自己在訓練中學到的"直覺"來做路由決策。這意味著CogniRoute真正內化了"不同類型的問題需要不同證據"這個道理,而不是依賴外部標籤。
---
四、訓練路由器的第一堂課:讓路由行為對齊證據結構
有了認知圖式,下一步就是用它來訓練路由器。研究團隊設計了一個叫做"圖式對齊預測路由"(Schema-Aligned Predictive Routing,SAPR)的訓練目標。
通俗地說,這個訓練目標的邏輯是這樣的:同一道問題,每一層專家模組在處理影片、音頻、問題文本時,都會給128個專家分配不同的激活概率。研究團隊把這些概率按照影片、音頻、文本三種模態分別取平均,再把各層的結果整合成一個向量,這個向量就是該問題的"全局路由簽名"——可以理解為這道題在AI內部處理時留下的"證據分配指紋"。
與此同時,那份認知圖式也被轉化成一個目標向量,表示"對於這種類型的問題,應該有什麼樣的證據分配指紋"。SAPR訓練目標的核心,就是讓AI產生的實際路由簽名,在方向上儘可能接近認知圖式規定的目標向量。
打一個更直觀的比方:假設偵探機構里有128個偵探,每次處理案件時只能派其中8個。認知圖式規定:對於"嫌疑人真實情緒"類型的案件,應該多派擅長表情分析和聲紋分析的偵探,少派研究案發現場物證的偵探。SAPR訓練的過程,就是反覆告訴調度員:"你剛才的派遣方式和應該的方式差了多少",讓調度員慢慢學會"看案件類型派人"。
在整個監督微調階段,AI的訓練目標是SAPR損失、語言模型生成損失(讓AI生成好的推理過程和正確答案)和負載均衡損失(確保128個專家都被均衡使用,不會有專家閒置或過度使用)三者的加權組合。
研究團隊還通過實驗驗證了SAPR的有效性。通過對比SAPR使用前後的路由簽名可視化圖(降維到二維平面展示),可以清楚地看到:沒有SAPR時,不同類型問題的路由簽名混在一起,毫無規律;加入SAPR後,相同證據類型的問題聚成了清晰的簇,不同推理需求的問題也形成了分離的區域。這說明路由器確實學會了根據問題的證據結構來分配專家資源。
---
五、訓練路由器的第二堂課:用結果獎懲來強化"正確的決策過程"
僅僅讓路由器學會"按類型派人"還不夠,因為AI系統最終的目標是給出正確答案,而通往正確答案的路徑可能有很多條,其中不少是"歪門邪道"——比如靠語言慣性猜答案,而不是真正分析影片內容。
為了解決這個問題,研究團隊在監督微調之後又加入了一個強化學習階段,叫做"路由感知MoE強化學習"(Route-Aware MoE Reinforcement Learning,RMRL)。這個階段的核心理念,可以用一句話概括:獎勵不僅要看"答對了沒有",還要看"用沒用正確的證據,有沒有看對時間段"。
具體來說,每次AI給出回答後,會收到三種獎勵信號的組合。第一種是答案正確性獎勵,非常直接:答對得1分,答錯得0分。第二種是模態一致推理獎勵,由一個凍結的大語言模型(Gemini-3.1-Pro)擔任"評委",檢查AI的推理過程有沒有正確地使用應該用的那種模態證據——比如,一道需要綜合音影片的題,AI是否在推理文字里提到了具體的視覺觀察和具體的聲音特徵,而不是只說"根據影片內容"這種空話。這個評委用五檔評分:1.0、0.75、0.5、0.25、0.0,並且嚴格要求具體的觀察描述,不接受空泛的表述。第三種是認知時序基礎獎勵,將在下一章節詳細介紹。
強化學習階段有一個特別的設計:獎勵不僅影響AI生成哪些詞,還會反向傳播到AI內部的路由決策上。具體實現方式是:AI先生成一批不同的回答,對每個回答計算綜合獎勵,再把這個獎勵作為"優質程度的信號",同時更新兩件事——哪些詞的生成概率應該提高或降低,以及生成這些詞時路由器選擇哪些專家的概率應該提高或降低。一次高獎勵的回答,不只是讓AI學會"以後也說這樣的話",還讓AI學會"以後遇到這種題,就用這批專家來處理"。
這就像是培訓一個偵探團隊:不只是根據最終破案結果給偵探評分,還要分析整個破案過程中每個階段的決策——在哪個階段應該讓哪位專家上,在哪個階段浪費了人力。通過不斷復盤,整個團隊的協作效率越來越高。
---
六、AI看影片需要"找準時間段":認知時序基礎獎勵
一道關於"某人在第5分鐘表情如何"的問題,如果AI的回答靠的是第1分鐘的畫面,即使答案碰巧正確,這個推理過程也是有問題的。研究團隊專門設計了一種獎勵機制來解決這個問題,讓AI學會"在正確的時間段找證據"。
這個機制的基本思路是利用AI自身的注意力機制來檢測它"在看哪裡"。在深度學習模型中,注意力機制決定了處理某個輸出時,模型把多大的"關注程度"分配給了輸入的哪些部分。研究團隊選取AI生成推理過程最後幾個詞(推理結論的時候)的注意力,統計它對影片和音頻中各個時間段的關注程度,從而得出一個"時間焦點分布"——AI在最終做結論時,它的"注意力"分布在影片的哪些時間段上。
然後,把這個"時間焦點分布"和標註的"證據所在時間段"進行比較。標註的時間段被轉化成一個"目標分布",其中證據區間內的時間點概率高,越遠離證據區間的時間點概率越低(通過高斯核函數平滑處理,避免要求AI精確到某個毫秒級的時刻,允許一定的容忍範圍)。最終獎勵值取決於AI的時間焦點分布和目標分布之間的差距——差距越小,獎勵越高;差距越大,獎勵越低。
這個獎勵的巧妙之處在於它不依賴任何額外的時序定位模型,只是借用了AI自身的注意力資訊作為代理信號。這就好像不需要為偵探單獨配一個"時間管理顧問",只需要追蹤偵探翻閱案件檔案時的視線落點,就能判斷他有沒有把注意力集中在關鍵的時間證據上。
通過一系列消融實驗,研究團隊證明了這個獎勵確實有效。相比不使用時序基礎獎勵的模型,加入該獎勵後,AI的推理結論與標註證據時間點的平均距離(PeakErr)從2.67秒降到了1.56秒,在0.5秒和1.0秒容忍窗口內的準確率也大幅提升。而且研究團隊還做了一個"打亂時間標籤"的對照實驗,證明這個提升確實來自正確的時序信號,而不是因為增加了額外的訓練信號本身。
---
七、為AI打造專屬"社交場景題庫":OmniSocialBench
再好的訓練方法也需要合適的數據。研究團隊發現,現有的影片問答數據集根本無法支撐這種訓練方式,因為它們只提供了"問題+答案",完全沒有提供"這道題需要用哪種模態證據"、"證據在影片的哪個時間段"、"這道題需要什麼類型的推理"等資訊。
為此,研究團隊專門構建了OmniSocialBench,一個包含11.8萬條結構化訓練樣本和一批經過人工核驗的評測樣本的社交影片問答數據集。數據來源涵蓋多人互動影片、情感和語用推理影片、第一人稱視角影片以及一般性社交影片,保證了場景的多樣性。
數據集的構建採用了一個分階段的流程,類似於一個嚴謹的案件記錄系統。第一階段叫做"結構化證據提取":讓AI(使用Gemini-3.1-Pro)純粹作為觀察員,只記錄影片中可以直接觀察到的事實,用JSON格式輸出,包含場景描述、參與者資訊、帶時間戳的視覺事件、帶時間戳的音頻事件、對話結構、跨模態關係以及質量標誌(比如畫面太暗、說話者不在畫面里等)。這個階段明確禁止AI推斷任何社會性解釋,只記錄"發生了什麼",不記錄"意味著什麼"。第二階段是"任務標註":基於第一階段提取的證據JSON,為每個樣本分配三個維度的認知圖式標籤,也就是證據來源、推理需求和時間範圍。第三階段是"推理生成":基於證據JSON和三個標籤,讓AI生成"...推理過程>...答案>"格式的完整回答,並且嚴格要求推理過程只能使用證據JSON中已經記錄的資訊,不能憑空添加。生成的答案必須和原始標註答案一致,否則該樣本被丟棄。
評測集還額外加入了一個"社交維度"標籤,把評測樣本分為四類:心理狀態推理(隱藏情緒、信念、意圖等)、語用含義推理(諷刺、禮貌、暗示等)、行動目標推理(行為背後的目的和計劃)、社會規範推理(角色期待、場合規則、適當性判斷)。所有評測樣本都經過人工逐一核驗,確保問題、證據、推理和答案之間的一致性。
整個數據集裡,訓練集的1萬條樣本用於訓練路由相關的輕量級預測模組,9萬條用於監督微調階段,另外1萬條用於強化學習階段。評測集包含800條樣本,均勻分布在四個社交維度上。
---
八、這套系統到底有多厲害:實驗結果
用一個簡單的數字來概括這項研究的成果:CogniRoute在OmniSocialBench評測集上取得了59.38%的平均準確率,而同類最強商業系統Gemini 3.1 Pro的成績是44.05%,最強開源同類系統Qwen3 Omni的成績是32.61%。換句話說,CogniRoute比當前最好的商業系統高出了超過15個百分點,比最強開源系統高出了將近27個百分點。
具體到四個社交維度,CogniRoute在每個類別上都是第一名。在社會規範推理上,CogniRoute得到了58.13%,而Gemini 3.1 Pro只有33.33%,提升幅度達到了24.8個百分點,幾乎是提升了三分之二。在行動目標推理上,CogniRoute得到66.44%,而最強基線(Gemini 3.1 Flash)是47.65%,提升了18.79個百分點。這兩類問題恰恰是最需要聯合視覺和音頻證據、解決跨模態矛盾、並進行時序定位的場景,也正是CogniRoute設計的核心發力點。
研究團隊還把CogniRoute放在10個現有公開評測基準上和它的基礎模型Qwen3-Omni-30B進行了比較。結果顯示,在10個基準中有8個出現了提升。在聯合音影片推理類的基準(如AV-SpeakerBench、OmniBench、Daily-Omni等)上,CogniRoute普遍略有提升;在純影片理解類基準上也有一定提升;只在純音頻推理基準(MMAU)上出現了微小的下降(75.4%降至73.2%),研究團隊認為這是因為部分專家容量被重新分配給了音影片聯合協調任務,屬於合理的權衡。
這說明CogniRoute的改進不只是對特定訓練數據的"死記硬背",其證據感知路由能力有一定的遷移性,能夠在更廣泛的多模態理解任務中帶來收益。
---
九、一項一項拆開驗證:消融實驗說明了什麼
為了確認每個設計選擇真的有用,研究團隊進行了大量的消融實驗,也就是逐一拿掉某個組件,看性能下降了多少,從而反推每個組件的貢獻。
關於SAPR的必要性,基礎監督微調(沒有SAPR)的平均準確率是40.13%,加入SAPR後提升到了50.13%,提升了整整10個百分點。但如果用打亂的圖式標籤(每個樣本配上另一個樣本的標籤)來代替正確標籤,準確率只有41.38%,幾乎沒有提升;用隨機標籤的準確率是40.63%,同樣基本沒有提升。這強有力地證明了:SAPR的提升不是來自於"有輔助損失"這件事本身,而是來自於"用正確的、和該樣本真正對應的證據結構標籤"來指導路由器。
關於路由簽名設計的細節,如果把各層專家路由器的統計量用同一個投影矩陣映射(而不是每層單獨一個投影矩陣),準確率會從50.13%下降到44.50%。這說明不同層的專家語義不同,必須保留層級資訊。研究團隊還檢查了"可學習標籤嵌入矩陣"是否會坍縮(也就是不同標籤的向量變得幾乎相同),結果顯示Full SAPR的標籤嵌入矩陣有較高的歸一化有效秩(0.92)和較低的平均餘弦相似度(0.06),說明不同標籤確實映射到了空間中不同的方向,沒有坍縮。
關於RMRL中門控分支(gate branch)的必要性,只使用詞語生成分支的RL平均準確率是56.13%;允許路由器參數更新但不使用路由概率比率的變體是56.75%;只使用門控分支的變體是51.88%;兩者都用的Full RMRL是59.38%。這組數據說明:詞語分支和門控分支各有貢獻,而"路由概率比率"這個機制本身是必要的,僅僅讓路由器變為可訓練還不夠,必須明確地用獎勵信號來更新專家選擇的概率。
研究團隊還測試了強化學習時探索"候選專家池"大小的影響。模型有128個專家,每次選8個。如果只從最高分的8個中選,是確定性路由。研究發現,允許從排名前12的候選專家中選8個時效果最好(59.38%),更大的候選池(15或16)反而降低了性能,說明過多的探索會引入低質量的路由選擇。
---
十、從實驗室到現實世界:VR眼鏡部署案例
研究團隊還把CogniRoute部署到了VR智能眼鏡上,進行真實場景的測試。兩個典型案例展示了CogniRoute在實際應用中的能力。
第一個案例是"手勢目標推斷"。戴著眼鏡的用戶看到一個人一邊說"能把那個遞給我嗎"一邊用手示意。CogniRoute同時結合了手部軌跡(視覺信號)和語音內容(音頻信號),正確推斷出這個人想要的是右前方的咖啡罐,而不是左邊的其他物品。
第二個案例是"禮貌性拒絕識別"。有人請求幫忙整理桌面,對方回應"好吧,當然",但語氣遲疑,肢體語言顯示出些許迴避。CogniRoute捕捉到了這個聲音和動作之間的微妙矛盾,正確識別出這是一個禮貌性的拒絕,而不是真正願意幫忙的回應。
這兩個案例體現了CogniRoute的兩種核心能力:一種是把視覺和音頻信號協同使用("協同路由"),另一種是識別信號之間的衝突並從中提取真實含義("衝突解析路由")。這對於未來的社交輔助AI、無障礙技術以及人機交互系統都有直接的應用價值。
---
研究的邊界與未來方向
研究團隊在論文中坦誠地指出了這項工作的局限性。目前CogniRoute只針對預先剪輯好的影片片段和文字形式的回答,還不能處理實時流媒體或語音生成任務。認知圖式使用的標籤空間設計得比較精簡,是為了路由監督而優化的,對於某些特定領域的應用可能需要更細粒度的擴展。此外,目前的實現基於MoE架構的全模態模型,如果要移植到其他架構可能需要一定的工程適配。
在數據方面,雖然OmniSocialBench的訓練標註是用Gemini生成的,但評測集的最終標籤全部經過人工核驗,並且明確聲明"Gemini的輸出不作為評測集的正確性標準或入選標準",以避免用AI評估自己的後代系統所帶來的循環偏差。研究團隊還強調,這個系統用於社交影片分析時必須配合隱私保護措施和跨文化偏見審查,不能用於對真人進行高風險的判斷。
歸根結底,這項研究揭示了一個簡單但重要的道理:AI理解社交場景的關鍵不只是"擁有多種感知能力",更在於"知道什麼時候該用哪種感知"。這種元層面的"證據意識",是從真正理解社交智能的角度出發,對AI系統訓練方式的一次有意義的重新思考。對於未來希望真正讀懂人類情感和意圖的AI系統而言,CogniRoute提供的路由範式或許是值得深入探索的一個方向。感興趣的讀者可通過論文編號arXiv:2606.20970獲取完整的技術細節。
---
Q&A
Q1:CogniRoute和普通多模態AI有什麼核心區別?
A:普通多模態AI雖然能同時接收影片、音頻和文字,但不知道在每道題里該重點依賴哪種信號。CogniRoute的核心區別是訓練了一套"證據分配機制",通過認知圖式標籤(證據來源、推理類型、時間範圍)來指導內部專家路由器,讓正確的專家模組處理正確類型的問題,從而實現更準確的社交場景理解。
Q2:OmniSocialBench數據集和其他影片問答數據集有什麼不同?
A:大多數影片問答數據集只提供"問題+正確答案",不說明答案依據哪種模態證據、在影片哪個時間段,以及需要什麼類型的推理。OmniSocialBench為每個樣本額外標註了證據來源類型(視覺/音頻/聯合/衝突)、推理需求類型(六種)、時間範圍類型(四種)、帶時間戳的結構化證據、有根據的推理過程,以及評測集的社交維度標籤,支持比答案準確率更細粒度的診斷性評估。
Q3:認知時序基礎獎勵是怎麼判斷AI"看對了時間段"的?
A:研究團隊利用AI自身的注意力權重作為代理信號。當AI生成推理結論的最後幾個詞時,它對輸入影片各時間段的注意力分布反映了它"在看哪段影片"。將這個注意力分布與標註的證據時間段(通過高斯核函數轉化為平滑目標分布)進行比較,兩者越接近獎勵越高。這個機制完全依賴模型內部資訊,不需要額外的時序定位模型。






