這項由中國科學院自動化研究所(新型模式識別實驗室、多模態人工智慧系統全國重點實驗室)、北京郵電大學、中國科學院大學、華中科技大學與山東大學聯合開展的研究,以預印本形式於2026年5月7日發布在arXiv平台,論文編號為arXiv:2605.06096v1。
**一個讓AI出糗的小測試**
假設你有一張照片,照片裡的人其實是川普,但你的AI助手一直以為那是拜登。於是你對AI進行了一番"糾錯操作",告訴它:嘿,照片裡這個人是川普,不是拜登。AI學習之後,下次看到這張照片,確實能正確說出"這是川普"了——看起來任務完成了,對不對?
然而研究團隊隨後做了一個看似無關的追問:不給AI看任何照片,就用文字直接問它——"拜登的全名是什麼?"
正常情況下,AI當然應該回答"喬·拜登"。畢竟"糾錯"只是告訴它照片裡的人是川普,跟文字問題有什麼關係?
但事實上,被"糾錯"過的AI非常可能回答出"唐納·川普"。
這就是研究團隊發現的那個令人哭笑不得的怪象——他們將它命名為"實體身份混淆"(Entity Identity Confusion,簡稱EIC)。當你教AI把某張照片和一個新名字綁定時,AI不知為何把這兩個人的身份攪在了一起,以至於你只是問了一個純文字問題,它就把答案張冠李戴了。這項研究的目標,就是徹查這種混淆是怎麼發生的,以及能不能阻止它。
**一、AI"換綁"究竟在做什麼——兩種知識的區別**
要理解這個問題,先得弄清楚AI腦子裡裝著哪兩種不同類型的知識。
第一種是"看圖認人"的能力,研究團隊稱之為圖像-實體綁定知識(簡稱I-E綁定)。這就像一個認臉專家,他的任務是把一張具體的人臉照片和一個真實的人對應起來。AI的這套能力負責回答"照片裡這個人是誰"這類問題。
第二種是"人物關係百科"的能力,研究團隊稱之為實體-實體關係知識(簡稱E-E關係)。這就像一個人物傳記資料庫,裡頭存著"拜登畢業於哪所大學""川普住在哪裡"這類關於人物之間、人物與事實之間連接關係的知識。
這兩種知識截然不同:前者是"認臉",後者是"記傳記"。一個理想的AI糾錯操作,應該只改動"認臉"那部分——把照片從拜登換綁到川普——完全不應該碰那個"傳記資料庫"里關於拜登或川普的任何記載。
然而現實情況是,研究團隊發現,現有的所有AI糾錯方法幾乎都做不到這種精準切割。它們糾錯的手段太粗暴了,就像你想把房子裡一盞燈的燈泡換掉,結果卻把整棟樓的電路都改造了一遍。最終,AI確實學會了在看到那張照片時報出新名字,但代價是它在大腦深處悄悄地給拜登和川普之間拉了一根錯誤的線,讓自己以為這兩個人某種程度上"是同一個人"或"可以互相替代"。這就是EIC的根源。
**二、這種混淆有多普遍、多嚴重**
研究團隊做的第一件事,是通過實驗驗證這種混淆是否真實存在,以及它有多普遍。他們用了一個已有的多模態知識編輯基準數據集VLKEB,並在此基礎上增加了針對EIC的專門測試環節。
測試方法很簡單:對AI完成"照片換綁"操作之後,不給任何圖片,直接用文字詢問關於原來那個人(被替換掉的那個人)身份相關的問題,看AI會不會錯誤地報出新人的名字。
結果讓研究團隊大吃一驚。他們測試了五種主流的AI糾錯方法,包括直接微調模型參數的方法(FT)、用超網路生成參數更新的方法(MEND)、基於外部記憶模組的方法(SERAC)、基於上下文示例提示的方法(IKE),以及用梯度資訊更新參數的方法(KE)。
無一例外,所有方法都出現了嚴重的身份混淆。以在LLaVA這個視覺語言模型上的實驗為例:糾錯成功率幾乎都在97%到100%之間——從這個指標看,糾錯效果相當完美。但與此同時,EIC的發生率同樣觸目驚心,FT和MEND方法下竟然達到了97%到99%的混淆率,意味著幾乎每一次糾錯之後,AI在被問到原來那個人的身份時都會給出錯誤答案。SERAC的混淆率約為75%,IKE約為67%,KE約為96%。
這個發現揭示了一個令人不安的事實:過去大家用來衡量AI糾錯效果的指標——糾錯成功率——根本就是個"假象指標"。AI表面上學對了,骨子裡卻亂套了。
**三、為了徹查這種混淆,研究團隊專門造了一把"診斷儀"**
正因為現有的評測工具發現不了EIC這類問題,研究團隊構建了一個全新的診斷基準,叫做EC-Bench(實體混淆基準)。
EC-Bench的設計思路可以用一個比喻來理解:假設你是一名偵探,要調查一樁"身份盜用案"。被盜用身份的受害者是拜登,冒名頂替者是川普。你需要調查三條線索,才能搞清楚案子的全貌。
第一條線索,查"假關係":有沒有人在背後悄悄幫川普偽造了一張"我就是拜登"的身份證?這對應EC-Bench里的EIC任務——用純文字問關於拜登的問題,看AI會不會把答案張冠李戴到川普身上。
第二條線索,查"舊關係是否還在":照片和拜登之間原來的那條線,到底有沒有被真正切斷?這對應EC-Bench里的OBP任務(舊綁定持續性)。測法很巧妙:直接問"照片裡的人是誰"是不可靠的,因為AI可能通過那條假關係繞道說出"川普",即便它內心深處還認為照片裡是拜登。所以研究團隊換了一種迂迴問法——給AI看那張照片,問它"照片裡的人畢業於哪所大學",這是拜登的專屬資訊,川普對應的是不同答案。如果AI還說出拜登的大學,說明照片-拜登的舊綁定依然存活。
第三條線索,查"新關係是否真的建立":糾錯之後,照片和川普之間的新綁定是否紮實可用?這對應EC-Bench里的NBG任務(新綁定泛化性)。測法類似:給AI看照片,問一個需要用川普背景知識才能回答的問題,比如"照片裡的人出生在哪個城市"。如果AI能給出川普的出生地,說明新綁定不只是表面上的一個名字,而是真正關聯到了川普的知識體系。
除了這三個專門針對EIC的診斷任務,EC-Bench還保留了傳統評測里的基礎能力檢驗,包括糾錯成功率、舉一反三的能力(換個說法問同一件事還會不會)、以及對無關知識的影響(糾錯有沒有誤傷其他不相干的知識)。
**四、診斷結果:AI腦子裡到底發生了什麼**
有了EC-Bench這把"診斷儀",研究團隊在三個主流視覺語言模型(LLaVA、MiniGPT-4、Qwen-VL)上進行了全面測試,還在附錄中補充了對mPLUG-Owl2的測試,得到了三個關鍵發現。
第一個發現:幾乎所有糾錯方法都有嚴重的EIC問題,並且這與模型種類無關,也與糾錯方法的技術路線無關。無論是改動模型參數的方法,還是不改參數只靠外部提示的方法,都無法倖免。這說明問題不是某一個方法設計得差,而是整個"多模態知識糾錯"這件事的定義方式從根子上就出了問題。
第二個發現:即便表面上糾錯"成功了",照片和新實體之間的綁定也是虛假的、脆弱的。具體來說,OBP分數(舊綁定是否消除)在大多數方法下依然非常高,意味著照片-原實體的舊綁定根本沒有被真正切斷;而NBG分數(新綁定是否可用)則普遍極低,意味著AI並沒有真正把照片和新實體的背景知識聯繫起來。兩相結合,真相浮出水面:AI其實還是在用舊實體(拜登)來理解那張照片,只是在回答"照片裡的人是誰"時,它借用了那條錯誤建立的假關聯,跳出了新實體(川普)的名字。這只是一個表面上看起來正確的障眼法。
第三個發現:有一類糾錯方法的EIC問題明顯輕微,那就是專門針對視覺模組進行改動的方法(FT-Vis)。這類方法不動模型的語言部分,只動負責處理圖像的那個模組。實驗表明,FT-Vis在LLaVA上的EIC率僅為26.1%,幾乎和未糾錯時的原始模型持平,說明它基本沒有污染語言層面的知識。研究團隊將這一現象解釋為:E-E類型的知識(實體傳記資料庫)儲存在語言模型的解碼器里,只要不動那個部分,就不會錯誤地在兩個實體之間強行建立關聯。不過,FT-Vis在OBP和NBG任務上的表現依然不理想,說明雖然它沒有把事情搞得更混亂,但也沒有把"換綁"這件事做對。
**五、混淆的根源:一次錯誤的"學習捷徑"**
理解了實驗結果,研究團隊進一步解釋了EIC在機制層面上是如何發生的。
在大型語言模型處理資訊的過程中,知識的調取是分階段進行的。研究團隊引用了近年來在AI可解釋性領域的相關發現:在模型較淺的層次,注意力機制會把輸入的各種零散資訊(對於視覺語言模型來說,就是圖像的像素資訊)匯聚成一個統一的"實體表徵",完成"這張圖是誰"的識別;在此之後,模型中間層的前饋網路才會根據這個識別結果,去檢索這個人的各種屬性和關係知識,完成"這個人的傳記"的調取。
也就是說,"認臉"發生在淺層,"查傳記"發生在中深層。這兩件事在模型內部是先後發生的,依賴於不同的參數區域。
現有的糾錯方法大多瞄準模型的中深層進行參數修改,因為那是"查傳記"的地方,研究者們認為知識就存在那裡。然而,當糾錯操作發生在中深層時,模型的淺層"認臉"機制完全沒有被觸動,它還是把那張照片認成了舊實體。糾錯的真正效果,不過是在"傳記資料庫"里強行寫入了一條規則:見到舊實體拜登,就報川普的名字。這條規則生效了,所以"照片→拜登→川普"這條路徑能讓模型說出正確答案,但同時"純文字提及拜登→川普"這條旁路也被激活了,於是EIC就出現了。
研究團隊把這個機制描述為:AI把兩個實體之間的語言層面關聯作為了一條"捷徑",而不是真正改變了它如何識別照片裡的人。照片裡的人在AI眼裡仍然是拜登,只是拜登的名牌被強行替換成了川普。
**六、如何對症下藥——從糾錯"位置"入手的緩解策略**
既然問題出在糾錯操作打錯了"位置",一個直覺性的解決思路就是:能不能把糾錯的操作挪到更淺的層次,在"認臉"這件事還沒完成之前就介入?
研究團隊用FT方法在LLaVA上做了一個系統性實驗:把糾錯操作分別應用於模型的不同層次——從最淺的第0層,到第10層、第20層,再到最深的第31層,以及視覺編碼模組。結果呈現出一個非常清晰的規律:EIC的嚴重程度和糾錯層次的深度幾乎是單調遞增的關係。在最淺層(第0層)糾錯,EIC率接近於原始未糾錯模型的水平;隨著糾錯層次逐漸加深,EIC率也在穩步爬升;到了最深層,EIC率逼近100%。
更有意思的是曲線的形狀:不是線性增長,而是在模型中間某個區域出現了陡然加速上升的"拐點"。研究團隊認為,這個拐點正好對應著模型內部"實體表徵固化"的位置——在這個位置之前,模型還在進行"認臉"這件事,糾錯操作有機會作用於I-E綁定;越過這個位置,"認臉"已經完成,模型進入"查傳記"階段,此時的糾錯操作只會污染傳記資料庫,而不會真正改變認臉結果。這一發現還與AI可解釋性領域其他研究者識別出的"實體表徵形成層次"高度吻合,為這個解釋提供了交叉驗證。
研究團隊還進一步驗證了這個發現在另一種糾錯方法MEND上的適用性。在LLaVA上,將MEND的糾錯目標限制在淺層(第15到17層),EIC率從深層版本的97.2%降至59.7%,降幅巨大;在MiniGPT-4上,淺層MEND將EIC從94.2%壓低到42.9%。這說明"限制糾錯層次"並非FT特有的效果,而是一個對參數修改類糾錯方法普遍適用的原則。
當然,研究團隊也坦誠地指出,光靠這一招還遠遠不夠。即使在淺層糾錯,OBP和NBG的表現改善依然十分有限——舊綁定沒有徹底消除,新綁定也沒有真正建立。這說明"多模態知識糾錯"面臨的挑戰遠不止於EIC一個問題,還有許多深層機制需要後續研究去攻克。
**七、對未來研究的指引:好的糾錯應該滿足什麼條件**
基於以上發現,研究團隊總結了一套對多模態知識糾錯方法的"合格標準"——換句話說,一次真正成功的照片-實體換綁操作,應該同時做到三件事。
第一,切斷舊綁定:照片和原實體之間的關聯必須被真正清除,不只是名字上替換,而是圖像層面的關聯徹底解開。這對應OBP分數要大幅下降。
第二,建立新綁定:照片和新實體之間必須建立起真正可用的知識關聯,讓AI能夠基於這張照片回答關於新實體的背景問題,而不只是會說出那個名字。這對應NBG分數要顯著上升。
第三,不污染語言知識:糾錯操作不能在兩個實體的文字表示之間引入虛假的關聯,不能讓AI在純文字對話中混淆兩個人的身份。這對應EIC分數要保持低位。
研究團隊特別強調,這三件事必須同時成立,才算是真正意義上的成功糾錯。目前所有主流方法都只滿足了表面上的糾錯成功率,而三條"合格標準"沒有一條被真正滿足。這為後續研究劃出了明確的改進方向。
---
說到底,這項研究發現的事情,用最樸素的話來概括就是:我們以為已經教會AI"換個認法",實際上只是教會了它"換個說法"——它骨子裡還是認錯了人,只是嘴上改口了,而且這一改口還把它對另一個人的認知也一併污染了。這個發現對那些依賴AI助手進行資訊管理、內容審核或知識更新的場景來說,意義是實實在在的:一個看起來糾錯成功的AI,可能在你意想不到的地方輸出荒唐答案,而你卻毫無察覺,因為簡單的測試題它都答對了。
這項研究還留下了一些值得繼續思考的問題:AI在處理圖像和文字時,內部知識的組織方式究竟有多大差異?除了"換綁人物",還有哪些類型的知識糾錯會引發類似的混淆?真正做到精準"換綁",在技術上的障礙究竟在哪裡?這些問題目前還沒有完整答案,但EC-Bench和這篇研究為後來者提供了一套可以直接上手的診斷工具和理論框架。有興趣深入探索的讀者,可以通過arXiv編號2605.06096查閱完整論文。
---
Q&A
Q1:什麼是多模態知識編輯中的實體身份混淆(EIC)?
A:實體身份混淆(EIC)是指,當你用糾錯操作把某張照片從原來綁定的實體A換綁到新實體B之後,AI不僅學會了在看到那張照片時說出B的名字,還錯誤地在A和B之間建立了一種語言層面的虛假關聯。導致的結果是:即便你不給AI看任何圖片,只用文字問A是誰,AI也可能錯誤地回答出B的名字,把兩個完全不同的人的身份混為一談。
Q2:EC-Bench和現有的知識編輯評估基準有什麼區別?
A:現有基準主要只測試糾錯成功率,也就是AI在看到目標圖片時能否說出正確的新名字,這個指標通過了並不代表糾錯真正有效。EC-Bench在此基礎上增加了三個專門的診斷任務:EIC任務測有沒有產生身份混淆,OBP任務測舊綁定有沒有被真正切斷,NBG任務測新綁定能不能支撐複雜推理。這三個任務共同揭示了糾錯操作在模型內部知識層面的真實效果,是更嚴格、更全面的評估標準。
Q3:為什麼在模型淺層進行糾錯操作能減少實體身份混淆?
A:根據AI可解釋性領域的研究,語言模型處理資訊是分階段的:淺層負責把輸入資訊整合成"這是誰"的實體表徵,相當於"認臉";中深層負責根據這個實體表徵去調取相關的背景知識,相當於"查傳記"。現有糾錯方法通常針對中深層參數,結果只是在傳記資料庫里寫了一條錯誤規則,而沒有改變認臉機制。把糾錯挪到淺層,能讓操作更直接作用於"認臉"階段,減少對傳記資料庫的污染,從而降低兩個實體在語言層面被錯誤關聯的概率。






