這項由加州大學聖地亞哥大學與南加州大學聯合開展的研究,發表於2026年第43屆國際機器學習大會(ICML 2026,Seoul, South Korea, PMLR 306),論文編號為arXiv:2606.00477,有興趣深入了解的讀者可通過該編號查詢完整論文。
假設你有一個非常博學的朋友,他記住了世界上所有事物的樣子。有一天你告訴他:"嘿,從今天起,蘋果是藍色的。"他點點頭,你問他"蘋果是什麼顏色?"他能正確回答"藍色"。然而,當你說"幫我畫一個蘋果",他拿起畫筆,畫出來的卻還是一個紅蘋果。這就是來自加州大學聖地亞哥大學的研究團隊所發現的一個令人意想不到的現象——即便成功修改了AI的"文字認知",它的"圖像創作"依然活在舊世界裡。
這聽起來似乎是個小問題,但放到真實場景中,影響可不小。隨著越來越多的AI系統被用於同時處理文字和圖片,人們自然期望:如果更新了AI的某條知識,這個更新應該一以貫之,既體現在它說出的話里,也體現在它畫出的圖裡。遺憾的是,現實並非如此,而且這個差距大得驚人。研究團隊為此專門設計了一套名為UNIKE的測試框架,這是第一個專門用來研究這類"知識修改後跨形式傳遞"問題的基準測試集,包含2971個精心設計的測試案例。他們的發現讓人既感到驚訝,又引發了對下一代AI系統的深層思考。
一、先聊聊"統一多模態模型"是個什麼東西
要理解這項研究,需要先認識一類相對新興的AI系統,研究者稱之為"統一多模態模型",英文簡稱UMM。用一個日常比喻來說,過去的AI更像是一棟有很多獨立房間的大樓:一個房間專門負責讀文字,另一個房間專門負責畫圖,兩個房間之間需要通過走廊傳話。而UMM則更像是一個開放式的大廳,讀文字和畫圖都在同一個空間裡完成,共享同一套"大腦"。
這種設計有很明顯的好處:因為文字和圖像共用一套神經網路,AI在文字預訓練中積累的大量世界知識,理論上可以直接指導它的繪圖行為。當你告訴它"畫一隻正在打籃球的貓",它既能理解"籃球"這個概念,又能直接將這個理解轉化為圖像,而不需要在兩個獨立的系統之間笨拙地傳遞資訊。
這類模型在近幾年發展迅速,研究團隊選擇了三個代表性的UMM作為實驗對象:Ovis-U1、BLIP3o-4B和OmniGen2,它們代表了目前不同的技術路線。Ovis-U1有一個專門的"翻譯層"將語言信號轉化為圖像信號;BLIP3o-4B使用64個專門的"橋接令牌"來傳遞文字條件;OmniGen2則直接讓文字表示流入圖像生成器。這三種架構的差異,後來被證明對理解為什麼知識修改效果不均等至關重要。
二、"知識編輯"究竟是怎麼回事
明白了UMM是什麼,下一步需要理解"知識編輯"這個概念。一個大型AI模型在訓練完成後,內部儲存了海量的世界知識,這些知識被分散編碼在模型的數十億個參數裡。當世界發生變化,或者發現模型記錯了某個事實,重新從頭訓練整個模型代價極其高昂,就像你因為記錯了一個朋友的電話號碼就要把整個大腦格式化重裝一樣,完全不現實。
知識編輯技術解決的就是這個問題——它試圖像做"外科手術"一樣,只精準修改模型內部與某個特定知識點相關的少量參數,而不動其他部分。研究團隊測試了三種主流的知識編輯方法:MEMIT、PMET和AlphaEdit。這三種方法都是"參數修改型"的,意思是它們會真實地改變模型內部的某些數值,就像直接在大腦里改寫某條記憶,而不是在外面貼一張紙條提醒。
具體來說,這類編輯方法的工作原理是先定位"知識儲存在哪裡"——研究發現,事實性知識主要集中在語言模型中間層的MLP(多層感知機)模組裡,然後對這些特定位置的參數進行有針對性的數值調整。對於本文中的三個模型,研究團隊分別編輯了Ovis-U1的第4到8層,以及BLIP3o-4B和OmniGen2的第6到10層。
三、UNIKE測試框架是怎麼設計的
為了系統地測試"知識修改是否能從文字傳遞到圖像",研究團隊構建了UNIKE這套測試集,而它的設計思路相當嚴謹和有趣。
測試覆蓋兩大類知識修改:一類叫"屬性編輯",修改的是某個物體本身的內在屬性,比如顏色、材質、形狀、大小和紋理;另一類叫"關係編輯",修改的是某個實體與外部世界的關聯關係,比如一個人的職業、所在地點、所屬組織或者創作歸屬。整個測試集包含964個屬性編輯案例和2007個關係編輯案例,共計2971個獨立的知識修改目標,展開後形成5535個具體的測試實例。
這套測試集的核心設計原則叫做"可視化性"——所有被選入的知識修改,必須在圖像中有清晰可見的體現。例如,"蘋果的顏色從紅色變為藍色"是一個好的測試案例,因為顏色的變化在圖像中一眼可辨;而"某部法律的立法背景"則不適合,因為這類知識根本無法在圖像中體現。
屬性編輯還被設計成四個遞進難度的"舞台",就像一場越來越複雜的考試。第一階段是最直接的測試:直接用一張簡單的物體照片來驗證,比如"一個檸檬放在白色背景上",模型是否能畫出藍色的檸檬?第二階段增加了現實場景的複雜性,比如"一個人在戶外咖啡館將檸檬擠入冰茶",模型在光線、視角、背景都變化的情況下,還能記住檸檬應該是藍色的嗎?第三階段是多物體交互場景,比如"一個裝有蘋果、橙子和檸檬的柳條果籃放在野餐毯上",模型需要在眾多物體中正確識別檸檬並賦予它藍色,而不是被其他物體的顏色干擾。第四階段最為刁鑽,測試的是"衍生物",比如"一杯廚房檯面上新鮮榨出的檸檬汁"——模型需要理解:既然檸檬是藍色的,那麼榨出來的檸檬汁也應該是藍色的。這要求模型不僅記住了修改後的屬性,還能將這個屬性通過邏輯推理傳遞到相關的衍生事物上。
每個測試實例的圖像提示都被刻意設計成"答案中性"的,也就是說提示詞本身不包含任何暗示正確答案的資訊。這樣設計的目的是確保:如果AI生成了正確的圖像,這一定來源於它內部被修改後的知識,而不是從提示詞裡抄答案。
驗證方式也很有意思:研究團隊沒有用傳統的圖像相似度指標,而是用了"視覺問答"(VQA)的方式——生成圖像之後,用另一個強大的視覺語言模型Qwen3-VL-235B來看圖回答問題,比如"圖中檸檬汁是什麼顏色?",然後對比回答與預期答案是否一致。這種驗證方式更加嚴格,因為它關注的是圖像中的具體語義資訊,而不僅僅是表面的像素相似度。
四、那個讓人瞠目結舌的"模態鴻溝"
研究的核心發現可以用一個場景來理解:你雇了一位翻譯,他學會了"蘋果在法語裡叫pomme"這個新知識。你問他"蘋果的法語怎麼說?"他能正確回答"pomme"。但當你讓他用法語寫一篇關於蘋果的文章時,他寫出來的文章里蘋果的描述卻還是英語習慣的表達方式。這就是研究發現的"模態鴻溝"——同樣的知識,在文字輸出和圖像生成之間存在巨大的執行差異。
具體數字非常說明問題。在最好的情況下,知識編輯在文字層面的成功率可以達到約92%——也就是說,被修改的AI在被直接問及某個知識點時,有92%的概率能給出正確的新答案。然而,當評估同樣的AI生成的圖像是否體現了這個新知識時,最好的情況也只有18.5%的圖像驗證準確率。換句話說,即便是表現最好的組合,文字成功率與圖像成功率之間的比值大約是5:1,十個在文字層面成功的編輯,只有不到兩個能在圖像中得到體現。
從具體數字來看,這個差距在各個模型和編輯方法的組合下都穩定存在。以BLIP3o-4B模型搭配PMET編輯方法為例,文字層面的編輯成功率達到76.30%,但直接生成圖像時的VQA準確率只有18.51%。Ovis-U1模型搭配PMET方法時,文字成功率為72.18%,圖像VQA準確率僅有9.71%。OmniGen2搭配AlphaEdit方法時,文字成功率高達76.37%,圖像VQA準確率卻也只有11.50%。
屬性編輯和關係編輯在失敗方式上也有微妙的不同。關係編輯通常在文字層面更容易成功,因為它們往往是簡單的"主體-對象替換",比如把一個人的職業從"曲棍球運動員"改成"棒球運動員",這對語言模型來說是比較清晰的任務。屬性編輯在文字層面相對難一些,但一旦成功,其視覺含義往往很直接,比如顏色或材質的變化在圖像中相對容易體現。關係編輯則更難在圖像中驗證,因為很多關係需要通過地標、服裝、標誌或其他背景線索來體現,而圖像生成模型可能會省略或模糊這些細節。
五、"推理增強"——讓AI先把新知識說出來再畫
面對這個顯著的差距,研究團隊提出了一個直覺上非常合理的解決思路:既然直接從修改後的參數到圖像生成之間存在斷層,那能否在中間加一個"言語化"的步驟?
這個方法被稱為"推理增強參數編輯",原理並不複雜:在讓AI畫圖之前,先讓它用文字表達一下它對當前情況的理解,然後把這個文字理解作為額外的條件資訊,一起傳給圖像生成部分。
回到前面的例子,如果讓AI直接畫"一個男孩拿著蘋果",它可能畫出一個紅蘋果。但如果先讓它說一段話:"用戶想要一張男孩拿著蘋果的圖。據我所知,蘋果的顏色是藍色的,所以圖中應該出現一個藍色的蘋果...",然後再基於這段話來畫圖,AI就更有可能畫出藍色的蘋果。
這個方法之所以有效,是因為它把原本"隱藏在參數裡、可能很微弱"的知識修改,通過語言表達的方式"放大並顯式化",形成一個更強烈的文字條件,從而更有力地影響圖像生成過程。
實驗結果證實了這個思路的有效性:推理增強方法在所有測試的模型和編輯方法組合中都提升了圖像VQA準確率,最大提升達到了18.6個百分點。以Ovis-U1搭配PMET方法為例,在沒有推理步驟時圖像VQA準確率是9.71%,加入推理步驟後提升到28.32%,接近翻了三倍。但值得注意的是,即便加入了推理步驟,圖像VQA準確率依然遠低於文字層面的成功率,說明這只是部分解決了問題,而非徹底消弭了這道鴻溝。
推理增強方法的效果因模型架構不同而差異顯著。Ovis-U1從推理中獲益最大,而BLIP3o-4B和OmniGen2獲益相對較小。要理解為什麼,需要深入了解這三個模型的內部結構。
六、深入"內部管道":為什麼知識編輯難以傳到圖像生成
這部分是整個研究中最像"解剖實驗"的部分。研究團隊不滿足於記錄"有差距"這一現象,他們還深入追查了"為什麼會有差距"的機制性原因。
所有三個被測試的UMM都有一個共同的基本結構:用一個大型語言模型(LLM)來處理文字輸入,然後將語言模型的輸出轉化為條件信號,傳遞給一個專門負責圖像生成的"擴散變換器"(DiT)。問題的核心在於這個傳遞過程。
Ovis-U1有一個特殊的設計:它在語言模型和圖像生成器之間有一個"凍結的線性投影層",相當於一道固定的濾鏡。這個投影層的維度是從4096維壓縮到1536維,意味著大約62.5%的資訊會在這裡被過濾掉。研究團隊用奇異值分解(SVD)的數學工具分析了這個投影層,發現知識編輯產生的參數變化並沒有集中在這個投影層所"保留"的重要方向上,而是廣泛分散在整個高維空間裡。就像一個篩子,編輯後的新資訊分散地漂浮在水裡,篩子只能留住一部分,大部分就隨水流走了。具體數據顯示,通過這個投影層後,編輯信號的保留比例大約在32%到35%之間,這與理論預期的37.5%(1536/4096)基本一致,說明這是一個由架構決定的固定瓶頸,與具體用哪種編輯方法無關。
相比之下,BLIP3o-4B和OmniGen2沒有這個額外的投影層,語言模型的輸出可以更直接地作為圖像生成的條件。這也解釋了為什麼在直接生成(不加推理步驟)時,BLIP3o-4B的"編輯引起的條件偏移"在數值上更大,Ovis-U1的偏移則極小。
然而,這裡出現了一個反直覺的發現:BLIP3o-4B雖然有更大的編輯信號傳遞到了圖像生成器,但最終的圖像VQA準確率提升並不是最高的。BLIP3o-4B還有另一個限制——它使用64個固定的"可學習查詢令牌"來壓縮整個文字上下文,這64個令牌構成了一個"有界的表示瓶頸",無論文字條件多麼豐富,最終能傳給圖像生成器的資訊量都被這64個令牌所限制。
從量化數據來看,Ovis-U1在直接生成模式下,語言模型輸出的每個令牌平均餘弦偏移僅為0.003,Frobenius範數相對漂移僅為0.078;相比之下,BLIP3o-4B的相應數值分別為0.139和0.527,OmniGen2則為0.038和0.262。這說明Ovis-U1的編輯在到達圖像生成器之前就已經被大幅衰減。
然而,推理增強步驟徹底改變了這一局面。加入推理步驟後,傳遞給圖像生成器的條件信號偏移量,Ovis-U1增大了8.56倍,OmniGen2增大了5.11倍,BLIP3o-4B則只增大了2.06倍。原來偏移量最小的Ovis-U1,在推理增強之後反而變成了三者中條件偏移最大的,達到其他兩個模型的1.67倍到2.41倍。這解釋了為什麼推理增強對Ovis-U1的效果最顯著——它恰好彌補了這個模型在直接傳遞路徑上最大的弱點。
關鍵的洞察在於:推理增強步驟並不只是"多說幾個詞",它的本質是通過語言模型的普通文字生成通道,將編輯後的知識以更強烈、更清晰的形式表達出來,然後通過模型正常的文字到圖像的條件化路徑傳遞,而這條路徑在模型的原始訓練中就已經被反覆強化,因此比直接依賴被微弱編輯過的參數要可靠得多。
為了排除"問題是出在圖像生成器內部而非條件傳遞階段"的可能性,研究團隊還專門追蹤了編輯信號在Ovis-U1圖像生成器所有層中的傳播過程。結果顯示,信號從第一層到最後一層的變化幅度不超過2%,這說明圖像生成器本身對傳入的條件信號保持了非常線性的傳播,既不放大也不衰減。也就是說,瓶頸確實在於"條件信號到達圖像生成器之前"的階段,而不是圖像生成器的內部處理。
七、不同類型知識的"圖像化難度"各不相同
研究團隊還進行了細粒度的分類分析,發現不同類型的知識在跨模態傳遞時表現出截然不同的困難程度。
在屬性編輯中,大小(size)是最容易通過圖像驗證的類別,因為大小變化通常通過與參照物的相對比較來體現,這為圖像生成器和VQA評判者都提供了明確的視覺關係錨點。顏色和材質處於中等難度,它們對應直接的視覺屬性,原則上可以直接渲染,但容易被模型的"視覺先驗"所壓制——比如模型見過太多紅蘋果,"蘋果是紅色的"這一強烈的視覺習慣會抵抗知識編輯的效果。形狀是最難的屬性類別:模型在文字層面往往能正確說出編輯後的形狀,但在圖像中精確控制幾何形態對生成模型來說極具挑戰。紋理/圖案也很困難,因為精細的表面紋理需要在整個圖像空間內保持高度的空間一致性。
在關係編輯中,職業(occupation)是最容易在圖像中體現的,因為職業通常有明確的視覺代理,比如制服、工具、特徵性動作等,這些都是可以直接渲染的具體視覺元素。位置和組織歸屬更加困難,因為它們依賴於地標、建築風格、標誌或隊伍特定的視覺符號,而圖像生成模型可能會省略或模糊這些細節。創作者關係是最難的,儘管文字層面的編輯成功率很高,但作者歸屬關係在視覺上幾乎無法體現,除非圖像中明確出現文字標籤或可識別的身份特徵。
八、階段遞進:難度是如何一層層疊加的
屬性編輯的四階段設計揭示了另一個有趣的模式。從第一階段到第二階段,文字層面的編輯成功率平均下降約70%,儘管被測試的對象和屬性完全相同,只是場景從"白色背景下的單一物體"變成了"現實場景中的同一物體"。這說明當前的知識編輯方法極其依賴觸發形式與編輯時所用的格式保持一致,只要場景描述稍有變化,這個編輯就可能無法被正確召回。
然而,推理準確率(即在推理步驟中能否正確表達出編輯後的知識)在各階段之間的下降則平緩得多:從第一階段到第二階段只損失約十分之一,到第四階段也只損失約四分之一。這說明推理提示的作用更像是一個魯棒的"知識檢索接口"——它能夠在各種場景變化下穩定地召回編輯後的知識,而直接的文字填空則非常脆弱。
圖像VQA準確率的下降幅度大約是35%到40%,從第一階段到後續各階段。這個下降始終大於推理準確率的下降,也小於文字編輯成功率的下降。而且在三個模型中,Ovis-U1在各階段之間保持了相對穩定的"推理成功轉化為視覺驗證成功"的轉化率,而BLIP3o-4B和OmniGen2在面對複雜場景時的轉化率則急劇下降,這再次與它們各自的架構特點相對應。
說到底,這項研究揭示的不僅僅是一個技術bug,而是對"AI知識究竟儲存在哪裡、如何被調用"這個深層問題的一次系統性探索。歸根結底,當前的知識編輯技術在語言模型中的工作方式,更像是在一張已經畫滿圖案的紙上用橡皮輕輕擦了一小塊、然後用鉛筆寫下新內容——對於"讀這張紙"的任務,這個修改可能已經足夠了;但對於"用這張紙做一張投影片"的任務,那個輕微的鉛筆痕跡可能完全被原有圖案淹沒。推理增強方法則相當於讓AI先用正式的油畫筆把新知識重新描繪一遍,然後再做投影,效果自然好多了。
然而即便如此,圖像層面的成功率依然遠低於文字層面,這意味著從根本上解決問題需要的不只是"先說出來再畫"這樣的技巧,而是在設計知識編輯方法時,就把"這個編輯需要影響圖像生成"這一目標納入核心考量,針對圖像生成的特定條件化路徑進行有的放矢的修改。這為AI知識編輯領域指出了一個值得深入探索的新方向。感興趣的讀者不妨思考:如果AI系統的文字記憶和圖像記憶確實是半獨立的,我們是否需要像給人打"雙語教學"一樣,同時在文字和圖像兩個維度上進行知識更新?研究團隊已將完整代碼和數據公開在GitHub上,有意深入研究的讀者可通過arXiv:2606.00477獲取完整論文。
Q&A
Q1:UNIKE基準測試集包含哪些類型的測試?
A:UNIKE包含兩大類知識修改測試:屬性編輯和關係編輯。屬性編輯測試顏色、材質、形狀、大小和紋理等物體內在屬性的修改;關係編輯測試職業、位置、組織歸屬和創作歸屬等實體關係的修改。整個測試集共有2971個編輯案例,展開後形成5535個具體測試實例,所有案例都要求知識修改在圖像中有清晰可見的體現,並通過視覺問答方式驗證。
Q2:推理增強參數編輯方法能完全解決文字和圖像之間的知識傳遞差距嗎?
A:不能完全解決,但有明顯改善。推理增強方法在所有測試的模型和編輯方法組合中都提升了圖像驗證準確率,最大提升達18.6個百分點。例如Ovis-U1搭配PMET方法時,圖像準確率從9.71%提升到28.32%。但即便加入推理步驟,圖像準確率依然遠低於文字層面的編輯成功率,說明文字輸出和圖像生成之間的鴻溝需要專門設計的模態感知編輯方法才能從根本上解決。
Q3:為什麼Ovis-U1從推理增強中獲益最多?
A:因為Ovis-U1在文字到圖像的傳遞路徑上有一個固定的壓縮瓶頸——一個將4096維語言信號壓縮到1536維的凍結線性投影層,這導致知識編輯產生的微弱信號在直接傳遞時損失極大。加入推理步驟後,編輯後的知識以更強的文字條件形式通過模型正常的文字生成通道重新表達,傳遞給圖像生成器的條件信號偏移量增大了8.56倍,彌補了直接路徑的弱點,因此效果提升最為顯著。






