這項由以色列理工學院(Technion)與麻省理工學院CSAIL聯合開展的研究,以預印本形式於2026年6月發布在arXiv平台,論文編號為arXiv:2606.03715。研究聚焦於文字生成圖像(Text-to-Image,簡稱TTI)模型中,文本編碼器所提供的資訊究竟被圖像模型使用了多少這一核心問題。
當你打開Midjourney、Stable Diffusion或者FLUX這類AI畫圖工具,用一段描述文字生成一張圖片時,你可能會覺得這個AI非常聰明——它理解了你說的每一個詞,甚至理解了這些詞之間的關係,比如"紅色的盒子放在黑色的盒子上面"和"黑色的盒子放在紅色的盒子上面"是兩種截然不同的場景。
但這項研究卻揭示了一個反直覺的事實:這些AI畫圖模型,很可能從來沒有真正"讀懂"你的句子結構。它所依賴的,遠比我們以為的少得多。
**一、為什麼我們以為AI在認真讀句子**
在深入了解這個發現之前,需要先搞清楚AI畫圖工具是如何工作的。整個過程可以用一個傳遞遊戲來理解:你輸入的文字,首先經過一個"翻譯官"——也就是文本編碼器(text encoder),這個翻譯官把文字轉化成一串數字信號;然後這串數字信號被交給"畫家"——也就是圖像生成模型,畫家根據這些信號生成圖片。
多年來,AI研究者們一直在努力讓這個"翻譯官"變得越來越聰明。早期的系統使用CLIP這種相對簡單的編碼器,後來的Imagen使用了擁有110億參數的超大型語言模型T5,最新的FLUX.2甚至使用了參數量高達300億的Qwen大語言模型作為翻譯官。這背後隱藏的假設是:翻譯官翻譯得越精確、越豐富,畫家畫出來的東西就越符合你的要求。
翻譯官的能力確實越來越強。現代文本編碼器能夠理解"組合關係"(哪個形容詞修飾哪個名詞)、"空間關係"(誰在誰的左邊或右邊)、"數量關係"(幾只貓、幾朵花),以及句子中詞語之間錯綜複雜的語義聯繫。研究者們理所當然地認為,畫家在作畫時充分利用了這些資訊。
然而,以色列理工學院的研究團隊開始質疑這個假設。他們的核心問題是:畫家真的在用翻譯官提供的所有豐富資訊嗎?還是說,畫家其實只需要翻譯官提供最基本的內容就夠了?
**二、剝洋蔥實驗:一層一層剝掉文字里的資訊**
為了回答這個問題,研究團隊設計了一個非常精妙的實驗。他們的思路是:不改動畫家(圖像生成模型),只改動翻譯官提供的"翻譯稿",看看翻譯稿被精簡到什麼程度,畫家還能畫出符合要求的圖片。
具體來說,他們構建了三種逐步精簡的"殘缺翻譯稿",每一種都去掉了一些原本存在於翻譯稿中的資訊。
第一種叫做"詞元袋"(Bag of Tokens,簡稱BoT)。在正常的翻譯過程中,翻譯官在翻譯每個詞的時候,會同時參考整個句子的上下文,就像你翻譯"蘋果"這個詞時,會根據前後文判斷它是水果還是科技公司。詞元袋的做法是:把這種上下文徹底移除。對於句子中的每一個詞彙片段,研究者們收集了大量完全不相干的句子中包含同一詞彙片段的例子,把這些翻譯結果取平均值。這樣得到的翻譯,每個片段都只代表它自己最普遍、最泛化的含義,完全不知道自己身處什麼樣的句子環境裡。
第二種叫做"詞袋"(Bag of Words,簡稱BoW)。這種做法在詞元袋的基礎上做了一個小改進,它解決了一個技術細節問題:很多詞在被AI處理時會被拆成幾個片段,比如"cube"(立方體)會被拆成"cu"和"be"兩個片段。詞元袋的做法會讓這兩個片段各自獨立,分別去找各種不相干的句子求平均,但這樣一來就產生了歧義——"cu"和"be"組合成"cube",和"be"單獨代表動詞"是"是完全不同的含義。詞袋方法在去掉上下文的同時,保留了同一個詞的各個片段之間的聯繫,確保"cu"和"be"只在它們共同組成"cube"這個詞的場合下一起被處理。
第三種叫做"帶位置標籤的詞袋"(Bag of Position-Tagged Words,簡稱BoPTW)。這是最豐富的一種"殘缺翻譯稿"。它在詞袋的基礎上,額外保留了每個詞在句子中所處的位置資訊。具體做法是:在求平均值時,只選取那些目標詞出現在句子相同位置的例子。比如"red"(紅色)這個詞在原句中排在第2個位置,那麼就只收集"red"同樣出現在第2個位置的句子來求平均值。
這三種殘缺翻譯稿有一個共同點:它們都只包含單個詞彙本身的資訊,完全不包含詞彙之間的任何語義關係。用最直白的話說,它們就是一堆互不相干的詞,只是被堆放在一起,沒有任何關於"誰修飾誰"、"誰在誰的旁邊"、"誰對誰做了什麼"這類資訊。
**三、實驗震驚了研究團隊自己**
研究團隊把這三種殘缺翻譯稿分別輸入給三個不同的AI畫圖模型——SD 3、FLUX.1 Schnell和FLUX.2 Klein-4B,然後用一個視覺語言模型(Gemma-3)作為裁判,盲測比較殘缺翻譯稿生成的圖片和完整翻譯稿生成的圖片哪個更符合原始文字描述。
結果出乎所有人的預料。
即使是資訊量最少的詞元袋,在大多數測試場景中,生成圖片的不劣率(也就是不比完整版差的比例)就超過了40%。換句話說,當AI只知道"這些詞分別是什麼",卻完全不知道"這些詞之間是什麼關係"時,它仍然有將近一半的可能性畫出和正常翻譯稿一樣好的圖片。
稍微豐富一點的詞袋方法,不劣率進一步提升到了大多數場景下超過50%。
而帶位置標籤的詞袋方法,不劣率在大多數模型和數據集上都達到了65%以上。對照來看,完整的翻譯稿的不劣率通常在70%到90%之間。這意味著,僅僅告訴AI"每個詞是什麼"加上"每個詞排在第幾個位置",就能達到完整翻譯稿效果的接近水平。
這個發現意味著什麼?意味著AI畫圖模型在絕大多數情況下,根本沒有在利用文本編碼器辛苦翻譯出來的那些關於詞語關係的複雜資訊。那些被精心設計來捕捉"組合關係"、"屬性綁定"、"邏輯依賴"的神經網路層,它們的工作成果,畫家根本就沒仔細看。
**四、位置資訊:讓AI區分"白盒放在黑盒上"和"黑盒放在白盒上"的秘密武器**
一個非常自然的問題是:既然只有詞和位置資訊,AI怎麼區分"一隻綠色的狗和一張藍色的餐桌"與"一隻藍色的狗和一張綠色的餐桌"呢?這兩句話包含完全相同的詞,只是順序不同,但場景截然不同。
研究團隊發現,答案就藏在位置資訊里。文本編碼器在翻譯每個詞時,會把"這個詞排在第幾位"的資訊編碼進去。這個位置資訊是詞元嵌入(embedding,也就是詞的數字表示)的一部分。研究者們用實驗證明了這一點:從230K個詞例中,他們測試了能否僅憑一個詞的數字表示就猜出這個詞在句子中的位置,結果是絕大多數情況下都能以零誤差猜中。
正是這種位置編碼讓AI畫圖模型得以區分語序不同的句子。當AI看到"綠色"這個詞出現在第3個位置,而"狗"出現在第5個位置時,它會把"綠色"和位置相近的"狗"聯繫起來,從而畫出綠色的狗。這種位置感知並不需要翻譯官告訴它"綠色修飾狗",畫家自己就能從位置關係中推斷出來。
文章中展示了大量令人印象深刻的視覺案例。比如"一隻白盒放在黑盒上面"和"一隻黑盒放在白盒上面",這兩句話用完全相同的詞,只是順序不同。即使使用帶位置標籤的詞袋這種不包含任何語義關係的翻譯,AI依然能正確區分這兩種情況,生成正確的圖片。類似的,"一隻貓喝薑茶"和"一隻薑黃色貓喝茶"(英文中"ginger"既可以指薑黃色也可以指生薑),AI同樣能正確處理。
**五、難不倒與難倒的:什麼情況下這個方法會失敗**
研究團隊不僅測量了總體表現,還細緻分析了哪類任務殘缺翻譯稿表現好、哪類任務表現差。
在GenEval基準測試中,"單個物體"這個類別表現最好。當你只是要求AI畫"一隻熊麻吉"或者"一張粉色的桌子"時,帶位置標籤的詞袋方法與完整翻譯稿的差距幾乎為零,三個模型的不劣率分別達到了88%、90%和100%。畢竟,描述單個物體本來就不需要太多的詞語關係資訊。
顏色屬性綁定、兩個物體同時出現、計數這些任務的表現也相當不錯,說明AI畫圖模型有能力從位置資訊中自行推斷出顏色和物體的對應關係。
然而,"文字渲染"這個類別則是最大的軟肋。當你要求AI在圖片中寫出特定文字,比如"一塊寫著'Google Brain Toronto'的招牌"時,帶位置標籤的詞袋方法的不劣率只有27%、37%和24%。這說明生成圖片內嵌文字這類任務對文本資訊的依賴程度遠高於普通的圖像內容生成,僅憑詞和位置資訊不夠用。
空間關係(誰在誰的左邊或右邊)也是殘缺翻譯稿表現相對較差的領域,這說明精確的空間位置關係確實需要更豐富的文本理解。
從總體數字來看,在DrawBench和GenEval這兩個專門考驗AI文本理解能力的困難基準測試中,帶位置標籤的詞袋方法的不劣率通常在50%到70%之間,而在更接近日常用途的MSCOCO數據集上,表現則更接近完整版翻譯稿。
**六、老模型與新模型:為什麼這個發現只適用於新型AI**
研究團隊還做了一個非常有趣的對比實驗。他們測試了兩個較老的AI畫圖模型——SD 2.1和SDXL,看看這兩個模型在殘缺翻譯稿下的表現。
結果形成了鮮明反差。SD 2.1的不劣率只有可憐的0.2%,SDXL也只有4%。也就是說,這兩個舊模型在使用殘缺翻譯稿時,幾乎完全無法生成符合要求的圖片,生成的圖像質量極差,看起來就像是從某個固定模式里隨機取樣出來的,完全不管用戶輸入了什麼描述。
這個對比揭示了一個非常重要的規律:新型的DiT(擴散變換器,Diffusion Transformer)架構模型,和舊型的U-Net架構模型,在處理文本資訊上有根本性的差異。舊模型把理解文字的工作完全交給了文本編碼器,如果編碼器提供的資訊不夠豐富,它就無從下手;而新型的DiT模型則在自己的內部發展出了理解語言結構的能力,它能夠從簡單的詞彙和位置資訊中,自行推斷出詞語之間的關係。
換句話說,隨著AI畫圖模型架構的升級,越來越多的"語言理解"工作從翻譯官那裡轉移到了畫家自己身上。翻譯官不再需要提供面面俱到的精細翻譯,畫家自己也能讀懂大意。
**七、用更多維度驗證這個發現**
除了視覺上的定性比較,研究團隊還使用了多種客觀指標來驗證自己的發現,確保結論不是視覺錯覺。
CLIP分數是衡量生成圖片與文字描述匹配程度的常用指標,數值越高代表匹配度越好。實驗數據顯示,帶位置標籤的詞袋方法在CLIP分數上與完整版翻譯稿非常接近,差距非常小。以FLUX.1在DrawBench數據集上的表現為例,完整版得分33.5,帶位置標籤的詞袋方法得分32.3;在GenEval數據集上,完整版得分33.7,詞袋方法甚至達到了33.6,幾乎相同。
衡量圖片整體質量分布的FID和KID指標同樣顯示,使用殘缺翻譯稿生成的圖片,在視覺質量上與使用完整翻譯稿生成的圖片相當,圖片沒有變得更模糊、更失真或更不自然。
研究團隊還驗證了一個有趣的技術細節:平均的句子數量對結果的影響。在構建殘缺翻譯稿時,研究者們從多個不相干的句子中對同一個詞取平均值。他們測試了從1到10個句子的不同情況,發現無論用多少個句子來平均,生成的圖片效果幾乎沒有區別。這說明即使只用一個完全不相干的句子,也能足夠徹底地"清除"上下文資訊,不需要用很多句子來確保清除效果。
**八、這個發現對AI發展意味著什麼**
說到底,這項研究顛覆了一個在AI畫圖領域持續多年的隱性假設:更聰明的翻譯官必然帶來更好的畫家。
長期以來,AI畫圖系統的設計者們都在努力升級文本編碼器,從最初的CLIP(1.24億參數),到T5(110億參數),到現在的Qwen(300億參數)。這種升級背後的邏輯是:翻譯官越聰明,提供的語義資訊越豐富,畫家就能畫得越好。研究者Wang等人此前也注意到文本編碼器可能存在"過度參數化"的問題,但這個猜測從未被系統地檢驗過。
這項研究提供了第一個系統性的證據,證明這個假設在很大程度上是錯誤的。至少對於現代DiT架構的AI畫圖模型而言,文本編碼器提供的那些關於詞語關係的複雜語義資訊,畫家基本上沒有在用。
這個發現對AI系統的設計有非常直接的啟示。既然畫家只需要知道"每個詞是什麼"加上"這個詞排在第幾位",那麼未來的AI畫圖系統或許根本不需要一個擁有數百億參數的大型語言模型來做翻譯官。一個相對簡單的系統,專門提供詞彙級別的資訊加上顯式的位置標籤,可能就足夠了。這將大大降低AI畫圖系統的計算成本,同時不損失生成質量。
研究團隊還提到了一個有趣的未來方向:如果把單個詞的範圍擴展到多詞短語(比如"紐約市"、"咖喱雞飯"這類固定搭配),效果可能還會進一步提升。
當然,這項研究也有其局限性。"文字渲染"等特定任務確實需要更豐富的文本理解,完整的文本語義資訊在這些場景中仍然不可或缺。此外,研究只測試了三個特定的DiT模型,是否適用於所有類似架構的模型,仍需進一步驗證。
歸根結底,這項研究告訴我們一個有點令人哭笑不得的事實:我們花了很多力氣教AI理解句子的精細結構,但AI畫圖模型自己發展出了一套獨立理解這些結構的方式,並不需要文本編碼器把一切都嚼碎了餵給它。複雜的語言理解工作,已經悄悄地從翻譯官那裡轉移到了畫家自己身上,只是我們之前沒有注意到這一點。有興趣深入了解實驗細節和完整數據的讀者,可以通過arXiv編號2606.03715查閱原始論文。
---
Q&A
Q1:帶位置標籤的詞袋方法(BoPTW)是如何區分"白盒放在黑盒上"和"黑盒放在白盒上"這兩種不同描述的?
A:BoPTW方法保留了每個詞在句子中的位置資訊。文本編碼器會把"這個詞排在第幾位"編碼進每個詞的數字表示里,研究者通過實驗證明了絕大多數詞的位置可以以零誤差從其數字表示中還原出來。AI畫圖模型從這種位置資訊中自行推斷出詞語之間的修飾關係,比如排在相鄰位置的顏色詞和名詞更可能屬於同一物體,從而正確區分語序不同的句子。
Q2:為什麼舊版AI畫圖模型(如SD 2.1和SDXL)在殘缺翻譯稿下完全失敗,而新版模型卻能成功?
A:舊版模型採用U-Net架構,它把語言理解的工作完全外包給文本編碼器,自身沒有發展出理解語言結構的能力,一旦翻譯稿資訊不足就無從下手。新版DiT(擴散變換器)架構的模型則在其強大的內部結構中發展出了自行理解語言關係的能力,可以從簡單的詞彙和位置資訊中自己推斷出詞語之間的關係,不再完全依賴文本編碼器提供完整的語義解析。
Q3:文字渲染任務(比如在圖片中寫出特定文字)為什麼是殘缺翻譯稿表現最差的類別?
A:生成圖片內嵌文字時,AI需要準確知道要寫出的是哪幾個具體字符,這些字符的確切序列和組合是極為精確的資訊,僅憑詞彙本身的泛化含義和位置資訊不足以精確還原。與畫一隻熊麻吉不同,寫"Diffusion"這個單詞不允許任何偏差或替換,對文本語義資訊的精確度要求極高,因此完整的文本編碼器資訊在這類任務中仍然不可或缺。






