這項由上海交通大學、上海人工智慧實驗室和香港中文大學聯合完成的研究,以預印本形式發表於2026年6月(arXiv編號:2606.24548),對當前最先進的文字生成圖像(Text-to-Image,簡稱T2I)模型進行了一次前所未有的"反常識"壓力測試。
每逢感恩節前夜,農場裡有隻火雞正美滋滋地期待著第二天早晨的到來。它憑藉過去三百多天每天早上農夫準時送來食物的經驗,堅定地推斷出一個"規律":農夫出現 = 有得吃。然而,在它毫無防備的時候,感恩節來臨了,一切戛然而止。這只可憐的火雞就是哲學家伯特蘭·羅素在一百多年前描述的"歸納主義火雞",它犯了一個致命錯誤——將過去的經驗規律當成了永恆的真理,從未思考過"如果規則改變了,結果會怎樣"。
研究團隊用這個故事來比喻當前的AI圖像生成器。這些模型在各類測試中成績亮眼,能畫出精美絕倫的圖像,讓許多人驚呼AI已經"理解"了世界。但研究團隊的核心疑問是:它們真的理解了世界的運作規則,還是只是像那隻火雞一樣,從海量訓練圖片中歸納出了"什麼東西通常長什麼樣"的統計規律?一旦規則被改變,它們還能跟上嗎?
為了回答這個問題,研究團隊構建了一套名為"反事實世界基準測試"(CF-World)的考題,專門用來檢驗AI圖像生成器在"規則被改寫"的假想世界裡,還能不能生成符合邏輯的圖像。測試結果相當令人清醒:幾乎所有模型都像那隻火雞一樣,在規則改變的那一刻徹底懵圈了。
一、"反常識"考卷是怎麼設計的?
理解這套考題的設計思路,需要先明白研究團隊想測試的到底是什麼。普通的圖像生成測試大多是這樣的:告訴AI"畫一隻坐在沙發上的貓",然後看AI畫出來的貓像不像、沙發像不像。這類測試考的是AI有沒有記住"貓"和"沙發"長什麼樣,以及它們怎麼組合在一起。
但研究團隊想測試的是更深層的能力——因果推理能力。具體來說,就是當物理定律或者自然規則被人為修改之後,AI能不能根據這個被修改的規則,推斷出新的視覺結果應該長什麼樣,並且畫出來。
這套考卷被設計成三個遞進難度的關卡,涵蓋物理學(包含經典力學、光學、熱力學、天文學和電磁學五個分支)、生物學、化學、地理和社會學五大學科,共1091組題目,合計3273道提示詞。
第一關叫"事實級別"(L1),考的是正常世界裡的常識。比如:畫一瓶室溫下的水。這一關用來確認AI的基礎生成能力沒問題,畫出來的水應該是液體。第二關叫"顯式反事實級別"(L2),研究團隊會修改一條物理規律,然後明確告訴AI修改後的結果應該是什麼樣的。比如:如果水的熔點是100攝氏度(注意:真實世界裡水在0攝氏度就開始融化,100攝氏度才沸騰;這裡把規則顛倒了,意味著室溫下水應該是固態冰),畫室溫下的水,注意這時候水應該是冰的形態。第三關叫"隱式反事實級別"(L3),同樣修改物理規律,但這次不告訴AI結果是什麼樣的,讓AI自己推斷。比如:如果水的熔點是100攝氏度,畫室溫下的水。AI必須自己想明白:哦,熔點提高了,室溫遠低於100攝氏度,所以水還沒開始融化,應該還是固態冰——然後才能畫出正確答案。
三關之間的關係就像這樣:第一關確認AI能正常畫畫;第二關看AI能不能克服自己的"習慣性認知",按照被修改的規則來畫,即便這與訓練數據里見過的圖片完全不同;第三關在第二關的基礎上,再去掉那根"拐杖"(明確的結果描述),測試AI能不能自己完成邏輯推導。
為了保證考題質量,研究團隊先讓大語言模型(LLM)根據預先整理好的科學原理來生成題目,然後要求所有題目必須滿足四個標準:視覺結果要足夠清晰明確(不能模糊地說"看起來很奇怪",要能被評判系統明確判斷);必須需要邏輯推理才能回答(不能只是換個顏色或風格);不能涉及暴力或不雅內容;必須有科學依據(考的都是中學課程里的基礎知識)。最後,還有一批專業人工審核員對所有題目進行嚴格篩查,剔除質量不達標的內容。
以其中一道經典力學題為例:事實級別是"畫一個在游泳池裡趟水的人";顯式反事實級別是"如果水的表面張力無限大,畫一個試圖在游泳池裡趟水的人,這個人應該站在水面上走路,不會下沉";隱式反事實級別是"如果水的表面張力無限大,畫一個試圖在游泳池裡趟水的人"。另一道天文學題:事實級別是"畫一張太陽系示意圖,行星沿橢圓軌道繞日運行";顯式反事實級別是"引力變成了斥力,畫一張示意圖,顯示行星從太陽旁飛散開去,沿直線軌跡遠離,太陽系正在瓦解";隱式反事實級別是"在天體之間引力變成斥力的情況下,畫一張太陽系示意圖"。
二、評分系統是如何給AI評分的?
人工逐張審閱成千上萬張AI生成圖片顯然不現實。為此,研究團隊設計了一套名為"CF-Eval"的自動化評分流水線,由強大的視覺語言模型(VLM,一種既能看圖又能理解文字的AI)來擔任考官。
整個評分系統從三個維度對每張圖片進行評分,三個維度的重要性不同,因此分配了不同的權重。第一個維度是"視覺完整性",權重最低(1到3分),考查圖片質量本身夠不夠基本,比如畫的人有沒有解剖結構錯誤、整體質量是否可以接受;第二個維度是"評估點",權重最高(12到16分),這是根據每道題目專門制定的核心考查問題,直接測試生成的圖片有沒有體現出被要求的關鍵視覺特徵,比如那道水面張力題的評估點就是"圖中的人是否正站在水面上行走,身體沒有任何部分沉入水面以下";第三個維度是"邏輯一致性",權重居中(7到9分),檢查整個場景的背景和細節有沒有也符合反事實的設定,而不是主體符合了但背景還是正常世界的樣子。
最終每張圖片的得分是這三個維度按權重計算的加權平均分。研究團隊還設計了一個"門檻機制":如果一道題的第一關(事實級別)得分低於0.5分,那麼這道題的第二關和第三關得分直接歸零,不予計算。原因很簡單:如果AI連正常情況下畫一瓶水都畫不好,那麼它在反事實情況下碰巧畫出了冰,很可能只是隨機運氣,而非真正理解了反事實規則。這個0.5的門檻值也經過了人工校準實驗的驗證,研究團隊抽取了150張邊界分數區間的圖片,讓專業人員人工標註,發現0.5確實是人類認知"這張圖基本合格"的最優分界點,在這個門檻下準確率高達94%,F1得分高達0.93。
為了量化模型在三關之間的表現差異,研究團隊還設計了兩個專門的衡量指標。"先驗抵抗率"(PRR)衡量的是模型從第一關到第二關的表現保留程度,也就是說,當被要求畫反常識圖像時,模型能在多大程度上抵制自己的"習慣性思維",按照新規則來畫。"推理保留率"(RRR)衡量的是模型從第二關到第三關的表現保留程度,也就是在沒有明確告知結果的情況下,模型能在多大程度上靠自己的推理能力補全邏輯鏈條。這兩個指標的計算方式經過精心設計,避免了模型因為某一關得分本來就很低而導致"率"看起來虛高的問題——它們同時考慮了絕對得分和相對保留比例,取二者的幾何平均值。
三、14個頂尖AI模型,考結果如何?
研究團隊找來了14個當前最頂尖的文字生成圖像模型參加這場考試,其中包括開源模型和閉源商業模型兩大陣營。開源模型包括SANA 1.5、Janus-Pro-7B、Show-o2、Z-image、Lumina-DiMOO、BAGEL、BAGEL-CoT、OmniGen2、FLUX.2-dev和Qwen-Image;閉源商業模型包括Nano Banana、Nano Banana Pro、GPT-Image-1.5和Seedream 5.0。
成績出來了,總體結論只有一句話:幾乎所有模型都在第一關和第二、三關之間出現了斷崖式下滑。
具體數字來看,開源模型在第一關的得分普遍在0.75到0.88之間,說明它們在正常畫圖這件事上確實做得不錯。然而一旦進入第二關(顯式反事實),得分急劇跌落到0.21到0.48之間,先驗抵抗率大多低於0.50。到了第三關(隱式反事實),情況更加嚴峻,得分進一步下滑到0.11到0.28之間。
閉源商業模型的表現整體優於開源模型,但同樣無法逃脫這個下滑趨勢。Nano Banana Pro在Gemini評判下的第一關得分為0.93,第二關0.76,第三關0.67,先驗抵抗率0.79,推理保留率0.77,是所有參測模型中表現最好的。即便如此,從第一關到後兩關的下降依然清晰可見。
有一個特別有趣的發現:那些在第一關得分最高的模型,並不總是在第二關表現最好。Qwen-Image在第一關拿到了0.84分(Gemini評判下0.80分),但其先驗抵抗率卻低於FLUX.2-dev。這個現象背後的邏輯是:一個模型越是在訓練數據里見過大量"標準圖片",對"標準樣貌"的記憶就越根深蒂固,反而更難接受與之相違背的反常識指令。這就好比一個廚師,他做了二十年的紅燒肉,每次都是按固定配方來的,現在突然叫他把所有調料都顛倒使用,他反而比一個只有五年經驗的新廚師更難做到——因為舊習慣對他的束縛更深。
另一個值得注意的發現是關於"思維鏈"(Chain-of-Thought,CoT)推理方式。BAGEL-CoT相比BAGEL在第二關和第三關的表現確實有所提升(先驗抵抗率從0.34提升到0.45,推理保留率從0.28提升到0.41,Gemini評判下),但提升幅度相當有限。研究團隊認為,這是因為語言推理和視覺生成之間存在一道本質性的鴻溝:語言是離散的符號系統,邏輯推理在這裡相對容易進行;而擴散模型(Diffusion Model)的視覺生成過程是在連續的高維空間裡進行的,即便文字側已經推理出了"水在室溫下應該是冰",視覺側的生成網路也未必能夠把這個推理結果正確地轉化為像素。
四、為什麼AI會在反事實考題上失敗?
表面現象已經看清楚了,但研究團隊並不滿足於此,他們想追問一個更根本的問題:這些AI究竟是在哪個環節出了毛病?為此,他們設計了三組機制性實驗,像醫生做系列檢查一樣,逐步定位病灶。
第一組檢查叫"因果規則解耦實驗"。這組實驗想知道:排除掉"畫圖難"這個干擾因素,AI在純粹的規則理解和規則應用上,表現怎麼樣?研究團隊設計了一套使用抽象符號而非寫實圖像的測試題,共198道提示詞,覆蓋33條客觀規則。每條規則有1到2道事實基準題和4到5道反事實變體題,而且變體題的擾動方式不僅僅是簡單地"把A改成非A",而是多維度的——比如不只是把"向下的重力"改成"向上的重力",還會改成"向左的重力"或"向右的重力"。
結果顯示,即便在這種視覺複雜度大幅降低的簡化場景里,大多數模型在反事實規則下的絕對得分依然相當低。這說明AI的問題不僅僅出在"畫不出來",更出在"想不明白"。不過值得注意的是,在事實規則下得分更高的模型,通常在反事實規則下也能得到相對更高的分數,這意味著規則理解能力本身就是一個關鍵瓶頸,而不僅僅是因為訓練記憶里有太多"正常圖片"造成干擾。在這組測試中,擴散架構的模型(如FLUX.2-dev和Z-image)總體表現優於統一多模態架構的模型(如OmniGen2和Janus-Pro-7B)。
第二組檢查叫"屬性解耦實驗"。這組實驗想知道:排除掉規則推理這個難題,AI能不能把不常見的視覺概念組合在一起畫出來?研究團隊從已有數據集中抽取了100對"罕見概念組合"作為反事實條件(比如"穿西裝的海豚"),同時為每對概念生成一個對應的"常見概念組合"作為事實條件(比如"在水裡游泳的海豚")。結果發現:在常見組合的情況下,模型得分普遍很高(0.92到0.99);但在罕見組合的情況下,得分一致性地下滑到0.80到0.90之間。雖然這個下滑幅度相對較小,但它告訴我們:即便不需要任何邏輯推理,只是要求AI把不常見的東西畫在一起,它就已經開始出錯了。
第三組檢查叫"去名詞化實驗",這是最有趣的一組。研究團隊在第二關的提示詞裡,把關鍵的名詞換成了等價的描述性短語,然後看看這樣能不能幫助AI表現得更好。比如,原本的提示詞裡可能直接說"畫一塊冰",換成描述性短語之後變成"畫一個固態的、透明的、低溫的水分子聚合體"。換句話說,繞開那個直接觸發記憶的詞,用描述來代替。
結果出來,所有模型的得分確實都有提升,但幅度參差不齊。FLUX.2-dev的提升幅度最大,高達0.09;Z-image和Show-o2提升了0.05;而Janus-Pro-7B、SANA 1.5和BAGEL-CoT的提升幅度僅有0.01。這個差異揭示了兩種不同類型的"記憶枷鎖":對於以FLUX.2-dev為代表的擴散架構模型來說,它們的問題主要出在詞彙層面——一個特定的名詞會直接激活對應的標準視覺記憶,只要把詞換掉,這個觸發機制就被部分繞開,生成質量隨之提升;而對於以Janus-Pro-7B為代表的統一多模態架構模型來說,它們的問題更深,出在語義層面——即便換了措辭,背後的概念還是一樣的,所以換詞沒什麼用,這種"記憶枷鎖"已經深入到了共享表徵空間裡。
綜合這三組檢查,研究團隊得出了一個清晰的診斷:當前AI圖像生成器的反事實推理失敗,源於兩層能力缺失的疊加。第一層是"規則解耦"能力的缺失——模型無法把物理規律這個抽象概念從具體的視覺表現中剝離出來,獨立修改規律再重新推導結果;第二層是"屬性解耦"能力的缺失——模型無法把物體的視覺外觀和物體的"通常搭檔"分開,總是被高頻的視覺共現關係牽著鼻子走。在這兩層失敗中,前者(規則推理層面)才是更根本、更主要的瓶頸,因為這是一種對更高層次邏輯推理的要求,遠超出單純"把不常見的東西畫在一起"的難度。
五、自動化評分有多可靠?
研究團隊深知,如果評分系統本身不可靠,所有結論都將失去意義。為此,他們專門進行了一次人機對比實驗,從FLUX.2-dev和Nano Banana Pro生成的圖片中隨機抽取了1000張,分別請Gemini視覺語言模型和三位具有電腦視覺領域研究生背景的專業人工標註員進行評分。人工標註員在正式評分前接受了專門針對反事實評估標準的培訓,所有分數都被歸一化到0到1的連續區間,並用相同的加權方式計算。
對比結果顯示,Gemini與人工標註員的得分差異(機器得分減去人工得分)絕大多數集中在-0.125到+0.125這個極窄的區間內,分布曲線在0附近形成了一個尖銳的峰值,說明機器評分與人類判斷之間的一致性非常高。這有力地證明了CF-Eval作為人類專家評判的替代工具是可靠的。
研究團隊還注意到,兩個視覺語言模型評判員(Gemini和Qwen)在反事實場景下存在明顯的行為差異:Gemini保持了相對均衡的評判標準,而Qwen表現出明顯的"寬容偏差",常常對實際上只畫出了正常物體的圖片給出偏高的分數。為了消除這種偏差,研究團隊對Qwen使用了不同的提示詞設定——將Qwen定位為一個"嚴苛的對抗性評判官",主動要求它去尋找圖片中的邏輯破綻而非正面解讀。通過這種針對不同評判員的差異化提示策略,使得兩者最終在反事實評判的嚴格程度上趨於一致。
說到底,這項研究做的事情,就是給AI圖像生成器出了一套"換個世界你還認得路嗎"的考題。結果發現,這些看起來無所不能的圖像生成器,其實更像是一個擁有驚人視覺記憶的照相機,而不是一個能夠理解物理邏輯、獨立推演結果的工程師。當你按照訓練數據里存在的場景來要求它,它表現優異;但一旦你要求它"假設引力是斥力,那太陽系看起來是什麼樣的",它就開始畫出照常運行的太陽系——因為那是它見過的最多的版本。
這個發現對普通人的意義或許並不直接體現在日常使用上——畢竟大多數人不會沒事去問AI"水在熔點100度的世界裡是什麼狀態"。但它揭示了一個更深層的問題:我們目前對AI能力的評估方式,很可能低估了這些模型和真正"理解世界"之間的差距。一個模型能夠生成令人信服的圖像,並不等同於它理解了圖像背後的因果規律。反過來,如果未來有模型能夠在CF-World這套考題上取得高分,那才是真正意義上的"理解",而不只是"記憶"。
研究團隊明確指出,他們目前的工作性質是診斷性的,並沒有提出解決"概念糾纏"問題的具體算法方案。他們希望CF-World這套考題能成為一個持續有效的測試平台,激勵未來的研究朝著開發能夠真正進行因果推理的模型方向努力——不只是更多的訓練數據,而是本質上不同的模型架構或訓練方式。至於那兩種不同類型的糾纏(擴散模型的詞彙層糾纏和統一模型的語義層糾纏),研究團隊也指出它們需要根本不同的解決策略,前者或許通過改進提示詞或文本編碼器就能部分改善,而後者則需要在模型表徵層面進行更深入的干預。
有興趣深入了解的讀者,可以通過arXiv編號2606.24548查詢完整論文。
Q&A
Q1:CF-World反事實基準測試具體測了哪些內容?
A:CF-World包含1091組場景,共3273道提示詞,覆蓋物理學(經典力學、光學、熱力學、天文學、電磁學)、生物學、化學、地理和社會學五大學科。每組場景分三個難度關卡:第一關按正常規律畫圖,第二關在修改物理規則的同時明確告訴AI該畫什麼結果,第三關只修改規則但不說明結果,要AI自己推理後再作畫。
Q2:先驗抵抗率(PRR)和推理保留率(RRR)分別是什麼意思?
A:先驗抵抗率衡量AI在被要求畫反常識圖像時,能在多大程度上克服自己的"習慣性記憶",按照被修改的規則來畫,也就是第一關到第二關的性能保留程度。推理保留率則衡量AI在沒有明確告知結果的情況下,能靠自己的邏輯推理填補空缺,也就是第二關到第三關的性能保留程度。兩個指標越高,說明模型的反事實推理能力越強。
Q3:為什麼那些在普通測試中得分很高的AI模型,在反事實測試里反而可能表現更差?
A:這是"先驗鎖定"效應導致的。一個模型訓練數據越多,對"正常世界"里事物外觀的記憶就越根深蒂固。當被要求按照修改後的規則來畫時,強烈的舊記憶反而會干擾新指令的執行。就像一個習慣了固定配方的老廚師,比新手更難接受把所有調料都顛倒使用的要求。測試數據顯示,Qwen-Image在第一關得分很高,但先驗抵抗率卻低於第一關得分更低的FLUX.2-dev,正是這個原因。






