讓AI分清前後左右的新方法！北大與字節破解AI畫畫的「空間盲區」

你有沒有試過讓AI幫你畫一幅畫？比如，你告訴它：「畫一張辦公桌的圖，筆記本電腦放在桌子中間偏左，咖啡杯在電腦右邊，盆栽在桌子右側邊緣。」結果AI畫出來的東西看著挺好看，顏色很美，光影也不錯——但咖啡杯跑到了電腦左邊，盆栽乾脆消失了。這種「美麗又凌亂」的情況，幾乎是當下AI繪圖的通病。

贊助商廣告

為了解決這個問題，北京大學與字節跳動Seed團隊展開合作，打造了一套名為SpatialScore的「空間裁判」系統，專門教AI看懂「什麼東西該放在哪兒」。更有意思的是，這個裁判系統只有70億參數（在大模型的世界裡算是「身材嬌小」的），卻比GPT-5和Gemini-2.5 Pro這些動輒萬億參數的巨頭還要準確。

接下來，我們就沿著一條線索來理解這項研究：把整個AI畫畫的過程看作一場「室內設計」——你是甲方提需求，AI是設計師畫圖，而SpatialScore則是那位拿著捲尺檢查每件家具是否擺對了位置的「驗收專家」。

AI畫家的老毛病：能畫漂亮畫，但分不清東南西北

當你對一個朋友說「把杯子放在筆記本右邊」，對方能秒懂。但對AI畫圖模型來說，這個簡單的指令其實暗含了好幾層意思：它需要知道「杯子」和「筆記本」分別長什麼樣，還得理解「右邊」意味著什麼方位關係，更要把這種關係畫到圖上。當場景變得更複雜——比如五六個物體之間有各種「前後左右上下居中」的位置約束——AI就像接到了一份極其複雜的室內設計方案，很容易把家具擺錯位置。

那麼，現有的「評分系統」能不能幫AI糾正這個問題？在AI畫圖領域，已經有不少模型被專門設計來評判生成圖片的好壞，它們的角色就像裝修驗收時的質檢員。比如HPSv3、PickScore、ImageReward這些模型，它們擅長判斷畫面好不好看、色彩搭不搭、風格對不對——相當於質檢員會看牆壁刷得平不平、顏色選得好不好。但問題在於，這些質檢員不怎麼關心家具到底有沒有擺對位置。研究團隊做了一個很直觀的對比實驗：給這些現有的評分模型看兩張圖，一張的物體位置是對的，另一張位置是錯的。結果這些「質檢員」反而給位置錯誤的圖打了更高的分——因為那張圖可能僅僅是更好看一點。這就像驗收專員說「沙發雖然堵住了門，但顏色搭配很和諧，給個高分」，顯然不靠譜。

贊助商廣告

還有一種方案是用GenEval這個基於規則的評估工具，它靠目標檢測器（就是一種能識別圖片中有什麼物體的AI工具）來檢查物體是否存在以及位置對不對。但GenEval只能處理非常簡單的場景描述，比如「一張照片裡A在B的左邊」這種短句子。一旦描述變長、物體變多、位置關係變複雜，GenEval就歇菜了。而且，當圖片中物體有遮擋（比如一個杯子被書擋住了一半），檢測器就可能誤判——明明桌上有兩根香蕉，它只找到了一根，於是就給了錯誤的評分。

那用最強大的閉源大模型呢？GPT-5和Gemini-2.5 Pro確實在空間理解方面表現不錯，但它們的調用成本太高了。在線強化學習（這個後面會細講）需要不斷地讓「裁判」給出評分反饋，這意味著要頻繁調用模型，用閉源大模型來做這件事就像請了一位按分鐘計費的金牌設計師來做全程監工，賬單會非常嚇人。開源的視覺語言模型（比如Qwen2.5-VL-72B）雖然免費，但研究團隊發現，即使是720億參數的版本，在面對複雜的多物體空間關係時也會產生「幻覺」——它會自信滿滿地告訴你位置是對的，但實際上是錯的。

因此，研究團隊面對的核心難題就是：缺少一個既準確又廉價的「空間位置專用驗收員」。這就是SpatialScore要填補的空白。

打地基：8萬對精心製作的「對比樣本」

要訓練出一個好的「驗收專家」，首先得給它看大量的「正確範例」和「錯誤範例」。這就像培訓一個新的質檢員，你不能只給他看完美的樣板間，還得給他看各種典型的擺放錯誤，讓他學會分辨。

研究團隊為此構建了一個名為「SpatialReward-Dataset」的數據集，包含超過8萬對「對抗性偏好對」。這個名字聽著很拗口，但原理很簡單。每一對數據都包含兩張圖：一張是「完美圖」，所有物體的位置關係都嚴格符合文字描述；另一張是「干擾圖」，故意把其中一兩個位置關係搞錯了。

贊助商廣告

具體的製作過程可以理解為一條精密的「流水線」。第一步是由GPT-5來擔當「場景策劃師」，生成大量描述複雜空間關係的提示詞。這些提示詞不是簡單的「A在B左邊」，而是類似於「在一張木桌上，顯示器居中放在桌子後方邊緣，鍵盤在顯示器正前方居中，滑鼠在鍵盤右側與前邊緣對齊，螺旋筆記本在鍵盤左側且頂部對齊」這樣涉及多個物體和多重空間約束的長描述。

第二步，同樣由GPT-5來擔當「搗蛋鬼」，對這些完美的提示詞進行「微調破壞」：比如把「滑鼠在鍵盤右邊」改成「滑鼠在鍵盤左邊」，或者把兩個物體的相對位置互換。每次只改動一到三處空間關係，其他描述保持不變。

第三步，拿著「完美提示詞」和「被破壞的提示詞」分別去生成圖片。研究團隊選用了三個當前頂尖的圖片生成模型：阿里的Qwen-Image、騰訊的HunyuanImage-2.1以及字節的Seedream 4.0。這三個模型本身在「按照文字畫畫」方面就很厲害，所以生成的圖片質量較高，減少了額外干擾因素。對於每一對數據，用同一個模型來同時生成「完美圖」和「干擾圖」，這樣兩張圖在畫風、色調、清晰度等方面幾乎一致，唯一的區別就是物體的位置關係，這避免了質檢員因為「這張圖更好看」而偏心，確保它學到的是純粹的空間判斷能力。

最關鍵的第四步是人工審核。每一對數據都經過人類專家逐一檢查。驗證人員需要確認兩件事：完美圖確實百分之百符合文字描述中的所有空間關係；干擾圖確實存在預期的位置偏差，而不是碰巧雖然用了被破壞的提示詞但生成出來的圖恰好還是對的。不符合這兩條標準的數據對，都會被直接剔除。

這個數據集的規模和複雜度遠超之前的同類數據。從提示詞長度來看，SpatialReward-Dataset中的提示詞明顯比GenEval使用的模板式短句要長得多，場景也更接近真實世界的複雜描述。從空間關係數量來看，大部分提示詞包含四到八個甚至更多的空間約束條件，而不是僅僅描述兩個物體之間的單一關係。場景涵蓋了廚房、客廳、辦公室、花園、停車場、露營地等25種以上的真實生活環境，可以說是一本非常「厚實」的錯題集。

贊助商廣告

訓練驗收專家：SpatialScore的誕生

有了這本厚實的錯題集，接下來就要用它來培訓我們的「專家」——SpatialScore。

SpatialScore的底座是Qwen2.5-VL-7B，一個70億參數的視覺語言模型。你可以把它理解為一個已經具備基本「看圖說話」能力的AI，它能看懂圖片裡有什麼東西，也能理解文字在說什麼。但它還不擅長精確判斷「圖片中的物體位置關係是否與文字描述一致」。SpatialScore的訓練就是要把這個通才改造成空間方位領域的專家。

改造的方式借用了LoRA，LoRA的精妙之處在於，它不需要改動模型的全部參數（那樣既費時又可能破壞模型已有的知識），而是只在模型的關鍵位置插入一小組可訓練的「補丁參數」。可以理解為，你不是要推翻一棟建好的大樓重新蓋，而是在特定的房間裡安裝一些新設備，讓這棟大樓具備原來沒有的功能，同時保留了原有的所有能力。

在訓練過程中，模型需要完成這樣一個任務：給它看一個文字提示詞和兩張圖（一張完美圖，一張干擾圖），它要學會給完美圖打更高的分，給干擾圖打更低的分。這個學習目標用到了一個叫做Bradley-Terry模型的數學框架，本質上就是一種「兩兩比較誰更好」的排序方法——類似於讓兩個選手比賽，贏的那個得分高。

SpatialScore的評分方式也有巧妙之處。它不是直接輸出一個固定的分數，而是輸出一個分數的「概率分布」——就像射擊比賽中，它不是說「我打了9.5環」，而是說「我大概率打在9到10環之間，中心是9.5環」。具體來說，模型會輸出兩個數值：一個均值μ代表最可能的分數，一個標準差σ代表不確定性。這種概率化的評分方式讓排序更加穩健，不容易因為個別極端樣本而產生誤判。

在技術實現上，研究團隊在輸入提示詞的末尾插入了一個特殊標記「」，這個標記在模型內部能夠「注意到」圖片和文字的所有資訊。模型最後一層輸出的這個標記的特徵向量，會被送入一個小型的多層感知機（可以理解為一個簡單的「翻譯器」），轉換成μ和σ兩個數值。

贊助商廣告

整個訓練過程在8塊英偉達H20 GPU上用不到一天時間就完成了。訓練完成後的SpatialScore，在研究團隊構建的365對測試集上達到了95.77%的配對準確率。這個數字意味著，每給它看100對「完美圖vs干擾圖」，它有將近96次能正確判斷出哪張是對的、哪張是錯的。

這個成績有多了不起呢？GPT-5在同一測試集上的準確率約為89%，Gemini-2.5 Pro約為95.1%。也就是說，一個70億參數的「小模型」，在空間位置判斷這個特定任務上，反超了那些參數量可能是它數百倍的頂級閉源模型。而像PickScore、ImageReward等現有的圖像評分模型，準確率只有46%到65%左右——幾乎跟隨機猜沒什麼兩樣。開源的Qwen2.5-VL系列雖然展現出「越大越准」的趨勢（從7B的60%到72B的76%），但即使是最大的720億參數版本，也遠不如SpatialScore的7B版本。

研究團隊還測試了不同大小的SpatialScore版本：3B版本的準確率為89.1%，7B版本為95.8%，32B版本為97.3%。綜合考慮準確度和計算效率（畢竟後續要在強化學習中頻繁調用），7B版本是最佳的性價比之選。

讓AI畫家自我進化：用SpatialScore當教練做強化學習

有了靠譜的「驗收專家」之後，下一步就是用它來實際訓練AI畫圖模型，讓畫家學會「把東西放對地方」。這裡用到的核心方法叫在線強化學習，具體採用的算法框架是GRPO（Group Relative Policy Optimization，組相對策略優化）。

在線強化學習的核心思想，可以用一個類比來理解。假設你在教一個新手室內設計師，你不會直接告訴他「沙發應該放在這個坐標」，而是讓他先自己設計幾十個方案，然後你（作為驗收專家）對每個方案評分，告訴他「這個方案空間布局不錯，得8分」「那個方案杯子位置放錯了，得3分」。經過一輪又一輪的設計、評分、改進，新手設計師就會越來越擅長把家具擺對位置。

研究團隊選擇了FLUX.1-dev作為需要被「培訓」的基礎畫圖模型。選擇它有兩個原因：一是它本身畫圖能力很強，特別是在處理長文本描述時表現不錯，這與SpatialReward-Dataset中那些複雜場景描述很搭；二是FLUX.1-dev還沒有經過類似的後訓練優化，這意味著任何提升都可以歸功於SpatialScore的指導，而不是其他因素。

贊助商廣告

GRPO算法的工作流程是這樣的：對於訓練集中的每一個文字提示詞，讓畫圖模型一次性生成一組圖片（這裡是24張）。然後SpatialScore對這24張圖逐一評分。在組內，每張圖的「優勢值」會通過與組內平均分和標準差的比較來計算——得分高於平均水平的圖獲得正向優勢（意味著「畫得好，繼續這麼畫」），得分低於平均水平的圖獲得負向優勢（意味著「畫得不好，以後別這麼畫」）。畫圖模型根據這些反饋信號調整自己的參數，爭取下次畫出更多高分圖。

不過，這裡有一個技術難點需要解決。原本的畫圖模型（基於「流匹配」技術）在生成圖片時走的是一條「確定性路徑」——給同樣的輸入，每次的生成過程是固定的。但強化學習需要「探索」，也就是嘗試不同的可能性來發現更好的方案。解決辦法是把確定性的生成路徑轉換為「隨機路徑」，在每一步生成過程中加入一點可控的隨機噪聲。這就像給設計師說「在你原來的方案基礎上，每次稍微做一些隨機的小調整」，這樣才有機會碰撞出更好的方案。

聰明的篩選術：top-k過濾策略

在實際訓練過程中，研究團隊發現了一個容易被忽視但很棘手的問題：不同難度的提示詞會導致優勢值的估算出現偏差。

考慮這樣一個場景：如果某個提示詞比較簡單（比如只要求兩個物體的簡單位置關係），那麼24張生成圖中可能有20張都畫對了，只有4張畫錯。這時候組內的平均分會被拉得很高。結果就是，即使有些圖畫得很好，但因為平均分太高，它們的優勢值反而變成了負數。在強化學習的語境下，負的優勢值意味著「以後少畫這樣的圖」——但這些圖明明是畫對了的！這就像一個班級里全是學霸，考了95分的同學因為班級平均分是97分，反而被當成了「差生」來批評。反過來，如果某個提示詞特別難，24張圖可能全都畫得不好，此時低分的圖也可能因為平均分同樣低而獲得不合理的正向優勢。

贊助商廣告

為了解決這個偏差問題，研究團隊提出了一個簡潔有效的top-k過濾策略。思路很直接：在24張圖的評分排序之後，只取得分最高的k張和得分最低的k張，用這2k張圖來計算平均分和標準差，並且只用這些被選中的圖來更新模型。這樣一來，無論提示詞難還是簡單，用於訓練的樣本總是包含了「最好的」和「最差的」兩個極端，優勢值的分布更加均衡，訓練信號也更加清晰。

研究團隊測試了不同的k值。當k=4時（也就是取最好的4張和最差的4張，共8張），訓練前期進步很快，但後期因為樣本太少、多樣性不夠而速度放緩。當k=6時（取最好和最差各6張，共12張），在速度和多樣性之間達到了最佳平衡。因此k=6被定為所有實驗的默認配置。

這個策略還帶來了一個額外的好處：大幅減少了計算量。原始的GRPO需要對所有24張圖的生成過程做「函數評估」來更新模型參數，而採用top-k=6的過濾後，只需要對12張圖做這個計算。在採樣組大小為24、去噪步數為6的設定下，每個提示詞每步訓練只需要72次函數評估（2×6×6），而原始方案需要144次（24×6）。計算量直接砍半，但性能沒有下降甚至還有所提升。

實驗成績單：全面碾壓基線，逼近閉源大模型

那麼，經過SpatialScore指導的強化學習訓練後，AI畫家的「空間布局能力」到底提升了多少？

在研究團隊自己構建的SpatialScore評估指標上，FLUX.1-dev的原始得分只有2.18（滿分10分），經過訓練後躍升到了7.81，漲幅接近四倍。這就像一個室內設計師從「十件家具只能擺對兩件」進步到了「十件能擺對將近八件」。

研究團隊還在多個外部基準測試上做了評估。在DPG-Bench這個衡量「文字-圖像對齊」的綜合測試中，經過訓練的模型在空間關係維度上從89.44%提升到91.58%，整體得分從82.91%提升到85.03%。要知道，這個整體得分已經非常接近GPT-Image-1的85.15%——而GPT-Image-1是OpenAI的閉源商業產品。

贊助商廣告

在TIIF-Bench測試上，研究團隊分別測了短提示詞和長提示詞的表現。在短提示詞的基本空間關係維度上，得分從75.8%提升到84.5%；在長提示詞場景下，得分從64.5%提升到67.5%。在UniGenBench++測試的2D和3D布局維度上，改進同樣顯著，特別是在長提示詞的3D布局上，從74.2%提升到80.1%。

與此形成鮮明對比的是，之前的Flow-GRPO方法使用GenEval作為獎勵模型進行訓練後的模型表現。雖然Flow-GRPO在短提示詞上有些微改善，但在長提示詞場景下性能急劇下降——在UniGenBench++長提示詞的2D布局上從81.9%暴跌到44.5%，3D布局從74.2%跌到40.5%。這恰恰印證了前面提到的GenEval的局限性：它只能處理簡單模板，一碰到複雜的多物體空間場景就「教不動」了。

更值得關注的是，SpatialScore指導下的訓練帶來的提升不僅限於空間維度。在DPG-Bench的全維度評估中，訓練後的模型在全局理解、實體識別、屬性匹配等所有五個大維度上都有提升，而Flow-GRPO訓練的模型則在所有維度上都出現了退化。這說明SpatialScore的訓練信號不僅沒有以犧牲其他能力為代價來提升空間理解，反而產生了正向的溢出效應。

從實際生成的圖片來看，研究團隊展示了多個複雜場景的對比。比如一個描述了餐廳場景的提示詞，要求「三根蠟燭從左到右由高到矮排列，水果碗在中間蠟燭後面居中對齊，兩個盤子分別在蠟燭前方與最高和最矮蠟燭對齊，畫掛在碗的正上方」。原始的FLUX.1-dev畫出的圖中多個物體位置有偏差，Flow-GRPO版本甚至直接丟掉了蠟燭，而SpatialScore訓練後的模型則基本完整且準確地還原了所有空間關係。另一個露營場景的例子更為極端，Flow-GRPO版本把帳篷都弄丟了，而SpatialScore版本則忠實地呈現了帳篷、火堆、水壺、原木、背包、燈籠等所有物體之間的前後左右關係。

研究團隊還把SpatialScore的訓練方法應用到了另一個畫圖模型Qwen-Image上。結果同樣令人滿意：在SpatialScore評估上從6.74提升到8.25，在各個外部基準測試的空間維度上也都有一致的提升。這說明SpatialScore並非只對某一個特定模型有效，而是具有良好的通用性。

贊助商廣告

在GenEval這個簡單場景基準測試上，雖然研究團隊指出GenEval本身有種種局限，但經過SpatialScore訓練的模型仍然取得了顯著的零樣本提升：整體得分從0.65提升到0.78，其中位置維度從0.19提升到0.37——將近翻倍。這說明在複雜場景上學到的空間理解能力，確實能夠遷移到簡單場景中去。

硬幣的另一面：局限性與未來方向

任何研究都有邊界，這項工作也不例外。研究團隊坦誠地指出，SpatialScore目前只在靜態圖片層面驗證了空間理解能力的增強。當涉及到影片生成時，模型不僅需要理解「此刻物體在哪裡」，還需要理解「物體如何隨時間移動和變化」。比如，一段影片可能需要表現「先把物體A移到B的左邊，然後把物體C放到B的右邊，接著交換A和C的位置」——這種時序性的空間推理是當前研究尚未觸及的領域。

研究團隊認為，將獎勵建模擴展到影片生成中的空間理解是一個重要的未來方向，尤其對於「仿真到真實」的具身模擬場景（也就是讓機器人在虛擬世界裡學習空間操作、然後遷移到現實世界中）來說，生成時間連貫且空間準確的影片序列對於彌合模擬與現實之間的差距至關重要。

至頂AI實驗室洞見

歸根結底，這項研究解決的是一個非常接地氣的問題：讓AI畫出來的東西不僅好看，還「擺得對」。當你用AI生成一張產品宣傳圖、一個遊戲場景概念圖、或者一個室內設計參考圖時，你希望畫面中的每個元素都準確地出現在你指定的位置上，而不是需要反覆「抽卡」碰運氣。

SpatialScore的方法論——先構建高質量的對比數據，再訓練專門的評判模型，最後用這個評判模型來指導生成模型的自我改進——本身就是一套可復用的研究範式。以後如果想讓AI畫家學會更好的光影處理、更準確的人體比例、更合理的物理規律表現，都可以沿用這條路徑。

而這項研究中提出的top-k過濾策略，雖然聽上去只是一個小技巧，但它揭示了強化學習訓練中一個普遍存在的偏差問題，解決方案簡潔而有效。這個思路對於其他領域的強化學習應用同樣有參考價值。

贊助商廣告

對這項工作感興趣的讀者，可以通過arXiv編號2602.24233v1查找原始論文獲取更多技術細節。隨著AI生成內容在創意產業、電商、遊戲、建築設計等領域的應用越來越廣泛，「讓AI準確理解空間」這件事的重要性只會與日俱增。SpatialScore向我們展示了一條可行的路徑，而路的盡頭還有更廣闊的可能性等待探索。

END

本文來自至頂AI實驗室，一個專注於探索生成式AI前沿技術及其應用的實驗室。致力於推動生成式AI在各個領域的創新與突破，挖掘其潛在的應用場景，為企業和個人提供切實可行的解決方案。

Q&A

Q1：SpatialScore是什麼，準確率有多高？

A：SpatialScore是北大和字節跳動聯合開發的一個專門評估AI生成圖片中空間位置關係準確度的獎勵模型，基於70億參數的Qwen2.5-VL-7B微調而成。在研究團隊構建的測試集上，SpatialScore達到了95.77%的配對準確率，甚至超過了GPT-5和Gemini-2.5 Pro等頂級閉源模型。

Q2：SpatialReward-Dataset數據集是怎麼構建的？

A：SpatialReward-Dataset包含8萬對「對抗性偏好對」，每對由一張空間位置正確的「完美圖」和一張故意擾亂了部分空間關係的「干擾圖」組成。提示詞由GPT-5生成和擾動，圖片由三個頂尖生成模型產出，最後所有數據對都經過人工專家逐一審核和過濾。

Q3：SpatialScore訓練後的AI畫圖模型提升有多大？

A：以FLUX.1-dev模型為例，經過SpatialScore指導的強化學習訓練後，空間評分從2.18提升到7.81（漲幅近4倍），在DPG-Bench綜合評測中整體得分達到85.03%，接近OpenAI閉源產品GPT-Image-1的85.15%水平。