這項由騰訊AI實驗室的屈天元、柯磊、詹曉航等研究團隊,聯合香港中文大學和香港科技大學共同完成的研究,發表於2025年12月18日,論文編號為arXiv:2512.16864v1。對於想要深入了解技術細節的讀者,可以通過該論文編號查詢完整的學術論文。
當我們打開修圖軟體想要編輯一張複雜的照片時,經常會遇到這樣的困擾:告訴AI"把那個穿藍色背包的女士的鞋子改成紅色",但AI要麼找錯了人,要麼把整個場景都搞得面目全非。這就是當前圖像編輯AI面臨的核心挑戰——它們很難準確理解複雜場景中的具體指令,更難精準地只在需要的地方進行修改。
騰訊AI實驗室的研究團隊發現了這個問題的根源,並提出了一個叫做RePlan的創新解決方案。他們把這類挑戰稱為"指令-視覺複雜度",就像是給一個剛學會識字的孩子一本複雜的地圖,然後要求他找到特定的小巷並只在那裡做改動一樣困難。
這項研究的突破性在於,它首次將視覺理解和圖像編輯在區域級別進行了深度結合。傳統方法就像是用大刷子粗糙地塗色,而RePlan則像是拿著精細的畫筆,能夠準確地在每個需要的位置進行精確編輯。更令人驚嘆的是,這個系統僅僅用了大約1000個訓練樣本就達到了超越那些用海量數據訓練的大型模型的效果,這就好比一個學生只看了幾道例題就能在考試中擊敗那些刷了成千上萬道題的同學。
一、理解問題:當AI遇到複雜場景時為什麼會"迷路"
在日常生活中,我們經常需要編輯包含多個相似物體的複雜照片。比如一張辦公桌的照片上有多個杯子,我們想要"把那個用過的杯子換成小盆栽"。對於人類來說,我們能夠通過觀察杯子裡是否有咖啡殘留、杯子的擺放位置等線索來判斷哪個是"用過的"杯子。但對於現有的AI系統來說,這種理解和推理能力還遠遠不夠。
研究團隊將這種挑戰精確地定義為"指令-視覺複雜度"。這個概念包含三個相互交織的維度:首先是視覺複雜度,指的是圖像本身包含多個相似物體、雜亂的布局或者模糊的邊界;其次是指令複雜度,比如需要引用多個物體、包含隱含語義或需要外部知識的指令;最後是這兩種複雜度之間的相互作用,使得編輯任務變得更加困難。
以"把桌上用過的杯子換成小盆栽"這個指令為例,AI需要首先理解什麼叫"用過"的杯子,然後在可能有多個杯子的桌面上準確定位目標,最後還要確保替換過程不會影響周圍的其他物體。這就像要求一個機器人在一個混亂的倉庫里找到一個特定的、可能有細微磨損痕跡的工具,然後小心翼翼地只替換那一個工具,而不碰動周圍任何其他東西。
現有的圖像編輯方法主要分為兩類:一類是端到端的方法,直接從指令生成編輯結果,但往往缺乏精確的空間推理能力;另一類是基於區域塗抹的方法,先定位區域再進行編輯,但依賴的定位模塊往往不夠準確,而且難以處理需要推理的複雜指令。更重要的是,這些方法都沒有充分利用大型視覺語言模型在理解和推理方面的強大能力。
研究團隊意識到,問題的關鍵在於如何讓AI系統能夠像人類專家一樣,先仔細分析場景和指令,制定詳細的編輯計劃,然後精確地執行這個計劃。這就好比一個經驗豐富的照片修復師,他會先仔細觀察整張照片,理解客戶的需求,在腦海中規劃好要在哪些具體區域進行什麼樣的修改,然後才開始動手操作。
二、創新方案:讓AI學會"先思考再行動"
RePlan的核心創新就像是給AI配了一個智能助手和一個精密工具。這個智能助手負責理解複雜的指令並制定詳細的行動計劃,而精密工具則負責按照計劃精確地執行編輯操作。
整個系統採用了"計劃-執行"的兩階段架構。在計劃階段,一個基於大型視覺語言模型的規劃器扮演著"智能助手"的角色。當接收到一個編輯指令時,這個規劃器不會急於行動,而是先進行詳細的思考過程。它會像一個經驗豐富的編輯師一樣,仔細分析圖像中的每個元素,理解指令的真正含義,然後制定一個包含具體區域坐標和編輯提示的詳細計劃。
以前面提到的"替換用過的杯子"為例,規劃器會這樣思考:首先識別圖像中所有的杯狀物體,然後分析哪個杯子顯示出"被使用過"的特徵(比如裡面有液體殘留、位置表明剛被使用等),接著確定這個杯子的精確位置,最後生成具體的編輯指導,比如"在坐標[224, 372, 263, 431]的紅色杯子替換為小盆栽",同時還會生成保護性指令,如"在坐標[175, 329, 220, 388]的玻璃杯保持不變"。
在執行階段,系統使用了一個創新的"訓練-免費注意力區域注入"機制。這就像是給編輯工具裝上了精密的導航系統,能夠確保編輯效果精確地作用在指定區域,而不會"溢出"到不該修改的地方。傳統的方法就像是用噴漆罐作業,很容易波及周圍區域,而這個新機制就像是用精密的雷射切割,只在需要的地方產生效果。
這個注意力機制的工作原理類似於一個智能的資訊分發系統。在處理圖像時,系統會根據區域規劃將圖像分割成不同的區域組,每個組只能接收到與其對應的編輯指令。這樣確保了編輯指令不會相互干擾,同時保持了全局的一致性。就好比在一個大型orchestra中,每個樂器組只聽自己的指揮,但整體仍然保持協調一致的演奏。
更令人印象深刻的是,這個系統支持並行多區域編輯。傳統方法需要一個接一個地處理不同區域,就像裝修房子時只能一個房間一個房間地刷漆。而RePlan可以同時在多個區域進行精確編輯,就像有多個專業工匠同時在不同房間工作,但彼此之間完美協調,不會產生衝突。
三、強化學習讓AI變得更聰明
為了進一步提升規劃器的能力,研究團隊還採用了一種叫做GRPO的強化學習方法。這就像是給AI安排了一個嚴格而有效的訓練課程,讓它在反覆練習中不斷改進自己的規劃能力。
這個訓練過程分為兩個階段,就像學習寫作一樣先學會正確的格式,再學會精彩的內容。第一階段專注于格式和推理質量的學習。系統學會如何用正確的格式輸出規劃結果,如何進行有條理的思考推理。這個階段的獎勵機制很簡單但很重要:如果輸出格式正確就給予積極獎勵,如果推理過程詳細就給予更高獎勵。
第二階段則引入了圖像級別的評估。系統會根據最終的編輯結果獲得反饋,學習如何制定更好的編輯計劃。評估標準包括三個方面:編輯是否作用在了正確的目標上,視覺效果是否符合指令要求,以及其他區域是否保持了一致性。這就像一個學生不僅要學會解題的步驟,還要確保最終答案是正確的。
令人驚訝的是,這個強化學習過程只使用了大約1000個複雜的編輯指令樣本。這相當於一個學生只做了1000道練習題就達到了超越那些刷了數萬題的同學的水平。這種高效的學習能力得益於系統巧妙的架構設計和訓練策略。
為了防止系統在優化過程中走偏(比如為了獲得高一致性分數而乾脆什麼都不改),研究團隊設計了巧妙的獎勵權重機制。一致性分數會根據編輯效果進行加權,這樣系統既不能偷懶不做編輯,也不能為了編輯而破壞其他區域,必須在兩者之間找到完美的平衡。
四、全新基準:真正考驗AI能力的"期末考試"
為了全面評估複雜圖像編輯的能力,研究團隊還創建了一個名為IV-Edit的新基準數據集。如果說現有的圖像編輯測試就像是小學的數學作業,那麼IV-Edit就像是為博士生設計的綜合考試。
這個基準的設計理念是故意選擇那些具有挑戰性的場景。與現有數據集偏向選擇主體突出、背景簡單的圖像不同,IV-Edit專門收集了那些包含多個相似物體、布局複雜、需要細緻推理的圖像。就像考試時故意出一些需要綜合運用多種知識的綜合題,而不是簡單的基礎題。
編輯指令的設計也更加貼近真實使用場景。研究團隊定義了7種不同的引用類型,從簡單的特徵描述到需要外部知識的複雜推理。比如"特徵引用"可能是"那個紅色的杯子",而"理解引用"可能是"那個負責場上指揮的運動員",這需要AI理解運動員的角色和行為。
任務類型涵蓋了16種不同的編輯需求,從簡單的顏色修改到複雜的物理推理。比如有一類叫"預測編輯"的任務,要求AI根據物理規律或邏輯推理來預測和顯示某種變化的結果。例如"展示這個蔬菜造型如果是匹諾曹剛說謊後會發生什麼",這需要AI理解匹諾曹的故事背景,並將這個知識應用到圖像編輯中。
整個基準包含約800對指令-圖像組合,平均每個指令包含21個單詞,其中182個樣本涉及多區域編輯。這些數字看似不大,但每個樣本都經過精心設計和人工驗證,確保它們真正能夠測試AI在複雜場景下的理解和編輯能力。
評估方法也摒棄了傳統的簡單相似度比較,而是採用了更智能的多維度評估。系統會從目標準確性、一致性、質量和效果四個維度對編輯結果進行評分,每個維度都有具體的評判標準。這就像是請專業的攝影師和編輯從多個角度來評判作品質量,而不是簡單地比較像素差異。
五、實驗結果:令人印象深刻的性能表現
在IV-Edit基準上的測試結果顯示,RePlan在多個關鍵指標上都表現出色,特別是在一致性方面取得了顯著優勢。一致性是指編輯後的圖像中,非目標區域是否保持了原有的狀態,這對於實際應用來說至關重要。沒有人希望修改一個物體的顏色後,發現照片中其他物體也莫名其妙地發生了變化。
與現有的開源模型相比,RePlan在幾乎所有評估維度上都顯示出了明顯的改進。更重要的是,即使與一些閉源的商業系統相比,RePlan也表現得相當出色。這特別令人印象深刻,因為那些商業系統通常使用了數量級更多的訓練數據和計算資源。
研究團隊還進行了詳細的消融實驗來驗證系統各個組件的重要性。當移除鏈式思考推理能力時,系統性能明顯下降,這證明了讓AI"先思考再行動"策略的重要性。當使用其他視覺語言模型作為規劃器時,雖然它們在推理能力上很強,但由于格式控制和邊界框精度問題,最終效果不如經過強化學習優化的版本。
特別有趣的是關於邊界框擾動的魯棒性測試。研究團隊故意在AI生成的區域坐標上添加隨機噪聲,模擬實際使用中可能出現的定位誤差。結果顯示,即使坐標精度下降了50%,系統仍然能夠保持相對穩定的編輯效果。這就像一個熟練的畫家,即使手稍微抖動也不會影響整體作品質量。
在處理重疊區域的測試中,RePlan也展現了出色的處理能力。當兩個編輯區域有重疊時,系統能夠智能地協調不同的編輯指令,確保重疊區域得到合理的處理。這就像兩個裝修工人需要在同一面牆上工作,他們必須協調好各自的任務,確保最終效果協調統一。
六、實際應用價值和未來展望
RePlan的技術突破為圖像編輯領域帶來了許多實際應用價值。在內容創作領域,設計師和創作者可以使用更自然的語言來描述複雜的編輯需求,而不必擔心AI誤解或執行錯誤。比如在製作廣告圖片時,創作者可以說"把那個看起來最新鮮的水果的顏色調得更鮮艷一些",系統就能準確理解並執行。
在電商領域,商家可以更方便地批量處理產品圖片。想要把所有產品圖片中的背景替換為白色,同時保持產品本身不變,這在以前需要大量的手工操作,現在可以通過簡單的指令自動完成。更進一步,商家甚至可以根據不同的營銷需求,動態調整產品展示效果,比如"讓這個手錶看起來更適合商務場合"。
在教育和培訓領域,這項技術可以幫助製作更生動的教學材料。歷史老師可以說"給這張古代戰爭圖片添加一些體現當時武器特色的細節",系統就能根據歷史知識進行合理的圖像修改。
從技術發展的角度來看,RePlan代表了一個重要的趨勢:將大型語言模型的推理能力與專門的生成模型相結合。這種"專業分工"的方法可能會在更多AI領域得到應用,每個組件都專注於自己最擅長的任務,然後通過精心設計的接口進行協作。
當然,這項技術也面臨一些挑戰和限制。首先是對計算資源的需求,雖然比端到端的大模型要效率更高,但仍然需要相當的計算能力。其次是在處理某些藝術性或高度主觀的編輯需求時,可能還需要更多的人工指導。
研究團隊也指出了一些未來的改進方向。比如如何進一步提高系統對藝術風格變化的理解能力,如何處理更複雜的三維空間推理,以及如何在保持編輯質量的同時進一步提高處理速度。
說到底,RePlan最重要的價值在於它讓AI圖像編輯變得更加智能和人性化。用戶不再需要學習複雜的操作技巧或者反覆嘗試不同的參數設置,而是可以用最自然的語言表達自己的需求,然後讓AI來理解和執行。這就像是有了一個真正理解你意圖的專業助手,不僅能完成你交代的任務,還能避免那些你沒有想到的潛在問題。
這項研究的成功也證明了一個重要觀點:在AI發展的過程中,有時候最好的解決方案不是構建一個無所不能的巨大模型,而是讓不同的專業模型各司其職,通過巧妙的協作來解決複雜問題。這種思路可能會為未來的AI系統設計提供重要啟發。對於那些希望深入了解技術細節的讀者,建議查閱原論文arXiv:2512.16864v1,其中包含了更多實驗數據和技術實現的具體細節。
Q&A
Q1:RePlan和普通的圖像編輯AI有什麼不同?
A:RePlan最大的不同是採用了"先思考再行動"的方式。普通AI直接根據指令進行編輯,容易出錯或影響其他區域。RePlan先用智能規劃器分析圖像和指令,制定詳細的編輯計劃,然後精確執行,就像專業編輯師會先規劃再操作一樣。
Q2:為什麼RePlan只用1000個樣本就能超越大型模型?
A:關鍵在於訓練策略的巧妙設計。RePlan使用強化學習分兩階段訓練:先學習正確的格式和推理方式,再根據實際編輯效果進行優化。這種方法比簡單的大量數據堆疊更有效,就像有針對性的精英訓練比盲目刷題效果更好。
Q3:RePlan能處理哪些傳統圖像編輯AI處理不好的場景?
A:RePlan特別擅長處理複雜場景中的精確編輯,比如在多個相似物體中準確定位目標、需要推理的編輯任務(如"把用過的杯子換成盆栽")、多區域同時編輯等。它還能很好地保護非編輯區域不被意外修改,這是傳統方法的常見問題。






