這項由香港中文大學IMIXR實驗室、MMLab實驗室與美團公司合作完成的突破性研究發表於2025年11月,論文編號為arXiv:2511.16671v1。研究團隊由郭子毓、張任睿、李泓宇等多位學者組成,他們首次提出了名為"Thinking-while-Generating"(簡稱TWIG)的全新AI圖像生成框架。有興趣深入了解的讀者可以通過該編號查詢完整論文。
當你看到一位畫家在創作時,會發現一個有趣的現象:他們從不是一口氣畫完整幅作品,而是時不時停下筆來,仔細端詳畫布,在心中琢磨接下來該如何下筆。他們會想"這裡的陰影需要更深一些",或者"右上角的雲朵應該畫得更柔和"。這種邊畫邊思考的過程,正是人類藝術創作的精髓所在。然而,現在的AI畫圖工具卻不是這樣工作的,它們要麼在開始畫之前就把所有計劃都想好,要麼畫完了再去修改,缺少了這種即時的思考和調整。
研究團隊敏銳地注意到了這個問題。現有的AI圖像生成系統就像是一個只會按照食譜死板執行的廚師,要麼嚴格按照事先寫好的菜譜做菜,完全不允許中途調味;要麼做完整道菜之後再嘗味道,發現不對勁了重新來過。這樣的方式雖然也能產出不錯的作品,但總是缺少一些靈活性和創造性,特別是在處理複雜構圖、多個物體之間的關係,以及精確遵循詳細指令方面,經常會出現各種問題。
郭子毓及其團隊提出的TWIG框架,就像是給AI安裝了一個會思考的大腦,讓它能夠在創作過程中不斷思考和調整。具體來說,這個系統會在畫圖的過程中,不斷插入一些文字思考,就像畫家會在心中默默念叨"現在該畫天空了,應該用什麼顏色呢"這樣的想法。這些思考不僅能指導接下來要畫的部分,還能回顧和反思已經畫好的部分,及時發現問題並進行調整。
這種方法的革命性在於,它真正實現了文字思維和圖像生成的深度交融。就像一個經驗豐富的廚師會一邊做菜一邊嘗味道,根據當前的味道決定下一步該加什麼調料,TWIG系統也會一邊生成圖像一邊進行文字思考,根據當前的畫面狀況決定接下來該如何調整。這種動態的相互作用產生了更加貼合語境、語義更加豐富的視覺輸出結果。
為了驗證這個創新想法的可行性,研究團隊設計了三種不同的實現策略。第一種是零樣本提示策略,就像是給一個天賦異稟的學生一些提示,看看他能不能自己領悟出邊思考邊創作的技巧。第二種是監督微調策略,研究團隊專門構建了一個名為TWIG-50K的數據集,包含5萬個訓練樣例,就像是給學生提供了大量的練習題和標準答案。第三種是強化學習策略,通過一種名為TWIG-GRPO的定製化算法來不斷優化系統的表現,就像是通過不斷的實戰演練來提升技能。
一、零樣本提示:天賦異稟的自學成才者
零樣本提示策略的核心思想是通過精心設計的提示詞,讓AI系統自己學會在生成圖像時進行思考。這就像是給一個聰明的學生一些關鍵的學習指導,看看他能否自己摸索出正確的學習方法。
研究團隊為這種策略設計了一系列巧妙的提示模板,分別對應TWIG框架的三個核心組件。對於"何時思考"這個問題,他們引導模型從全局視角來審視圖像,就像一個建築師在開始施工前會先勾勒出整體的結構輪廓。系統會按步驟描繪圖像的高層語義和結構,通常採用三步法:上層背景、中心內容、下層背景。這種劃分基於一個重要發現,即大多數圖像都可以分解為這三個語義組件。
對於"說什麼"這個問題,研究團隊引導模型嚴格專注於當前正在生成的局部區域,同時保持與之前生成的視覺和文本內容的連貫性。就像一個畫家在畫一朵花時,需要考慮這朵花與整個畫面的和諧統一,但主要精力還是集中在如何把這朵花畫得更好。系統被要求不要使用空間錨定詞彙,而是專注於描述性內容的生成。
對於"如何優化"這個問題,提示模板要求模型從五個維度進行評估:顏色準確性、對象完整性、細節豐富程度、空間關係以及視覺連貫性。這就像是一個嚴格的藝術評委,會從多個角度來評判作品的質量。模板還強調任何修訂都應該是局部的,不能與已經驗證過的先前區域產生衝突。
實驗結果顯示,這種零樣本策略取得了令人驚喜的效果。在T2I-CompBench基準測試中,TWIG-ZS模型相比基線模型Janus-Pro-7B實現了顯著提升。特別是在紋理屬性綁定方面,提升幅度達到了15.41個百分點,這意味著AI能夠更準確地理解和生成具有特定紋理特徵的物體。在複合場景生成方面,整體提升達到12.57個百分點,說明系統在處理複雜構圖時的能力有了明顯改善。
更有趣的是,研究團隊還進行了一系列對比實驗。他們發現,邊思考邊生成的策略明顯優於先思考再生成或者先生成後思考的傳統方法。這就像是驗證了畫家的直覺:最好的創作方式確實是邊畫邊想,而不是要麼完全按計劃執行,要麼畫完了再修改。
在思考步數的選擇上,研究團隊發現三步法是最優的。這個發現與他們關於圖像語義結構的假設不謀而合:大多數圖像確實可以很好地分解為上層背景、中心內容和下層背景三個部分。過少的步數無法提供足夠細緻的指導,而過多的步數則會帶來不必要的複雜性。
反思機制的效果也得到了驗證。一輪反思能夠有效糾正對齊錯誤,提升多個維度的表現。然而,進行兩輪反思並沒有帶來進一步的提升,這表明零樣本提示在批判和修訂能力方面存在一定限制。
二、監督微調:系統性的技能訓練
雖然零樣本策略顯示了很強的潛力,但研究團隊認為通過系統性的訓練,可以進一步挖掘TWIG框架的潛力。這就像是天賦異稟的學生雖然能夠自學成才,但通過系統性的課程訓練,往往能夠達到更高的水平。
為了實現這個目標,研究團隊將整個邊思考邊生成的過程分解為九個具體的監督任務。這些任務就像是學習繪畫時的基礎練習,每一個都針對整體技能的特定方面。三個思考任務分別對應上層、中心和下層區域的思維生成;三個反思任務負責評估和修訂這三個區域;另外三個生成任務則負責實際的視覺內容創作。
為了支持這種任務分解,研究團隊構建了高質量的TWIG-50K數據集。這個數據集的構建過程就像是編寫一套完整的教學材料,需要考慮到學習的各個方面和難度層次。
在思考任務的數據構建方面,研究團隊從T2I-CompBench的訓練集中選擇了5500個文本提示,然後利用GPT-4o生成逐步的子標題,將圖像分割為三個連貫的部分。這些子標題被串聯起來,輸入GPT-4o-Image來合成與指定分割語義一致的圖像。整個過程就像是請一位經驗豐富的老師來設計學習材料,既要保證內容的準確性,又要確保難度的適宜性。
在反思任務的數據構建方面,研究團隊基於上述樣本構建了三個視覺理解任務,專注於批評和修訂。GPT-4o被要求從五個標準(與零樣本設置相同)對每個區域進行評估,並提供修訂後的子標題來解決批評中發現的缺陷。如果原始圖像獲得高分,修訂後的思考就簡單地重複原文,這種情況在推理時可能不會觸發重新生成。
為了增強生成能力,研究團隊還構建了大約1.6萬個交錯視覺生成數據。每個訓練實例都將區域生成建立在累積推理思考和先前生成的視覺內容的基礎上。值得注意的是,這仍然是文本到圖像的監督學習,只是增加了視覺預上下文,保持了單一生成軌跡。
實驗結果表明,監督微調確實帶來了進一步的提升。相比零樣本基線,TWIG-SFT在形狀屬性綁定方面提升了10.87個百分點,在空間關係處理方面提升了5.04個百分點。更重要的是,監督微調顯著提高了系統的穩定性,在五次隨機種子測試中的標準偏差明顯降低。
研究團隊還探索了不同數據組合的影響。他們發現,平衡思考和生成任務能夠提供最佳的權衡,從兩個方面都能強化邊思考邊生成的能力。然而,增加反思數據反而會降低結果,思考變得更長,過度修正出現得更頻繁。這表明TWIG-ZS已經展現了模型大部分的反思能力,過度提供反思數據會將能力從學習穩定的思考和生成行為上轉移走。
定性分析顯示,監督微調縮短了冗長的思考,抑制了幻覺現象,提高了相鄰區域間的屬性持久性,並減少了決策閾值附近的虛假反思觸發。這些改進使得系統的行為更加可預測和可靠。
三、強化學習:通過實戰提升技能
雖然監督微調已經取得了不錯的效果,但研究團隊想要進一步突破性能的邊界。他們採用了強化學習方法,就像是讓已經掌握基本技能的學生通過不斷的實戰演練來達到專家水平。
研究團隊採用了GRPO(Group Relative Policy Optimization)算法,並將其定製為適合TWIG框架的TWIG-GRPO策略。這種策略的核心創新在於同時強化所有組件——思考、生成和反思——通過共享獎勵機制進行聯合優化。
這種設計背後的邏輯很直觀:在邊思考邊生成的過程中,每一個步驟都對最終結果有貢獻,因此應該根據最終的圖像質量來共同接受獎勵或懲罰。這就像是一個團隊項目,雖然每個人負責不同的部分,但最終的成功或失敗應該由整個團隊共同承擔。
在獎勵模型設計方面,研究團隊認識到高質量的圖像必須在多個方面都表現良好。因此,他們構建了一個綜合的獎勵系統,包含四個互補的組件:人類偏好評分(HPS v2)用於評估整體美學和風格連貫性;物體定位評分(GroundingDINO)用於加強實體存在和定位;視覺問答一致性評分(GIT)用於抑制指令違規並加強屬性一致性;大型多模態模型對齊評分(微調的ORM)用於改善整體文本-圖像對齊。
實驗結果顯示,強化學習帶來了顯著的性能提升。相比TWIG-SFT,TWIG-RL在顏色屬性綁定方面提升了7.91個百分點,在形狀屬性綁定方面提升了8.86個百分點,在空間關係處理方面提升了7.04個百分點。這些提升幅度相當可觀,說明強化學習確實能夠有效地優化邊思考邊生成的策略。
研究團隊還進行了詳細的消融實驗來驗證設計選擇的合理性。他們比較了僅強化理解相關任務(思考和反思)、僅強化生成相關任務,以及聯合強化所有任務三種策略。結果表明,只有聯合強化策略才能充分發揮強化學習的潛力,突出了這些組件之間的互補性質和相互強化作用。
在獎勵模型集成實驗中,研究團隊從單一的HPS v2開始,逐步加入其他三個獎勵組件。每個組件的加入都帶來了穩定的性能改進,四個組件的集成實現了最佳的整體平衡。HPS v2主要改善全局美學和風格連貫性;GroundingDINO增強實體存在和定位精度;GIT抑制指令違規並加強屬性一致性;微調的ORM改善整體文本-圖像對齊。
四、實驗驗證:全方位的性能評估
為了全面評估TWIG框架的性能,研究團隊在多個基準數據集上進行了廣泛的實驗。這就像是讓學生參加各種不同類型的考試,來全面檢驗他們的學習成果。
在T2I-CompBench基準測試中,TWIG的各個版本都顯示出了相對於基線模型的顯著改進。零樣本版本(TWIG-ZS)已經實現了可觀的提升,監督微調版本(TWIG-SFT)進一步改善了性能,而強化學習版本(TWIG-RL)則達到了最高的性能水平。
更重要的是,研究團隊還在更具挑戰性的T2I-CompBench++數據集上進行了測試。這個數據集包含了更複雜的場景和更嚴格的評估標準,就像是從標準考試升級到了研究生入學考試。在這個更困難的測試中,TWIG-RL不僅保持了優秀的表現,在某些指標上甚至超過了當前最先進的生成模型。
特別值得注意的是,在與當前其他先進生成模型的比較中,TWIG展現出了很強的競爭力。在顏色屬性綁定任務中,TWIG-RL達到了82.49分,超過了FLUX.1的74.07分和T2I-R1的81.30分。在形狀屬性綁定任務中,TWIG-RL的61.28分也顯著優於其他模型。這些結果表明,邊思考邊生成的範式確實能夠在複雜的圖像生成任務中提供實質性的改進。
定性分析進一步揭示了TWIG框架的優勢。通過對生成圖像的視覺檢查,可以清楚地看到TWIG版本在構圖保真度、對象計數和視覺真實感方面都有漸進式改善。基線模型生成的圖像往往在細節處理和對象關係上存在問題,而TWIG模型能夠生成更加準確和真實的圖像。
反思能力的展示也很有說服力。TWIG-RL能夠識別和糾正生成過程中的問題,比如改善空間對齊、陰影連貫性和整體真實感。這種能力就像是一個有經驗的藝術家能夠在創作過程中及時發現和修正問題,而不需要等到作品完成後再進行大幅修改。
五、技術創新:突破傳統生成範式
TWIG框架的技術創新主要體現在幾個關鍵方面。首先是生成調度機制的設計。傳統的圖像生成通常是一次性完成的,而TWIG引入了分階段生成的概念。系統首先根據輸入提示確定一個交錯推理調度,將生成過程分解為多個更小、更可控的子任務。
在靜態調度中,系統採用固定的三步法,將畫布均勻分割為三個區域。這種設計基於大多數圖像可以分解為上層背景、中心內容和下層背景的觀察。雖然研究團隊也探索了自適應調度,但發現當前的模型能力在可靠生成結構良好的自適應調度方面還有限制。
推理內容生成是另一個重要創新。在每個調度的推理點,系統會生成一個文本思考,專門用於指導特定視覺區域的生成。這個思考基於三個要素:輸入提示、先前的思考以及已生成的視覺內容。這種條件化確保了思考能夠整合累積的上下文資訊,並為下一個視覺片段進行適當規劃。
反思機制的設計也很巧妙。在生成每個視覺區域後,系統會進行即時的區域級修訂,結合視覺批評和可選的糾正過程。這種設計相比傳統的全局後修訂方法,既提供了更細粒度的糾正能力,又顯著降低了計算成本。
特別值得注意的是,整個TWIG框架保持了單一生成軌跡的特性。無論是思考的插入還是反思的修正,都不需要啟動新的生成輪次或進行完整的重新生成。這是通過巧妙的token序列操作實現的:思考的插入通過擴展文本預上下文來實現,而反思的修正只需要局部替換相應的區域。
六、實際應用價值:從實驗室到現實世界
TWIG框架的價值不僅體現在實驗室的基準測試中,更重要的是它為實際應用開闢了新的可能性。這種邊思考邊生成的範式特別適合需要高度精確控制和複雜構圖的應用場景。
在廣告設計領域,TWIG能夠幫助設計師更精確地控制圖像的各個元素。設計師可以指定詳細的要求,比如"左上角要有公司logo,中間要有產品圖片,底部要有吸引人的標語",系統會在生成過程中不斷思考如何最好地實現這些要求,並在發現問題時及時調整。
在教育內容創作方面,TWIG可以生成更準確的教學插圖。比如在生成一幅展示生態系統的圖片時,系統會思考各個生物之間的關係,確保食物鏈的準確性和生態平衡的合理性。這種深度思考能夠避免傳統生成模型經常出現的生物學錯誤。
對於創意寫作和故事插圖,TWIG提供了前所未有的創作協助能力。作家可以描述一個複雜的場景,系統會一步步地構建這個場景,在過程中思考角色的位置關係、環境的氛圍營造以及細節的合理性。這種協作創作模式可能會革命性地改變數字內容創作的方式。
在技術文檔和科學插圖領域,TWIG的精確性特別有價值。生成技術圖表或科學示意圖時,準確性至關重要。TWIG的反思機制可以幫助識別和糾正技術錯誤,確保生成的圖像在科學上的準確性。
更廣泛地說,TWIG框架代表了人機協作的新模式。它不是簡單地根據人類指令生成內容,而是在生成過程中展現出類似人類的思考過程,這使得人類用戶能夠更好地理解和指導AI的創作過程。
七、局限性與未來發展方向
儘管TWIG框架取得了顯著的成果,但研究團隊也坦誠地指出了當前版本的局限性,並為未來的發展指明了方向。
當前最主要的限制在於調度機制的固定性。由於現有模型能力的限制,TWIG目前採用的是固定三步調度,這雖然對大多數圖像都適用,但並不是最優選擇。不同的圖像可能需要不同的分割策略,比如風景圖片可能更適合水平分割,而人物肖像可能更適合垂直分割。未來隨著模型能力的提升,學習完全自適應的調度策略將是一個重要的發展方向。
另一個限制是反思能力的深度。雖然當前的反思機制已經能夠識別和糾正一些基本問題,但對於更複雜的藝術或美學判斷,系統的能力還有待提升。比如,系統可能能夠識別出顏色搭配的問題,但對於構圖的美感或情感表達的準確性,判斷能力還比較有限。
在技術實現方面,研究團隊指出當前使用的GRPO算法雖然已經很有效,但可能可以通過更新的強化學習變體來進一步提升。強化學習是一個快速發展的領域,新的算法和技術不斷湧現,TWIG框架可以從這些新發展中受益。
最令人興奮的未來發展方向是將TWIG擴展到其他模態。當前的研究專注於文本到圖像的生成,但這個框架的核心思想——邊思考邊生成——完全可以應用到影片生成、3D模型生成,甚至是圖像到圖像的轉換任務中。研究團隊已經在論文中提到了這些可能性,相信未來的研究會在這些方向上取得突破。
跨模態的擴展特別有前景。比如在影片生成中,系統可以在生成每一幀時思考動作的連貫性和故事情節的發展;在3D模型生成中,系統可以思考物體的物理合理性和空間關係。這種思維模式的泛化可能會為整個生成AI領域帶來革命性的變化。
此外,隨著大型語言模型能力的不斷提升,TWIG框架的思考質量也會相應提高。更強的推理能力意味著更精確的生成指導和更準確的反思判斷,這將進一步提升整個系統的性能。
說到底,TWIG框架最重要的貢獻不僅僅是性能上的提升,更是為AI生成領域提供了一個全新的思維範式。它證明了讓AI像人類一樣邊思考邊創作不僅是可能的,而且是有效的。這種範式的確立為未來更智能、更可控的AI生成系統奠定了基礎。
研究團隊的這項工作展現了科研的嚴謹性和創新性的完美結合。他們不滿足於簡單地改進現有技術,而是從根本上重新思考了AI應該如何進行創作。這種突破性的思維方式,可能會啟發更多研究者在各自的領域中尋求類似的範式轉換。
對於普通用戶而言,TWIG代表的是AI工具變得更加智能和易用的未來。我們可以期待,未來的AI助手不僅能夠理解我們的指令,還能在執行過程中進行思考和調整,就像一個真正的創作夥伴一樣與我們協作。這種人機協作的新模式,有可能會深刻改變我們與AI交互的方式,讓AI從簡單的工具升級為真正的創作夥伴。
有興趣深入了解這項研究的技術細節和實驗數據的讀者,可以通過arXiv:2511.16671v1查詢完整的研究論文,其中包含了詳細的實現方法、實驗設置和結果分析。
Q&A
Q1:TWIG框架與傳統AI畫圖工具有什麼不同?
A:傳統AI畫圖工具要麼在開始前制定完整計劃,要麼畫完後再修改。TWIG框架讓AI能夠在畫圖過程中實時思考和調整,就像人類畫家會邊畫邊想"這裡該用什麼顏色"、"構圖需要調整"等。這種邊思考邊生成的方式讓AI生成的圖像更準確、更符合複雜要求。
Q2:TWIG框架的三步生成法是如何工作的?
A:TWIG將圖像生成分為三個步驟:上層背景、中心內容、下層背景。在生成每個部分時,AI會先思考"現在該畫什麼、怎麼與前面的內容協調",然後生成相應區域,最後反思"這部分畫得怎麼樣、需要修改嗎"。這個過程就像畫家分層次完成作品,每一層都經過深思熟慮。
Q3:普通人什麼時候能用到TWIG技術?
A:目前TWIG還處於研究階段,需要進一步開發才能普及。不過這項技術的核心思想——讓AI在創作過程中思考——很可能會被整合到未來的圖像生成工具中。預計幾年內我們就能在專業設計軟體或AI繪畫App中看到類似功能,讓普通用戶也能體驗到更智能的AI創作助手。






