這項由英偉達研究院與以色列特拉維夫大學聯合完成的研究,以預印本形式於2026年6月發表,論文編號為arXiv:2606.03911。
---
每個人大概都有過這樣的念頭:如果能把一張普通照片變成梵谷風格的油畫,或者把一段實拍影片轉成卡通動畫,該多有意思。現在,有很多AI工具確實能做到這些。但很少有人知道,這些工具在訓練的時候,需要餵給它海量的"對照圖"——也就是同一張照片,既有原版,又有處理後的版本,一對一地告訴AI:"瞧,這個變成那個,你要學會這種變換。"
收集這類對照圖是件極其繁瑣的工程。拍一張真實的臥室照片很容易,但要找到同一間臥室在"水彩畫風格"下的樣子,就難多了。拍一段真實的河流影片很容易,但要找到"同一條河流,但流速變得像蜂蜜一樣黏稠"的對應影片,幾乎是不可能完成的任務。隨著AI編輯從圖片向影片延伸,所需的數據量呈指數級增長,而可用的訓練素材卻愈發稀缺。
來自英偉達研究院和特拉維夫大學的研究團隊,思考了一個很有意思的問題:AI既然已經對世界有了深刻的理解,為什麼還非得靠人類準備的對照圖來學習?能不能讓它從自己的知識里"自學"編輯?
這個想法孕育出了一個名叫**Bootstrap Your Generator**(簡稱ByG,意為"自舉生成器")的方法。它完全拋棄了對照圖,讓AI在沒有任何"標準答案"的情況下,僅靠自身已有的知識,學會如何按照指令修改圖片和影片。最終結果出人意料——在與用了數百萬對照圖訓練的競爭對手的對比中,ByG在用戶偏好上贏得了超過75%的票數。
---
一、"沒有食譜,如何學做菜"——問題的根源
好廚師學做菜,通常需要一本食譜:原材料是什麼,步驟是什麼,成品應該是什麼樣。現在主流的AI圖像/影片編輯模型,訓練方式與此高度相似。它們需要的"食譜",就是一張張配對的圖片:左邊是原圖,右邊是編輯後的圖,外加一句說明(比如"把背景換成沙漠")。通過大量這樣的對子,AI漸漸學會了各種變換的"規律"。
這套方法本身沒有問題,但規模化時代價極高。研究團隊指出,業內領先的一些影片編輯模型,訓練時使用了多達**一百萬對**影片素材。而且大量素材是通過"合成"方式生成的——即先用其他AI工具自動生成編輯版本,再拿來訓練新模型。這條路存在明顯缺陷:自動合成的對照圖,質量參差不齊,容易把原始素材的各類瑕疵也"學進去",還很難覆蓋到那些罕見的編輯需求。
更深層的問題是,某些編輯類型根本不存在真實的對照圖。把卡通人物變成真實照片風格,或者把一條普通的小河變成"流淌著熔岩"的效果——沒有攝影師會在現實中拍攝這樣的對照場景。這類"長尾編輯"(也就是那些不常見但極具創意的變換),是現有監督訓練方法的死角。
正是在這樣的背景下,研究團隊轉向了另一條路:既然AI模型在大規模預訓練之後,已經對幾乎所有視覺概念有了深刻理解,那麼這種內在知識本身,能不能成為訓練信號?
---
二、"自己考自己"——ByG的核心思路
以一個烹飪學校的場景來理解整個框架。普通的學校會給學生一道"參考菜",讓他們對照練習。ByG則不同,它更像一位有多年經驗的廚師在自我反思:他知道"把番茄炒成深紅色"意味著什麼,不需要有人拿著成品站在面前,因為他的廚藝積累本身就是他的參照物。
ByG的核心觀察非常簡樸:圖像編輯有兩個目標,第一是讓輸出結果符合指令(比如"把風格變成卡通"),第二是保留原圖中所有不該改變的部分(畫面里的人物、構圖、動態等等)。這兩個目標,其實可以用兩種完全不依賴對照圖的方式來實現。
對於第一個目標——遵從指令,研究團隊的思路是:AI模型在預訓練階段已經見過無數"卡通"圖片,它天然知道什麼是卡通風格。與其靠人類準備編輯後的成品,不如直接向這個"已經見多識廣的AI"請教:給定一張要編輯的圖,讓AI告訴我,從原始描述走向目標描述的"方向"是什麼。
對於第二個目標——保留原始內容,研究團隊借鑑了一個已有多年歷史的經典思路:**循環一致性**。簡單來說,就是"一個好的編輯是可逆的"——如果你能把原圖A改成圖B,那麼反過來,用相反的指令從圖B應該能還原出A。如果不能,說明編輯過程中丟失了不該丟失的資訊。
兩個目標,兩種信號,全部來自模型自身,不需要外部標註,不需要額外的對照圖,也不需要引入獨立的評分系統。這就是ByG的靈魂所在。
---
三、"先猜一個答案,再改進"——如何解決"雞生蛋"的困境
這裡有個繞不過去的難題:流程匹配模型(flow matching,研究採用的核心生成框架)在訓練時,需要把"目標圖"加上噪聲後輸入模型,讓它學會去噪。沒有目標圖,根本不知道該加噪處理哪張圖,整個訓練就無從開始。
用做菜來打比方:你想練習"把生蛋糕改成熟蛋糕",但問題是你沒有一個"半成品蛋糕"作為訓練用的輸入素材。
ByG用了一個"自舉"策略來打破僵局。具體來說,研究團隊維護了一個模型的"影子版本"(EMA版本,即對當前模型權重做指數移動平均的副本,可以理解為當前模型的"穩定版快照")。在每一個訓練步驟里,先讓這個"影子版本"運行幾步去噪,生成一張"偽目標圖"的噪聲中間態,然後把這個噪聲狀態作為當前正式訓練版本的輸入素材。
整個過程就像一個接力遊戲:影子版本先猜出一個大致的"編輯結果",正式版本基於此繼續學習,隨著正式版本越來越好,影子版本的快照也跟著慢慢更新,提供越來越高質量的輸入素材。這個正向循環,讓模型在沒有任何真實目標圖的情況下,逐漸形成了穩定的訓練節奏。
---
四、"只學變化的部分"——如何從預訓練模型里提取指令信號
即便解決了輸入問題,還有另一個關卡:如何告訴模型"這個方向對了"?
研究團隊的做法是向預訓練的文本生成圖像模型(T2I模型)提問。以一個具體例子說明:源圖的描述是"三隻鸚鵡站在樹蔭下",編輯指令是"把背景改成森林",目標描述就是"三隻鸚鵡在森林裡"。
預訓練T2I模型對"三隻鸚鵡在森林裡"有非常清晰的理解,它能預測如何朝"森林版本"的方向去噪。同樣,它對"三隻鸚鵡在樹蔭下"也有清晰認知。研究團隊用了一個關鍵技巧:不是直接讓編輯模型去模仿T2I模型對目標描述的反應,而是讓編輯模型的輸出方向與**兩者之差**對齊——也就是"目標描述的去噪方向"減去"源描述的去噪方向"。
這個差值,恰恰代表了"這次編輯指令需要改變什麼"——只有在目標和源頭描述存在分歧的地方,才會有信號壓力。那些兩者共同的內容(比如鸚鵡本身)自然不會受到干擾,需要改變的內容(比如背景)則會接受到明確的"朝這個方向走"的指引。
這種定向訓練信號,用論文中的術語叫做**方向損失**(directional loss),通過餘弦相似度來衡量編輯方向與預期方向的吻合程度。為了防止模型的"速度"失控(只管方向而忽視了幅度),研究團隊還加入了一個均方誤差約束,讓模型的預測在方向正確的同時,幅度也合理地貼近目標。
---
五、"用成品驗收,用草稿學習"——梯度路由的精妙設計
循環一致性聽起來很自然,但在技術實現上有一個讓人頭疼的難題。
流程匹配模型在訓練時,對圖片的處理是在"噪聲狀態"下進行的。可以把這個過程理解成:攝影師學修圖,但訓練時只能看到模糊的草稿,不能看到清晰的成品。然而,循環一致性檢驗("從B能不能還原回A")需要的是一張清晰的"編輯結果",用模糊草稿來做這個檢驗,效果會非常差——就像用一張看不清細節的草圖來檢驗建築設計是否合格。
更麻煩的是,如果訓練時把模糊草圖當成"輸入條件",那模型在實際使用時(輸入的是清晰圖片)會出現"訓練時見過草圖,推理時見到真圖"的脫節——模型很可能因此學會忽視輸入圖片的細節資訊。
ByG提出的解決方案是一種稱為**梯度路由**的技巧,本質上借鑑了機器學習領域的"直通估計器"(Straight-Through Estimation)的思想,但將其適配到了圖像去噪的場景。
具體操作是這樣的:在循環一致性的驗證步驟,給模型看的是高質量的"多步去噪成品"(由影子版本完整運行得到),保證模型能看到清晰的細節,不會造成訓練推理不一致。但在反向傳播(也就是梯度學習)的時候,梯度流過的是單步預測的"模糊草稿",而不是那張清晰成品。
用一個直觀的比喻:老師評分時給學生看的是精心排版的最終答案卷(確保閱讀體驗),但評分時依據的是學生寫下的演算草稿(真實反映了學習過程中的錯誤和進步空間)。這樣一來,模型在"看到什麼"和"從什麼中學習"之間實現了解耦,訓練穩定性與學習質量同時得到保證。
除此之外,研究團隊還設計了一個"恆等損失":用同一張圖片既做輸入又做條件,搭配一個"什麼都不需要變"的反向指令,強制要求模型能精確還原輸入。這讓模型學會了真正"忠實地"讀取並傳遞條件圖的內容,為循環一致性檢驗打好基礎。
---
六、從圖片到影片——框架的自然延伸
把ByG從圖片擴展到影片,研究團隊的思路是"理念不變,介質換一換"。他們使用了名為Wan2.2的文本生成影片模型作為基礎,通過在其輸入通道里拼接原影片的乾淨幀,讓模型能在去噪目標影片的同時"參照"原始影片。
訓練數據的構建同樣遵循"不依賴對照影片"的原則:用Wan2.2本身生成一批卡通風格影片和照片寫實風格影片,各約160-165段,對這些影片分配說明文字,形成完全由AI自生成的非配對訓練集。
值得一提的是,為了讓影片模型在高噪聲階段也能接受到足夠的訓練信號,研究團隊對時間步採樣做了特殊處理,偏向於抽取噪聲比例更高的時間點進行訓練——因為影片的時序結構要比圖片複雜得多,在高噪聲階段建立正確的全局結構理解,對影片編輯尤為關鍵。
---
七、實驗結果:無需對照圖,贏過了用百萬數據訓練的對手
對於影片編輯,研究團隊構建了一個包含119個任務的評測集,涵蓋卡通轉寫實、寫實轉卡通以及3D-CGI風格轉換,並與Ditto(一款由一百萬影片對照數據訓練的監督模型)進行了用戶偏好對比。
8位參與者共完成238次兩兩比較選擇,結果顯示:ByG在"卡通轉寫實"方向上贏得了80.5%的偏好(誤差範圍±2.9%),在"寫實轉卡通"方向上贏得了70%(誤差範圍±5.4%),綜合勝率達到**75.3%**。統計檢驗確認這一差異極不可能是偶然:二項式檢驗得出的p值低於3×10???,8位參與者中每一位單獨統計都更偏好ByG的結果。
更引人注目的一組數據來自3D-CGI類型影片——這類影片完全不在ByG的訓練分布內(訓練時只見過卡通和寫實兩種風格),但ByG在這個分布外類別上依然贏得了85%的用戶偏好。這說明ByG不是單純"背下了訓練數據",而是真正學到了某種可遷移的編輯能力。
在量化指標上,ByG在編輯成功率(CLIP方向相似度)和源內容保留度(DINO特徵相似度)以及運動一致性上,均優於Ditto。在畫面美學質量和時間連貫性上,兩者相當。
對於圖片編輯,研究團隊在六種"長尾風格"(GTA V遊戲風、Minecraft像素風、美式漫畫風、低多邊形3D風、體素風、樂高積木風)上進行了測試,這六種風格同樣完全不在訓練數據里。在"風格轉寫實"和"寫實轉風格"兩個方向上,ByG在語義一致性(也就是"有沒有按指令改")和綜合得分上,都超過了FLUX-Kontext和Qwen-Image-Edit這兩個用百萬級對照圖數據訓練的強監督模型,以及FlowEdit這個零樣本基線。
在通用圖像編輯基準GEdit-Bench上,ByG與FLUX-Kontext總體相當,在運動變化、人物相關編輯和風格變換等類別上有明顯優勢,在物體刪除和文字修改類別上相對弱一些。
---
八、哪個部件缺了,效果就變差——消融實驗的發現
研究團隊對每個關鍵組件逐一"拆掉"來檢驗其作用,結果清楚地展示了各部分的貢獻。
去掉循環一致性損失時,編輯成功率略微上升,但源內容保留能力明顯下降——模型開始"隨心所欲"地改圖,不再在意保留原始細節。去掉梯度路由時,同樣的現象出現了,原因在於訓練時模型看到的是模糊草稿作為條件,逐漸學會"不依賴"條件圖,導致推理階段忽視輸入內容。去掉方向損失(只保留均方誤差部分)時,模型傾向於把圖片拉向目標描述的整體生成分布,而不管源圖的具體結構,結果保留度同樣下降。
自舉機制(bootstrapping)是最關鍵的組件。如果沒有它,訓練時只能把帶噪聲的原圖作為輸入,而不是帶噪聲的"預期編輯結果"——這種分布錯位讓訓練極不穩定,編輯成功率從8.317分跌至5.517分,源內容保留從7.617分跌至7.050分。
最極端的情況來自"去掉方向約束(正則化損失)":模型直接塌縮成了一個"什麼都不變"的恆等映射——源內容保留達到了驚人的9.767分,但編輯成功率只剩0.633分,也就是說它學會了"不動如山",把所有編輯指令都當耳旁風。這一發現說明,如果沒有來自預訓練模型的指令信號,循環一致性約束會讓模型選擇最省力的解——原樣輸出。
---
九、誠實面對局限——哪些地方還做不好
研究團隊坦誠地指出了ByG當前的兩個主要不足。
第一,ByG歸根結底依賴預訓練基礎模型的知識邊界。如果基礎模型從沒有見過某個視覺領域(比如某種極為罕見的藝術風格,或者基礎模型沒有涵蓋到的行業專用圖像類型),那ByG同樣無法可靠地編輯向那個領域——巧婦難為無米之炊,模型自身不理解的東西,也無法指導編輯。
第二,對於"刪除物體"類型的編輯,ByG的表現明顯弱於基於對照圖的監督方法。原因藏在訓練信號的結構里:當目標是"把貓從沙發照片裡刪掉"時,目標描述是"一張沙發",這個描述既沒有明確說"貓消失了",也沒有描述"貓原來在的地方應該是什麼"。T2I模型無法從這個描述中推斷出"貓被移除"這個明確的操作,只是這張圖里"碰巧"沒有貓而已。這種模糊信號,遠不如對照圖直接告訴模型"貓在A圖里有,在B圖里沒有"來得清晰。
---
說到底,ByG這個工作探索了一條頗具啟發性的路:那些通過大規模預訓練積累的視覺知識,足以被用來"自舉"出一套編輯能力,不再需要人類費盡心力去收集配對的訓練素材。尤其是對於影片編輯這個"對照數據近乎不可能收集"的領域,這一思路的意義更為明顯。
值得關注的是,這個框架並沒有綁定在某一種特定的基礎模型或某一類編輯任務上,文中將其描述為一個通用框架——只要能把一個預訓練的文本生成模型改造成支持"源圖條件輸入"的格式,ByG的整套損失體系就可以搬過去用。從圖片到影片的擴展就是一個很好的證明。
當然,ByG本身也還留下了一些開放問題,比如能否把這套框架用於3D、4D場景的編輯,能否通過某種方式彌補物體刪除任務上的不足,以及隨著基礎模型自身能力的提升,ByG所能實現的編輯範圍是否也會自然擴大。這些方向,或許會是後續研究的自然延續。
有興趣深入了解完整技術細節的讀者,可以通過arXiv論文編號2606.03911查閱原文,所有的訓練算法偽代碼和超參數配置在原文附錄中均有詳細披露。
---
Q&A
Q1:ByG方法訓練圖像/影片編輯模型需要哪些數據?
A:ByG不需要配對的"源圖+編輯後圖"對照數據。訓練只需要帶有描述性說明的普通圖片或影片,外加由語言模型自動生成的編輯指令和目標描述文字。整個訓練素材可以完全用AI自動化工具批量生成,無需人工標註配對樣本。
Q2:ByG影片編輯和Ditto監督模型相比,勝出的核心原因是什麼?
A:Ditto用一百萬對影片數據做監督訓練,所見的風格類型和場景受訓練集限制。ByG依賴基礎模型自身積累的視覺知識,這些知識覆蓋面更廣,泛化能力更強。尤其在訓練中沒有出現過的3D-CGI類型影片上,ByG依然贏得了85%的用戶偏好,這直接說明其泛化能力優於監督訓練方式。
Q3:梯度路由解決了訓練和推理之間的什麼問題?
A:流程匹配模型在訓練時循環一致性檢驗需要用編輯結果圖作為條件,但單步預測的編輯結果圖質量很差(模糊、缺少細節),如果直接用來訓練會導致模型學會忽視條件輸入。梯度路由讓模型看到的是清晰的多步去噪成品(保證推理一致性),但梯度學習流過的是真實的單步預測草稿(保證訓練信號準確),兩者解耦後同時解決了訓練質量和訓練推理對齊兩個問題。






