英偉達與特拉維夫大學聯手：不需要任何「對照圖」，AI圖片和影片編輯器是怎樣自學成才的？

這項由英偉達研究院與以色列特拉維夫大學聯合完成的研究，以預印本形式於2026年6月發表，論文編號為arXiv:2606.03911。

贊助商廣告

---

每個人大概都有過這樣的念頭：如果能把一張普通照片變成梵谷風格的油畫，或者把一段實拍影片轉成卡通動畫，該多有意思。現在，有很多AI工具確實能做到這些。但很少有人知道，這些工具在訓練的時候，需要餵給它海量的"對照圖"——也就是同一張照片，既有原版，又有處理後的版本，一對一地告訴AI："瞧，這個變成那個，你要學會這種變換。"

收集這類對照圖是件極其繁瑣的工程。拍一張真實的臥室照片很容易，但要找到同一間臥室在"水彩畫風格"下的樣子，就難多了。拍一段真實的河流影片很容易，但要找到"同一條河流，但流速變得像蜂蜜一樣黏稠"的對應影片，幾乎是不可能完成的任務。隨著AI編輯從圖片向影片延伸，所需的數據量呈指數級增長，而可用的訓練素材卻愈發稀缺。

來自英偉達研究院和特拉維夫大學的研究團隊，思考了一個很有意思的問題：AI既然已經對世界有了深刻的理解，為什麼還非得靠人類準備的對照圖來學習？能不能讓它從自己的知識里"自學"編輯？

這個想法孕育出了一個名叫**Bootstrap Your Generator**（簡稱ByG，意為"自舉生成器"）的方法。它完全拋棄了對照圖，讓AI在沒有任何"標準答案"的情況下，僅靠自身已有的知識，學會如何按照指令修改圖片和影片。最終結果出人意料——在與用了數百萬對照圖訓練的競爭對手的對比中，ByG在用戶偏好上贏得了超過75%的票數。

---

一、"沒有食譜，如何學做菜"——問題的根源

好廚師學做菜，通常需要一本食譜：原材料是什麼，步驟是什麼，成品應該是什麼樣。現在主流的AI圖像/影片編輯模型，訓練方式與此高度相似。它們需要的"食譜"，就是一張張配對的圖片：左邊是原圖，右邊是編輯後的圖，外加一句說明（比如"把背景換成沙漠"）。通過大量這樣的對子，AI漸漸學會了各種變換的"規律"。

贊助商廣告

這套方法本身沒有問題，但規模化時代價極高。研究團隊指出，業內領先的一些影片編輯模型，訓練時使用了多達**一百萬對**影片素材。而且大量素材是通過"合成"方式生成的——即先用其他AI工具自動生成編輯版本，再拿來訓練新模型。這條路存在明顯缺陷：自動合成的對照圖，質量參差不齊，容易把原始素材的各類瑕疵也"學進去"，還很難覆蓋到那些罕見的編輯需求。

更深層的問題是，某些編輯類型根本不存在真實的對照圖。把卡通人物變成真實照片風格，或者把一條普通的小河變成"流淌著熔岩"的效果——沒有攝影師會在現實中拍攝這樣的對照場景。這類"長尾編輯"（也就是那些不常見但極具創意的變換），是現有監督訓練方法的死角。

正是在這樣的背景下，研究團隊轉向了另一條路：既然AI模型在大規模預訓練之後，已經對幾乎所有視覺概念有了深刻理解，那麼這種內在知識本身，能不能成為訓練信號？

---

二、"自己考自己"——ByG的核心思路

以一個烹飪學校的場景來理解整個框架。普通的學校會給學生一道"參考菜"，讓他們對照練習。ByG則不同，它更像一位有多年經驗的廚師在自我反思：他知道"把番茄炒成深紅色"意味著什麼，不需要有人拿著成品站在面前，因為他的廚藝積累本身就是他的參照物。

ByG的核心觀察非常簡樸：圖像編輯有兩個目標，第一是讓輸出結果符合指令（比如"把風格變成卡通"），第二是保留原圖中所有不該改變的部分（畫面里的人物、構圖、動態等等）。這兩個目標，其實可以用兩種完全不依賴對照圖的方式來實現。

對於第一個目標——遵從指令，研究團隊的思路是：AI模型在預訓練階段已經見過無數"卡通"圖片，它天然知道什麼是卡通風格。與其靠人類準備編輯後的成品，不如直接向這個"已經見多識廣的AI"請教：給定一張要編輯的圖，讓AI告訴我，從原始描述走向目標描述的"方向"是什麼。

贊助商廣告

對於第二個目標——保留原始內容，研究團隊借鑑了一個已有多年歷史的經典思路：**循環一致性**。簡單來說，就是"一個好的編輯是可逆的"——如果你能把原圖A改成圖B，那麼反過來，用相反的指令從圖B應該能還原出A。如果不能，說明編輯過程中丟失了不該丟失的資訊。

兩個目標，兩種信號，全部來自模型自身，不需要外部標註，不需要額外的對照圖，也不需要引入獨立的評分系統。這就是ByG的靈魂所在。

---

三、"先猜一個答案，再改進"——如何解決"雞生蛋"的困境

這裡有個繞不過去的難題：流程匹配模型（flow matching，研究採用的核心生成框架）在訓練時，需要把"目標圖"加上噪聲後輸入模型，讓它學會去噪。沒有目標圖，根本不知道該加噪處理哪張圖，整個訓練就無從開始。

用做菜來打比方：你想練習"把生蛋糕改成熟蛋糕"，但問題是你沒有一個"半成品蛋糕"作為訓練用的輸入素材。

ByG用了一個"自舉"策略來打破僵局。具體來說，研究團隊維護了一個模型的"影子版本"（EMA版本，即對當前模型權重做指數移動平均的副本，可以理解為當前模型的"穩定版快照"）。在每一個訓練步驟里，先讓這個"影子版本"運行幾步去噪，生成一張"偽目標圖"的噪聲中間態，然後把這個噪聲狀態作為當前正式訓練版本的輸入素材。

整個過程就像一個接力遊戲：影子版本先猜出一個大致的"編輯結果"，正式版本基於此繼續學習，隨著正式版本越來越好，影子版本的快照也跟著慢慢更新，提供越來越高質量的輸入素材。這個正向循環，讓模型在沒有任何真實目標圖的情況下，逐漸形成了穩定的訓練節奏。

---

四、"只學變化的部分"——如何從預訓練模型里提取指令信號

即便解決了輸入問題，還有另一個關卡：如何告訴模型"這個方向對了"？

研究團隊的做法是向預訓練的文本生成圖像模型（T2I模型）提問。以一個具體例子說明：源圖的描述是"三隻鸚鵡站在樹蔭下"，編輯指令是"把背景改成森林"，目標描述就是"三隻鸚鵡在森林裡"。

贊助商廣告

預訓練T2I模型對"三隻鸚鵡在森林裡"有非常清晰的理解，它能預測如何朝"森林版本"的方向去噪。同樣，它對"三隻鸚鵡在樹蔭下"也有清晰認知。研究團隊用了一個關鍵技巧：不是直接讓編輯模型去模仿T2I模型對目標描述的反應，而是讓編輯模型的輸出方向與**兩者之差**對齊——也就是"目標描述的去噪方向"減去"源描述的去噪方向"。

這個差值，恰恰代表了"這次編輯指令需要改變什麼"——只有在目標和源頭描述存在分歧的地方，才會有信號壓力。那些兩者共同的內容（比如鸚鵡本身）自然不會受到干擾，需要改變的內容（比如背景）則會接受到明確的"朝這個方向走"的指引。

這種定向訓練信號，用論文中的術語叫做**方向損失**（directional loss），通過餘弦相似度來衡量編輯方向與預期方向的吻合程度。為了防止模型的"速度"失控（只管方向而忽視了幅度），研究團隊還加入了一個均方誤差約束，讓模型的預測在方向正確的同時，幅度也合理地貼近目標。

---

五、"用成品驗收，用草稿學習"——梯度路由的精妙設計

循環一致性聽起來很自然，但在技術實現上有一個讓人頭疼的難題。

流程匹配模型在訓練時，對圖片的處理是在"噪聲狀態"下進行的。可以把這個過程理解成：攝影師學修圖，但訓練時只能看到模糊的草稿，不能看到清晰的成品。然而，循環一致性檢驗（"從B能不能還原回A"）需要的是一張清晰的"編輯結果"，用模糊草稿來做這個檢驗，效果會非常差——就像用一張看不清細節的草圖來檢驗建築設計是否合格。

更麻煩的是，如果訓練時把模糊草圖當成"輸入條件"，那模型在實際使用時（輸入的是清晰圖片）會出現"訓練時見過草圖，推理時見到真圖"的脫節——模型很可能因此學會忽視輸入圖片的細節資訊。

ByG提出的解決方案是一種稱為**梯度路由**的技巧，本質上借鑑了機器學習領域的"直通估計器"（Straight-Through Estimation）的思想，但將其適配到了圖像去噪的場景。

贊助商廣告

具體操作是這樣的：在循環一致性的驗證步驟，給模型看的是高質量的"多步去噪成品"（由影子版本完整運行得到），保證模型能看到清晰的細節，不會造成訓練推理不一致。但在反向傳播（也就是梯度學習）的時候，梯度流過的是單步預測的"模糊草稿"，而不是那張清晰成品。

用一個直觀的比喻：老師評分時給學生看的是精心排版的最終答案卷（確保閱讀體驗），但評分時依據的是學生寫下的演算草稿（真實反映了學習過程中的錯誤和進步空間）。這樣一來，模型在"看到什麼"和"從什麼中學習"之間實現了解耦，訓練穩定性與學習質量同時得到保證。

除此之外，研究團隊還設計了一個"恆等損失"：用同一張圖片既做輸入又做條件，搭配一個"什麼都不需要變"的反向指令，強制要求模型能精確還原輸入。這讓模型學會了真正"忠實地"讀取並傳遞條件圖的內容，為循環一致性檢驗打好基礎。

---

六、從圖片到影片——框架的自然延伸

把ByG從圖片擴展到影片，研究團隊的思路是"理念不變，介質換一換"。他們使用了名為Wan2.2的文本生成影片模型作為基礎，通過在其輸入通道里拼接原影片的乾淨幀，讓模型能在去噪目標影片的同時"參照"原始影片。

訓練數據的構建同樣遵循"不依賴對照影片"的原則：用Wan2.2本身生成一批卡通風格影片和照片寫實風格影片，各約160-165段，對這些影片分配說明文字，形成完全由AI自生成的非配對訓練集。

值得一提的是，為了讓影片模型在高噪聲階段也能接受到足夠的訓練信號，研究團隊對時間步採樣做了特殊處理，偏向於抽取噪聲比例更高的時間點進行訓練——因為影片的時序結構要比圖片複雜得多，在高噪聲階段建立正確的全局結構理解，對影片編輯尤為關鍵。

---

七、實驗結果：無需對照圖，贏過了用百萬數據訓練的對手

對於影片編輯，研究團隊構建了一個包含119個任務的評測集，涵蓋卡通轉寫實、寫實轉卡通以及3D-CGI風格轉換，並與Ditto（一款由一百萬影片對照數據訓練的監督模型）進行了用戶偏好對比。

贊助商廣告

8位參與者共完成238次兩兩比較選擇，結果顯示：ByG在"卡通轉寫實"方向上贏得了80.5%的偏好（誤差範圍±2.9%），在"寫實轉卡通"方向上贏得了70%（誤差範圍±5.4%），綜合勝率達到**75.3%**。統計檢驗確認這一差異極不可能是偶然：二項式檢驗得出的p值低於3×10???，8位參與者中每一位單獨統計都更偏好ByG的結果。

更引人注目的一組數據來自3D-CGI類型影片——這類影片完全不在ByG的訓練分布內（訓練時只見過卡通和寫實兩種風格），但ByG在這個分布外類別上依然贏得了85%的用戶偏好。這說明ByG不是單純"背下了訓練數據"，而是真正學到了某種可遷移的編輯能力。

在量化指標上，ByG在編輯成功率（CLIP方向相似度）和源內容保留度（DINO特徵相似度）以及運動一致性上，均優於Ditto。在畫面美學質量和時間連貫性上，兩者相當。

對於圖片編輯，研究團隊在六種"長尾風格"（GTA V遊戲風、Minecraft像素風、美式漫畫風、低多邊形3D風、體素風、樂高積木風）上進行了測試，這六種風格同樣完全不在訓練數據里。在"風格轉寫實"和"寫實轉風格"兩個方向上，ByG在語義一致性（也就是"有沒有按指令改"）和綜合得分上，都超過了FLUX-Kontext和Qwen-Image-Edit這兩個用百萬級對照圖數據訓練的強監督模型，以及FlowEdit這個零樣本基線。

在通用圖像編輯基準GEdit-Bench上，ByG與FLUX-Kontext總體相當，在運動變化、人物相關編輯和風格變換等類別上有明顯優勢，在物體刪除和文字修改類別上相對弱一些。

---

八、哪個部件缺了，效果就變差——消融實驗的發現

研究團隊對每個關鍵組件逐一"拆掉"來檢驗其作用，結果清楚地展示了各部分的貢獻。

去掉循環一致性損失時，編輯成功率略微上升，但源內容保留能力明顯下降——模型開始"隨心所欲"地改圖，不再在意保留原始細節。去掉梯度路由時，同樣的現象出現了，原因在於訓練時模型看到的是模糊草稿作為條件，逐漸學會"不依賴"條件圖，導致推理階段忽視輸入內容。去掉方向損失（只保留均方誤差部分）時，模型傾向於把圖片拉向目標描述的整體生成分布，而不管源圖的具體結構，結果保留度同樣下降。

贊助商廣告

自舉機制（bootstrapping）是最關鍵的組件。如果沒有它，訓練時只能把帶噪聲的原圖作為輸入，而不是帶噪聲的"預期編輯結果"——這種分布錯位讓訓練極不穩定，編輯成功率從8.317分跌至5.517分，源內容保留從7.617分跌至7.050分。

最極端的情況來自"去掉方向約束（正則化損失）"：模型直接塌縮成了一個"什麼都不變"的恆等映射——源內容保留達到了驚人的9.767分，但編輯成功率只剩0.633分，也就是說它學會了"不動如山"，把所有編輯指令都當耳旁風。這一發現說明，如果沒有來自預訓練模型的指令信號，循環一致性約束會讓模型選擇最省力的解——原樣輸出。

---

九、誠實面對局限——哪些地方還做不好

研究團隊坦誠地指出了ByG當前的兩個主要不足。

第一，ByG歸根結底依賴預訓練基礎模型的知識邊界。如果基礎模型從沒有見過某個視覺領域（比如某種極為罕見的藝術風格，或者基礎模型沒有涵蓋到的行業專用圖像類型），那ByG同樣無法可靠地編輯向那個領域——巧婦難為無米之炊，模型自身不理解的東西，也無法指導編輯。

第二，對於"刪除物體"類型的編輯，ByG的表現明顯弱於基於對照圖的監督方法。原因藏在訓練信號的結構里：當目標是"把貓從沙發照片裡刪掉"時，目標描述是"一張沙發"，這個描述既沒有明確說"貓消失了"，也沒有描述"貓原來在的地方應該是什麼"。T2I模型無法從這個描述中推斷出"貓被移除"這個明確的操作，只是這張圖里"碰巧"沒有貓而已。這種模糊信號，遠不如對照圖直接告訴模型"貓在A圖里有，在B圖里沒有"來得清晰。

---

說到底，ByG這個工作探索了一條頗具啟發性的路：那些通過大規模預訓練積累的視覺知識，足以被用來"自舉"出一套編輯能力，不再需要人類費盡心力去收集配對的訓練素材。尤其是對於影片編輯這個"對照數據近乎不可能收集"的領域，這一思路的意義更為明顯。

贊助商廣告

值得關注的是，這個框架並沒有綁定在某一種特定的基礎模型或某一類編輯任務上，文中將其描述為一個通用框架——只要能把一個預訓練的文本生成模型改造成支持"源圖條件輸入"的格式，ByG的整套損失體系就可以搬過去用。從圖片到影片的擴展就是一個很好的證明。

當然，ByG本身也還留下了一些開放問題，比如能否把這套框架用於3D、4D場景的編輯，能否通過某種方式彌補物體刪除任務上的不足，以及隨著基礎模型自身能力的提升，ByG所能實現的編輯範圍是否也會自然擴大。這些方向，或許會是後續研究的自然延續。

有興趣深入了解完整技術細節的讀者，可以通過arXiv論文編號2606.03911查閱原文，所有的訓練算法偽代碼和超參數配置在原文附錄中均有詳細披露。

---

Q&A

Q1：ByG方法訓練圖像/影片編輯模型需要哪些數據？

A：ByG不需要配對的"源圖+編輯後圖"對照數據。訓練只需要帶有描述性說明的普通圖片或影片，外加由語言模型自動生成的編輯指令和目標描述文字。整個訓練素材可以完全用AI自動化工具批量生成，無需人工標註配對樣本。

Q2：ByG影片編輯和Ditto監督模型相比，勝出的核心原因是什麼？

A：Ditto用一百萬對影片數據做監督訓練，所見的風格類型和場景受訓練集限制。ByG依賴基礎模型自身積累的視覺知識，這些知識覆蓋面更廣，泛化能力更強。尤其在訓練中沒有出現過的3D-CGI類型影片上，ByG依然贏得了85%的用戶偏好，這直接說明其泛化能力優於監督訓練方式。

Q3：梯度路由解決了訓練和推理之間的什麼問題？

A：流程匹配模型在訓練時循環一致性檢驗需要用編輯結果圖作為條件，但單步預測的編輯結果圖質量很差（模糊、缺少細節），如果直接用來訓練會導致模型學會忽視條件輸入。梯度路由讓模型看到的是清晰的多步去噪成品（保證推理一致性），但梯度學習流過的是真實的單步預測草稿（保證訓練信號準確），兩者解耦後同時解決了訓練質量和訓練推理對齊兩個問題。

贊助商廣告