香港理工大學讓AI圖片編輯真正「聽懂」你的意思：文字和手勢一起用才是對的

這項由香港理工大學視覺計算實驗室與OPPO研究院聯合完成的研究，以預印本形式發布於2026年6月，論文編號為arXiv:2606.16767。感興趣的讀者可以通過這個編號在arXiv平台上找到完整的論文內容。

贊助商廣告

**你有沒有遇到過這樣的尷尬時刻？**

你打開一個AI圖片編輯軟體，想讓它把照片裡貓咪的頭稍微向左轉一點點，於是輸入"讓貓咪的頭略微向左轉"。結果AI理解成了"大幅度扭轉貓頭"，把照片改得面目全非。你又試了另一個工具，這次可以用滑鼠"拖拽"貓咪的鼻尖來指定方向，結果貓臉的皮膚被奇怪地拉伸變形，完全不像轉頭，更像是被捏著臉揉了一把。

這兩種體驗——一種靠文字，一種靠手勢——都讓你抓狂，因為它們各自只懂半邊話。這正是香港理工大學的研究團隊所要解決的核心問題：如何讓AI同時"聽懂"你說的話，又"看懂"你比劃的動作？

**一、兩種工具各有殘缺，單打獨鬥都不夠用**

要真正理解這個問題的價值，先要搞清楚現有AI圖片編輯工具到底卡在哪裡。

目前主流的AI圖片編輯方式大致分為兩條路。第一條路是"用文字指揮"，你打一段話，AI就按照文字來修改圖片。這類方法的代表包括FLUX.1 Kontext和Qwen-Image-Edit等業界領先的大型模型，它們在改變顏色、材質、物體類別等方面表現出色。但文字這種工具有一個天然的缺陷：它描述不了"多少"和"在哪裡"。"稍微"是多少？"向左一點"是幾厘米？文字本質上是模糊的，AI對"稍微"的理解可能和你差了十萬八千里。

第二條路是"用手勢指揮"，也叫"拖拽編輯"。你在圖片上標記一個起點和一個終點，告訴AI"把這個點從這裡移到那裡"。這類方法的代表有GoodDrag、DragDiffusion等，它們在精確控制空間位置方面有優勢，知道該動哪裡、動多少。然而，純手勢操作有另一個致命弱點：它不懂語義，只知道幾何。當你在鱷魚圖片的上頜處畫一個向上的箭頭，你的意圖是"張嘴"，但AI看到的只是"這個點要向上移動"，於是它把上頜的皮膚和骨骼朝上拉扯變形，而不是做出張嘴這個自然動作。

贊助商廣告

文字懂意圖，不懂位置。手勢懂位置，不懂意圖。這就好比你在指揮一位廚師，一種方式只告訴他"做一道有點辣的菜"，他不知道加多少辣椒；另一種方式只給他看"加兩勺辣椒"的動作示範，他卻不知道這是要做紅燒肉還是麻婆豆腐。最好的辦法顯然是兩者結合：一邊說"做一道微辣的麻婆豆腐"，一邊演示"加這麼多辣椒"。

正是基於這個洞察，研究團隊提出了他們稱之為"文本-視覺協同指令圖像編輯"的新任務，簡稱TV-Edit。

**二、搭建一個能同時理解兩種語言的翻譯器**

明確了問題之後，研究團隊面臨的第一個挑戰是：沒有合適的訓練數據。

現有的圖片編輯數據集要麼只有文字標註，要麼只有手勢軌跡，沒有一套既包含文字說明、又包含精確空間軌跡的完整數據。研究團隊的解決方案是：去影片裡找答案。

影片天然是一種"時間軸上的圖片序列"，相鄰兩幀之間的物體運動就是現成的空間軌跡，而這段運動可以被描述成自然語言指令。研究團隊從公開的影片數據集中收集素材，把每段影片切分成起始幀和結束幀的配對，然後通過一套三步流程來製作訓練數據。

第一步處理空間資訊。他們使用了兩個專門的工具：SEA-RAFT負責計算光流，也就是圖片中每個像素從第一幀到第二幀移動了多少；Co-Tracker-V3負責追蹤密集的網格點，記錄每個點的具體軌跡。然後，他們根據運動幅度的大小來篩選哪些點值得保留——動得多的地方更重要，但小幅運動也不能丟。最終保留下來的是一組稀疏的"起點-終點"坐標對，精確記錄了哪些位置移動到了哪裡。

第二步生成文字描述。直接把兩張圖片扔給AI語言模型，讓它描述"發生了什麼"，這種方式往往會產生誤差，因為模型容易被無關資訊干擾。研究團隊採用了一個更聰明的做法：先把第一步找到的特徵點用不同顏色標註在圖片上，然後告訴語言模型"只關注這些標註點的運動，描述它們從一張圖到另一張圖發生了什麼"。這種"視覺提示"策略讓語言模型的注意力集中在真正重要的運動上，生成的文字描述更加準確。

贊助商廣告

第三步做質量過濾。原始影片中有很多不適合用於圖片編輯訓練的素材：鏡頭抖動的影片、背景整體移動的鏡頭、模糊或質量差的幀。研究團隊設計了一套過濾規則，通過檢測邊界區域的光流來排除"攝像機在移動"的情況，確保只保留"圖中物體在移動而背景靜止"的素材。此外，他們還設計了一個"生成-驗證"的閉環來檢查文字描述的質量，讓AI自己檢驗自己生成的描述是否與圖片內容匹配。

經過這三步處理，研究團隊最終積累了23,000組高質量的訓練樣本，稱之為TV-Edit-23K數據集。每組樣本包含起始圖片、結束圖片、空間軌跡坐標和文字描述，而且每組數據還可以"正反兩用"——從起始圖到結束圖是一個訓練樣本，從結束圖回到起始圖是另一個樣本，這樣實際可用的訓練對數量翻了一倍。

**三、一個能接駁現有系統的"空間理解模組"**

有了數據，接下來需要設計模型架構。研究團隊面臨一個重要的工程選擇：是從頭訓練一個全新的AI，還是在現有的強大AI基礎上添加新能力？

他們選擇了後者，理由很實際：現有的大型圖片編輯模型（如Qwen-Image-Edit和FLUX.1 Kontext）已經花費了大量資源訓練出了很強的語義理解能力，要讓它們具備空間控制能力，最高效的方式是添加一個專門負責空間理解的"插件"，而不是推翻重來。

這個"插件"被稱為"內容感知空間控制器"，它的工作原理可以用一個比喻來理解：原有的大型AI模型就像一位經驗豐富的室內設計師，他非常擅長判斷風格和美感，但不太擅長精確測量"沙發要左移多少厘米"。新加入的控制器就像一位精確的測量助手，他不僅能告訴設計師"沙發要從這裡移到那裡"，還能結合房間的整體布局來解讀這個移動指令——同樣是"左移"，在不同的房間格局下可能意味著完全不同的操作細節。

從技術實現上來看，這個控制器的工作分為幾個層次。首先，系統把用戶指定的"起點-終點"坐標對轉化成兩張特殊的"地圖"：一張標註了每個控制點在起始圖中的位置，另一張標註了這些點在目標位置的坐標。每個點的值被設置為它的編號，這樣即使處理多個點，系統也能知道哪個起點對應哪個終點。接著，這兩張位置地圖經過一個輕量的編碼器處理，變成與圖片尺寸匹配的特徵表示。這些特徵隨後分別與起始圖的圖像特徵和噪聲特徵拼接在一起，讓空間坐標資訊"嵌入"到圖像內容的語境中。

贊助商廣告

經過這一步處理，控制器理解的就不再是抽象的"某個點要從(104, 492)移到(271, 389)"，而是"貓鼻子這個位置要移到那個位置"——同樣的坐標，現在有了具體的物體語義支撐。

然後，這些"帶有物體語義的空間資訊"被送入控制器的核心——一組輕量化的Transformer模組（這是一種擅長處理序列關係的神經網路結構）。為了不讓控制器太笨重（直接複製整個大模型會讓參數量爆炸），研究團隊做了兩個瘦身操作：把控制器內部的特徵維度縮減一半（參數量因此減少約75%），並且只使用5層Transformer塊，而不是原始大模型的60層。

然而，精簡之後可能導致控制器的表達能力不足，"聲音太小"讓大模型聽不清楚。為了解決這個問題，研究團隊引入了一個"時間調製注入層"——這是整個設計中相當精妙的一個細節。在AI生成圖片的過程中，早期步驟負責確定整體結構和布局，後期步驟負責填充細節和紋理。時間調製注入層會根據當前處於哪個生成步驟，動態調整控制器對大模型施加的影響強度。在早期結構性步驟中放大空間控制信號，在後期細節步驟中適當收斂，讓整體結構和局部細節的平衡更好。

這個控制器最終會生成一系列"殘差控制特徵"，以類似ControlNet的方式注入到大模型的各層中，持續引導整個生成過程。整套機制的一個重要特點是"即插即用"——只需要針對不同的大型基礎模型做少量適配，同一套控制器架構就可以分別與Qwen-Image-Edit和FLUX.1 Kontext配合使用。

**四、訓練時的一個小技巧：讓AI先學大局，再精雕細節**

模型架構確定之後，訓練策略也有獨到之處。

AI生成圖片的過程可以理解為"從噪聲中雕刻圖像"：一開始圖片全是噪點，經過多個步驟逐漸清晰。在早期步驟（噪聲多）中，AI確定畫面的整體結構和空間布局；在後期步驟（噪聲少）中，AI打磨毛髮、紋理等細節。對於TV-Edit這樣以空間控制為核心目標的任務，早期步驟顯然更關鍵——如果物體的位置一開始就沒移到正確地方，後期再怎麼精修細節也無濟於事。

贊助商廣告

研究團隊因此選擇了一個偏向早期步驟的訓練目標（技術上稱為"Z0預測目標"），它的數學效果等同於給不同時間步驟的損失乘以不同的權重係數——時間步驟值越大（噪聲越多、越早期），權重越大，懲罰越重。這意味著模型在訓練時被強制要求在最嘈雜的早期階段就做對空間布局，而不是把希望寄托在後期細節修正上。

在此基礎上，研究團隊還顯式地調整了訓練時隨機採樣時間步驟的分布。他們使用一種叫做Beta分布的概率分布，初始時將採樣重心放在大時間步驟（高噪聲區間），隨著訓練推進逐漸鬆開這個偏置。通過系統的實驗，他們發現Beta(5,2)這個參數配置效果最佳：它將訓練注意力主要集中在高噪聲階段，同時保留了對低噪聲階段的適度覆蓋，兩者缺一不可。

**五、一把公平的尺子：專門為這個新任務設計的評測標準**

TV-Edit是一個全新的任務，而新任務需要新的評測方法。

研究團隊發現，現有的評測體系無法全面衡量"文字加手勢協同編輯"的質量。專門評測拖拽編輯的DragBench只關注幾何精度，不評估語義是否正確；專門評測文字編輯的基準測試只看語義，不看空間。於是他們構建了TV-Edit-Bench，一個包含120個精心篩選樣本的全新評測集。

這120個樣本來自三個不同的來源，各自擔負不同的測試使命。第一部分來自真實影片的幀對，捕捉自然世界中真實發生的運動模式。第二部分來自圖片轉影片模型（Wan2.2）生成的素材，專門用於測試一個叫"運動幅度控制"的能力：同一個動作，只改變幅度，看AI能不能精確跟隨。比如同樣是"讓狗狗的頭向左轉"，一個樣本轉15度，另一個轉45度，文字指令相同但手勢軌跡長短不同，AI能否準確區分？第三部分來自NanoBanana Pro等先進編輯模型生成的圖片對，專門用於測試"語義消歧"能力：同樣的手勢軌跡，配上不同的文字（比如"抬頭"和"張嘴"），AI能否根據文字選擇正確的語義動作？

贊助商廣告

評測指標也被設計成三個維度，缺一不可。圖像保真度方面，使用LPIPS指標衡量編輯結果與參考目標圖片的像素級相似度，同時引入基於DINOv3模型的全局相似度和局部相似度兩個指標，後者更能抵抗輕微的像素錯位干擾，給出更公平的評價。幾何精度方面，在編輯結果中找到與目標點對應的位置，計算實際落點與理想落點之間的距離，分別報告稀疏匹配距離和密集匹配距離，距離越小表示空間控制越精準。語義忠實度方面，用Qwen-3-VL這樣的大型多模態語言模型作為評估者，給出兩項評分：一項是"概念保留分"，評估圖片中未被編輯的區域是否保持了原樣；另一項是"指令遵循分"，評估編輯結果是否忠實執行了文字指令的語義意圖。

**六、實驗結果：兩類方法的短板一目了然，TV-Edit雙雙突破**

研究團隊拿TV-Edit與一批代表性方法進行了正面比較，包括GoodDrag、DragDiffusion、LightningDrag等拖拽類方法，以及FLUX-Kontext、Qwen-Image-Edit、NanoBanana Pro等文字指令類方法。

實驗結果非常清晰地呈現出兩類方法各自的致命缺陷。拖拽類方法在幾何精度上表現出色，以GoodDrag為代表，其密集匹配距離達到0.0648，空間控制相當準確。然而，它的指令遵循分只有0.75——意味著AI知道"把某個點移到哪裡"，卻經常搞錯"這個移動對應什麼自然動作"。文字指令類方法恰好相反，NanoBanana Pro的全局一致性達到0.9432，概念保留接近滿分，但其密集匹配距離高達0.1195，遠超拖拽類方法——文字可以說清楚要做什麼，卻無法控制具體移動到哪裡。

TV-Edit打破了這種兩難困境。TV-Edit-Qwen版本在密集匹配距離上達到0.0462，比最好的拖拽類方法還要提升28.7%，空間控制精度反而超越了專門為空間控制設計的拖拽工具。與此同時，它的指令遵循分達到0.93，不僅比基礎模型Qwen-Image-Edit（0.86）顯著提升，甚至超過了谷歌的商業閉源模型NanoBanana Pro（0.89）。這說明視覺軌跡資訊不只是提供了幾何約束，它還幫助AI更準確地理解了文字指令的語義意圖——兩種信號產生了正向的化學反應。

贊助商廣告

在視覺對比上，這種差異更加直觀。當要求AI"讓狐狸微微張開嘴"時，拖拽類方法往往把狐狸的臉拉扯變形；文字類方法通常能做出張嘴動作，但開口幅度往往過大或方向不對；而TV-Edit能準確實現"微微張開"這個既有語義又有幅度約束的複合指令。在移動狗狗位置的案例中，TV-Edit在沒有明確指令的情況下，甚至能理解狗繩應該跟著狗一起移動——這是一種基於場景理解的隱性推斷能力。

研究團隊還額外在傳統的DragBench評測集上測試了TV-Edit，與專門針對拖拽任務設計的方法相比。TV-Edit-Qwen的平均點位偏移誤差達到17.31，遠低於最好的對比方法GoodDrag（24.26）和DragLora（23.77），說明TV-Edit的空間控制能力即便放在純幾何任務的評判標準下，也具備很強的競爭力。

**七、更多可能性：同時改造外觀和位置**

研究團隊還展示了一項讓人印象深刻的擴展能力：TV-Edit可以同時完成空間變換和外觀改造。

在展示的案例中，用戶給一隻柯基犬的圖片指定了"頭部向右轉"的運動軌跡，同時在文字指令中加上"把它變成老虎"。最終的結果是：一隻老虎的頭部按照指定的幅度和方向完成了轉頭動作。類似地，用戶可以一邊控制老虎頭部變大的幅度，一邊讓老虎變成白色；一邊控制北極熊頭部縮小，一邊給北極熊戴上皇冠或太陽鏡。這說明TV-Edit並沒有犧牲大型基礎模型原本強大的語義編輯能力，而是在這個能力基礎上疊加了精細的空間控制層。

**八、自我審視：哪些地方還可以更好**

研究團隊在論文中也坦誠地指出了TV-Edit的兩個局限。

其一是速度。TV-Edit構建在大型基礎編輯模型之上，而這類模型的推理速度本身就比較慢，這使得TV-Edit目前還無法支持實時交互式編輯——用戶拖動一個點之後需要等待一段時間才能看到結果，這對於需要頻繁細調的創作流程來說是個障礙。

其二是三維局限。TV-Edit非常擅長處理二維平面上的運動，比如左右移動、簡單的大小變化、在圖片平面內的旋轉等。但對於需要理解三維空間的操作——比如讓一個正面朝向的人物側轉身體（涉及透視變形）——當前系統的能力還比較有限。這是因為稀疏的二維坐標軌跡本質上無法完整表達三維變換所需的深度資訊。

贊助商廣告

說到底，TV-Edit這項研究做了一件看似簡單、實則精妙的事：它發現了兩種主流AI編輯方式各自的"語言殘缺"，然後設計了一套讓這兩種殘缺語言互相補全的機制。文字告訴AI"你要做什麼"，手勢告訴AI"要做多少、做到哪裡"，兩者合一，AI終於能夠真正"聽懂"複雜的編輯意圖。

對於普通用戶來說，這意味著一種更自然的交互體驗：你不再需要費盡心思措辭，也不再需要擔心拖拽手勢被錯誤解讀——你可以同時用嘴巴說和手比劃，就像和真人助手溝通一樣。對於創作者來說，這開闢了一個新的可能性空間：精確到幅度的形變控制，與創意性的外觀改變，可以在同一次操作中無縫完成。

這項研究的數據、模型和代碼均已承諾開放發布，有興趣深入探索的讀者可以通過arXiv編號2606.16767找到完整論文，跟蹤代碼和數據集的發布進度。

---

Q&A

Q1：TV-Edit和普通的AI圖片編輯有什麼區別？

A：普通AI圖片編輯要麼只能用文字指令，要麼只能用拖拽手勢，兩者各有缺陷：文字說不清楚"移動多少"，手勢看不懂"要做什麼動作"。TV-Edit同時接受文字和手勢兩種輸入，文字提供語義意圖，手勢提供空間約束，兩者協同工作，編輯結果更準確。

Q2：TV-Edit-23K數據集是怎麼來的？

A：研究團隊從公開影片數據集中收集素材，取每段影片的起始幀和結束幀作為圖片對，用光流算法和點追蹤算法提取物體的運動軌跡作為手勢標註，再用多模態語言模型（Qwen-3-VL）生成對應的文字描述，經過嚴格的質量過濾後得到23,000組完整的訓練樣本。

Q3：TV-Edit可以同時修改圖片的外觀和位置嗎？

A：可以。TV-Edit在提供空間軌跡控制的同時，完整保留了基礎大模型的語義編輯能力。用戶可以在文字指令中加入外觀改變要求（比如"變成老虎"或"加上太陽鏡"），同時通過手勢指定空間變換，模型會同時執行兩類操作。