這項由香港科技大學、蟻集團等機構聯合開展的研究發表於2024年12月,研究團隊開發了名為WorldCanvas的AI框架。有興趣深入了解的讀者可以通過論文編號arXiv:2512.16924v1查詢完整論文。研究的核心作者包括王翰林、歐陽豪、王秋雨等來自不同知名院校的研究者,陳啟峰教授擔任通訊作者。
在電影製作中,導演需要與演員反覆溝通才能拍出理想的鏡頭。如今,一種全新的AI技術讓這個過程變得像用畫筆作畫一樣簡單。你只需要在螢幕上畫出想要的運動路徑,輸入一段文字描述,再放入一張參考圖片,AI就能自動生成完全符合你創意的影片片段。
這聽起來像科幻電影的情節,但香港科技大學的研究團隊真的做到了。他們開發的WorldCanvas系統就像一個魔法畫布,任何人都能在上面創造出生動的影片世界。更令人驚喜的是,這個系統不僅能讓靜態角色動起來,還能讓它們按照你的想法進行複雜的互動,甚至能處理角色暫時消失又重新出現的情況,始終保持前後一致。
傳統的影片生成AI通常只能根據文字描述產生大概的畫面,就像你告訴畫家"畫一個人在跑步",結果可能千差萬別。而WorldCanvas的創新之處在於,它把控制權完全交給了用戶。就好比你不僅告訴畫家要畫什麼,還能精確指導每一筆的走向,最終得到的作品完全符合你的構思。
這種精確控制是通過三種資訊的巧妙結合實現的。軌跡資訊就像舞台上演員的走位圖,告訴AI角色應該在何時何地做什麼動作。參考圖片則像是角色的身份證照片,確保AI生成的角色外觀始終保持一致。而文字描述則是劇本,說明角色要執行什麼樣的動作和情感表達。這三種資訊相互配合,就像一個完整的電影製作方案。
研究團隊在設計這套系統時遇到的最大挑戰是如何讓AI理解複雜的多角色場景。設想一個場景:兩個小女孩在公園裡玩耍,一個在前面哭泣並用手擦眼淚,另一個從後面走過來蹲下安慰。傳統AI很難準確區分哪個動作對應哪個角色,經常會搞混。
為了解決這個問題,研究團隊開發了一種叫做"空間感知加權交叉注意"的技術。這個名字聽起來很複雜,但原理其實很簡單。就像一個聰明的舞台導演,AI會特別關注每個角色周圍的區域,並將相應的文字描述精確匹配到對應的角色身上。這樣,AI就能準確理解"前面的女孩哭泣"指的是哪個角色,"後面的女孩蹲下"又是指哪個角色。
更有趣的是,這套系統還能處理一些看似不可能的情況。比如一條鯊魚從沙漠的沙子中跳出來,再潛入沙中,然後又跳出來。雖然這在現實中完全不可能發生,但AI能夠理解這種"反常識"的創意,並生成相應的影片效果,甚至還會添加鯊魚跳躍時濺起沙塵的細節。
在數據準備方面,研究團隊就像烹飪大師準備食材一樣精心。他們從公開影片中篩選出高質量的片段,然後使用專門的追蹤算法記錄每個物體的運動軌跡。接著,他們讓先進的AI模型觀察這些帶有軌跡標記的影片,並要求它描述每條軌跡對應的動作。這樣,AI就學會了如何將抽象的運動路徑與具體的動作描述聯繫起來。
最關鍵的創新在於軌跡的處理方式。以往的系統只是簡單地記錄物體的位置坐標,就像在地圖上標記幾個點。而WorldCanvas則把軌跡當作包含豐富資訊的"故事線"。軌跡上點與點之間的距離暗示了運動速度:點密集的地方表示緩慢移動,點稀疏的地方表示快速移動。軌跡還包含可見性標記,告訴AI角色在什麼時候應該出現或消失。
這種精細的軌跡處理讓系統能夠生成極其逼真的動作。當你畫出一個籃球的拋物線軌跡時,AI不僅知道球的飛行路徑,還能根據軌跡的密度變化自動調整球的飛行速度,讓整個投籃動作看起來完全符合物理定律。
在實際測試中,WorldCanvas展現出了令人印象深刻的能力。研究團隊設計了一個複雜場景:一位老人和一輛汽車同時進入畫面,老人在看到汽車後向後退步,汽車急剎車避免撞到老人,最後老人走出畫面。這個場景涉及多個角色的協調動作和因果關係。傳統的影片生成AI往往會產生混亂的結果,比如讓老人去追汽車,或者完全忽略兩者之間的互動。而WorldCanvas則能準確生成符合邏輯的完整序列。
更令人驚嘆的是系統的一致性維護能力。當一個角色暫時離開畫面然後重新出現時,AI能夠保持角色的外觀、身份和場景的連續性。這就像一個有記憶的畫家,即使畫布被暫時遮擋,重新露出時也能準確接續之前的內容。
為了驗證系統的效果,研究團隊進行了詳細的對比實驗。他們將WorldCanvas與當前最先進的影片生成模型進行比較,包括Wan2.2、ATI和Frame In-N-Out等。結果顯示,WorldCanvas在軌跡跟蹤準確度、語義理解能力和影片質量等多個方面都顯著超越了這些基準模型。
在用戶研究中,研究團隊邀請了15位參與者,包括影片製作研究人員、藝術家和普通用戶,對不同模型生成的影片進行評價。結果顯示,在軌跡跟蹤、文本遵循、文本-軌跡對齊、參考圖片保真度和整體影片質量五個維度上,WorldCanvas都獲得了壓倒性的支持,獲得了75%以上的"最佳"選票。
這項技術的潛在應用前景廣闊。在電影製作領域,導演可以快速製作概念驗證影片,在正式拍攝前就能看到想像中的畫面效果。在遊戲開發中,設計師可以輕鬆創建複雜的角色動畫和場景演示。在教育領域,老師可以製作生動的教學影片來解釋複雜概念。甚至普通用戶也能用它來製作個性化的社交媒體內容。
當然,這項技術也面臨一些挑戰。在處理極其複雜的空間變換或需要高度邏輯推理的場景時,系統偶爾會出現不完美的結果。比如當相機做360度旋轉時,畫面中的物體可能會出現輕微的模糊或不一致。另外,當角色暫時離開視野時,系統有時無法完全準確地推理出角色在視野外應該發生的變化。
儘管存在這些局限,WorldCanvas代表了影片生成AI的一個重要里程碑。它不僅僅是一個技術工具,更像是一個創意夥伴,能夠理解用戶的想法並將其轉化為視覺現實。隨著技術的進一步完善,我們可能很快就會看到一個人人都能成為影片創作者的時代到來。
從技術角度看,這項研究還為更高級的AI系統奠定了基礎。能夠理解和生成複雜時空事件的AI,距離真正的通用人工智慧又近了一步。這樣的系統不僅能生成影片,還能理解世界的運作方式,這對於開發能夠在真實世界中安全運行的AI代理具有重要意義。
研究團隊已經將相關代碼和模型開源,這意味著全球的研究者和開發者都能基於這項工作繼續創新。相信在不久的將來,我們會看到更多基於WorldCanvas的應用出現,讓影片創作變得像畫畫一樣簡單自然。
Q&A
Q1:WorldCanvas是什麼樣的AI系統?
A:WorldCanvas是香港科技大學團隊開發的影片生成AI框架,用戶只需手繪運動軌跡、輸入文字描述,再加入參考圖片,就能讓AI自動生成符合創意的影片片段,就像在魔法畫布上創作一樣簡單。
Q2:WorldCanvas比其他影片生成AI強在哪裡?
A:傳統AI只能根據文字生成大概畫面,而WorldCanvas通過軌跡、文字和參考圖片的結合,讓用戶能精確控制角色的動作、位置和外觀。它還能處理多角色互動場景,保持角色前後一致性,甚至能生成反常識的創意場景。
Q3:普通人能用WorldCanvas製作影片嗎?
A:目前WorldCanvas還在研究階段,研究團隊已經開源了相關代碼。雖然普通用戶暫時無法直接使用,但隨著技術發展,未來可能會出現基於這項技術的消費級應用,讓影片創作變得像畫畫一樣簡單。






