香港中文大學（深圳）研究人員找到了一種新思路：先把「照片拍好」，再讓照片動起來

這項由香港中文大學（深圳）理工學院及未來智聯網路研究院聯合開展的研究，以預印本形式於2026年4月21日發布在arXiv平台，論文編號為arXiv:2604.19720。有興趣深入閱讀原文的讀者可以通過該編號直接檢索完整論文，或訪問研究團隊公開的代碼與數據倉庫獲取更多技術細節。

贊助商廣告

一、一個讓人頭疼的老問題：怎麼讓電腦畫出"會動的人"？

電影特效師在製作動作大片時，需要同時關注三件事：演員長什麼樣、他在做什麼動作、鏡頭從哪個角度拍。這三件事任何一件出了差錯，畫面就會顯得奇怪。讓電腦自動完成這件事，就是"人體影片生成"這個研究領域的核心挑戰。

近年來，人工智慧生成內容的技術突飛猛進，生成一張逼真的人物照片已經不難，但要生成一段連貫、自然、還能隨意控制角度和動作的人物影片，依然是一道難關。難點在哪裡？關鍵就在於需要同時控制三個維度：人物的外貌（穿什麼衣服、長什麼臉）、動作姿勢（手臂抬多高、腿怎麼彎）以及拍攝視角（從正面看還是從背後看、鏡頭離人多遠）。

現有的方法大多只能解決其中一兩個維度。有些方法專門控制姿勢，拍出來的影片人物動作很準確，但換個角度就"不認識自己了"；有些方法能保持人物外貌，卻沒辦法自由切換拍攝視角；還有一些方法乾脆繞開視角控制，只做簡單的正面動作生成。更根本的問題在於，要訓練一個什麼都能控制的模型，需要大量"同一個人從各個角度、做各種動作"的影片素材，而這種素材在現實中極其稀缺，哪怕是目前最大的多視角人體數據集，數量也遠遠不夠支撐高質量影片生成。

香港中文大學（深圳）的研究團隊正是從這個困境出發，提出了一套全新的解題思路，他們把這套方法命名為"ReImagine"。

二、換個角度想問題：先把照片做好，再讓它動起來

ReImagine的核心思想可以用一個攝影師工作室的比喻來理解。假設你想要一段影片，展示一個人從正面走到側面再轉到背面。傳統方法就像是請一個攝影師帶著攝像機跟著這個人轉圈拍，難度很高，對拍攝條件要求極嚴苛。而ReImagine的做法是：先請一個頂級攝影師，只拍這個人站在那裡的最漂亮的正面和背面照片，把外貌記錄到極致；然後再請一個專門的動畫師，把這兩張照片"活化"，讓照片裡的人按照你指定的動作和角度動起來。

贊助商廣告

這個"先拍照再動畫"的分工思路，就是論文所說的"圖像優先"（Image-First）框架。具體來說，整個流程分為兩大階段。第一個階段叫做"姿勢與視角引導的圖像合成"，負責根據輸入的外貌參考圖和動作指令，生成每一幀畫面——就像攝影師根據動作指令，一張一張地拍出不同姿勢下的人物照片。第二個階段叫做"無需訓練的時序一致性處理"，負責把這些單獨的照片串聯成流暢的影片，消除幀與幀之間細微的抖動和不一致——就像後期剪輯師用專業軟體把照片處理成順滑的動畫。

這種分工的妙處在於：第一階段可以充分藉助現有的頂級圖像生成模型的能力，而這些模型是在海量高質量圖片上訓練的，生成效果極好；第二階段則藉助現有影片生成模型的時序處理能力，不需要額外收集大量專門的數據來重新訓練。兩個階段各司其職，整體效果反而超過了"從零開始訓練一個統包所有功能的影片模型"。

三、第一階段：如何讓AI學會"換角度看人"

第一階段的技術核心是一個叫做"姿勢與視角引導生成模組"的系統。要理解它，可以把它想像成一個接受多種指令的智能攝影師助手。

這個助手需要接收三類資訊才能完成工作。第一類是"人體姿勢描述"——研究團隊採用了一種叫做SMPL-X的三維人體參數模型，你可以把它理解為一個精確的虛擬人體骨架，能夠描述人體每個關節的角度、身體的胖瘦高矮。有了這個骨架，系統就能知道"這個人現在手臂抬到45度角，腿微微彎曲"之類的精確資訊。更重要的是，這個骨架可以從任意角度渲染成"法線圖"（一種特殊的彩色示意圖，不同顏色代表身體表面朝向不同方向的部位），把姿勢資訊和視角資訊同時編碼進去。

第二類資訊是"人物外貌參考"——系統同時接收這個人的正面全身照和背面全身照。為什麼要同時提供正面和背面兩張照片？因為只有正面照，當視角轉到背後時，模型就不知道背面長什麼樣，只能"腦補"，容易出錯；有了兩張照片，視角無論怎麼轉，模型都有據可查。第三類資訊就是要生成的目標畫面的噪聲起點，這是擴散模型（一種常見的圖像生成技術）的標準輸入方式，可以把它理解為一張空白畫布。

贊助商廣告

這三類資訊需要被整合在一起才能讓模型處理。研究團隊選擇了一種叫做DiT（擴散變換器）的架構作為核心引擎，並設計了一套"條件感知位置編碼"的方案。用更簡單的話說：模型需要同時理解"這個資訊來自正面照片的哪個位置"和"這個資訊來自背面照片的哪個位置"以及"這個資訊是描述姿勢的全局指令"，所以每一塊資訊都被貼上了特殊的標籤，告訴模型"你現在處理的是什麼類型的資訊"。這套標籤系統採用了一種叫做RoPE（旋轉位置編碼）的技術，就像給信封貼上不同顏色的標籤來區分信件類型，讓模型在處理大量混合資訊時不會混淆。

在訓練這個模組時，團隊使用的是FLUX Kontext這個強大的預訓練圖像生成模型作為基礎，通過一種叫做LoRA的輕量級微調方法（類似於給一位經驗豐富的老師額外上幾堂專業培訓課，而不是從頭培養一個新手），在多視角人體數據集上進行針對性訓練。訓練在4塊英偉達香港中文大學深圳研究人員找到了一種新思路先把照片拍好再讓照片動起來 A100 GPU上進行，跑了10個完整輪次，批次大小為32，學習率設為萬分之一。控制姿勢的法線圖部分，則藉助了另一個已有的ControlNet模型來提取特徵，這個模組在訓練過程中保持凍結，不做改動。

四、第二階段：如何把一堆照片變成流暢的影片

第一階段雖然能夠生成每一幀的高質量畫面，但畢竟是逐幀獨立生成的，就像讓一千個不同的攝影師各自拍一張照片，然後把這些照片拼成影片——難免會有細微差異。也許第50幀襯衫上的褶皺和第51幀略有不同，或者手指的細節在兩幀之間輕微抖動。這種幀間不一致性在靜止圖片上看不出來，但一旦播放影片就會產生閃爍感，讓人覺得畫面不自然。

第二階段專門解決這個問題，而且有一個特別的亮點：它完全不需要額外訓練，只藉助已有的影片生成模型Wan（一個開源的大型影片擴散模型）在推理時進行處理。

這個階段的工作分兩步。第一步叫做"低噪聲重去噪"。第一階段生成的幀被編碼成潛在表示（可以理解為圖像資訊的壓縮存檔），然後人為地加入少量隨機噪聲——注意是"少量"，不是把圖像完全打亂。接著，Wan影片模型從這個"輕微擾動"的起點開始去噪，憑藉它在大量真實影片上學到的時序規律，把幀間的細微不一致抹平，同時保留原有的內容和結構。這就好像給一段輕微抖動的手持拍攝影片做防抖處理，用軟體的算法補償掉手抖造成的細微位移，而不是重新拍一遍。

贊助商廣告

第二步叫做"動態時空正則化"，只在重去噪過程的前35%步驟中生效。這一步在頻率域（可以理解為對信號進行頻道分解，就像音響均衡器把聲音分成高音、中音、低音來分別調節）上對影片潛在表示進行處理。具體而言，系統對影片的時間維度和空間維度同時做三維傅里葉變換，然後用一個高斯濾波器壓低高頻成分——時間方向上濾波更強（參數τt設為0.06），空間方向上略弱（參數τs設為0.12），這樣既能平滑幀間抖動，又不會讓每幀圖像本身變得模糊。處理完後再轉換回正常的圖像表示形式，繼續下一步去噪。另外，為了防止人物外貌在處理過程中漂移，第一幀的資訊被固定下來作為"錨點"，不參與濾波，確保整段影片始終以第一幀為基準保持一致性。

五、拿什麼來訓練？研究團隊自己建了數據集

現有的多視角人體影片數據集中，MVHumanNet++是目前規模和質量都比較靠前的一個。研究團隊從中選取了5000個不同身份的人物，每人提供4個視角的影片（正面偏前、背面、左側、右側），用於訓練第一階段的圖像生成模組。

為了驗證模型的泛化能力，團隊還在DNA-Rendering數據集上進行了零樣本測試——模型完全沒有見過這個數據集中的任何人，直接在15個新身份上測試，看看效果好不好。零樣本測試更能反映模型的真實泛化能力，因為在訓練集上表現好不代表換了新面孔也行。

六、和同行比一比：ReImagine到底強在哪裡？

研究團隊選取了四個當時最先進的對比方法來評估ReImagine的表現。Qwen-Image-Edit是阿里巴巴開發的多模態指令編輯模型，能夠按照文字描述對圖像進行精確修改；Wan-Animate專門做身份保持的人物動畫；Wan-Fun-Control擅長根據各種控制信號引導影片內容；Human4DiT是一個利用擴散變換器做360度人體影片生成的前沿框架。

在MVHumanNet++數據集上的正面視角測試中，各個方法都能生成視覺上還過得去的結果。但當攝像機角度開始偏轉、姿勢變化加大時，差距就明顯拉開了。ReImagine的外貌保持能力和姿勢準確度都是最穩定的，而Wan-Animate和Qwen在角度偏轉時開始出現局部扭曲，Human4DiT在較複雜的場景下表現尤為不穩定。

贊助商廣告

在DNA-Rendering的零樣本測試中，結果更加直觀地說明了問題。ReImagine的PSNR（峰值信噪比，衡量像素級還原精度）達到22.98，SSIM（結構相似度）為0.847，LPIPS（感知相似度，越低越好）為0.191，FID（圖像分布質量，越低越好）為57.79，FVD（影片時序質量，越低越好）為0.561。相比之下，Human4DiT的PSNR僅為16.83，Qwen雖然SSIM較高（0.831），但FVD高達1.517，說明它能生成單幀質量不錯的圖像，卻無法保持幀間的時序一致性——就像一本繪本，每頁畫得都很精美，但連續翻頁時人物卻像是換了一個人。

在MVHumanNet的測試中，ReImagine同樣拿下了最好的PSNR（23.99）、最低的LPIPS（0.165）、最低的FID（36.23）和最低的FVD（0.275），全面領先於其他方法。值得一提的是，FVD這個指標專門衡量影片的時序流暢度和動作真實感，ReImagine的0.275相比Wan-Animate的0.403有相當顯著的提升，說明"圖像優先"框架在時序質量上並沒有輸給專門做影片的方法，反而更好。

七、深挖細節：每個設計選擇都經過了驗證

研究團隊對時序一致性模組的不同方案做了系統對比，包括四種策略：只做第一階段圖像生成不加任何時序處理、在圖像生成後只做低噪聲重去噪、重去噪加中值濾波（一種常見的影片平滑方法）、以及完整的重去噪加3D FFT頻率濾波（也就是ReImagine的完整方案）。

在單幀圖像質量上，沒有時序處理的純圖像生成反而得分最高，這合乎邏輯，因為每幀都是獨立優化的，沒有受到時序約束的影響。但在時序流暢度（用光流誤差衡量）上，完整的3D FFT方案以0.481的光流誤差遠低於其他方案，其中沒有時序處理的方案誤差高達0.552，而單純重去噪方案的誤差反而上升到0.616（說明光有重去噪還不夠），中值濾波方案為0.619（過度平滑導致幀間對齊更差）。視覺質量評分（使用VBench框架）方面，完整方案也以0.5346的審美分數略勝一籌。

贊助商廣告

另一個消融實驗驗證了背面照片輸入的重要性。當把背面照片替換為一張全白的空白圖像時，模型仍然能夠生成視覺上說得過去的結果，說明它能從正面照片和姿勢資訊中推斷出一部分背面外貌。但當視角真正轉到背後時，模型往往會把正面的圖案"搬"到背面，比如正面衣服上的圖案莫名出現在背面，這顯然不對。這個實驗證明了正面和背面同時提供的雙視角輸入設計是必要的。

八、"圖像優先"vs"影片優先"：一次直接的正面較量

為了更公平地驗證"圖像優先"框架的價值，研究團隊還專門構建了一個"影片優先"的對比基線：用同樣的輸入（正面背面參考圖和SMPL-X姿勢序列）、同樣的訓練數據（MVHumanNet++），基於Wan影片模型和Uni-Animate DiT架構直接訓練一個影片生成模型，條件完全對齊，只有生成策略不同。

結果非常清晰。影片優先方案的PSNR為19.05，而ReImagine為23.99；SSIM上影片優先為0.814，ReImagine為0.827；LPIPS上影片優先為0.219，ReImagine為0.165；FID上影片優先為55.61，ReImagine為36.23；FVD上影片優先為0.614，ReImagine為0.275。在所有指標上，ReImagine全面勝出。從生成的圖像來看，影片優先方案的結果更模糊，面部細節和服裝紋理都更難分辨，而ReImagine的結果更清晰，顏色還原也更準確。

研究團隊對此給出了合理的解釋：在有限的多視角人體影片數據上直接訓練影片模型，模型的視覺質量上限被數據集的質量鎖死了——數據集裡的影片是什麼質量，生成出來的影片大概也就是那個質量。而ReImagine在第一階段藉助了在數十億張高質量圖片上訓練的FLUX Kontext模型，圖像質量的上限遠高於此；第二階段的時序處理只是在已有高質量幀的基礎上做小幅修正，不需要從有限數據中學習完整的影片生成能力。

九、一個實用的擴展：從"準備好的照片"到"隨手拼出來的人物"

研究團隊還注意到，要求用戶提供標準的正面和背面全身照，在現實中並不總是方便的。為了讓系統更易用，他們額外構建了一套"規範資產數據集"，並訓練了一個端到端模型，能夠從更散碎的輸入資訊來生成完整的人物圖像。

贊助商廣告

數據構建過程本身也很有意思，展示了如何利用現有AI工具批量生產訓練數據。團隊從MVHumanNet原始數據集中提取人物的A字形標準站姿幀（A-Pose，就是人物雙臂張開、身體正立的標準姿勢），用超解析度模型HYPIR增強圖像質量，再用GPT-4o進行重新打光（去除綠幕反光、統一光照環境）得到標準化的人物圖像。接著用YOLO-World目標檢測模型定位人物身上各個部位的位置，用SAM（分割一切模型）精確分割出臉部、上衣、褲子、鞋子等各個部件，再次用GPT-4o對這些部件進行標準化處理：讓臉正對鏡頭、去除衣服背景只保留衣物本身、把鞋子擺成標準的展示角度。經過大規模數據增強和人工篩選，最終得到了約1600個身份的完整規範數據集，每個身份都有分離好的臉部、上衣、下裝、鞋子等獨立圖像。

基於這個數據集，團隊用第一階段的同款圖像生成模組重新訓練，只不過把"正面照+背面照"的輸入替換成了"臉部圖像+上衣圖像+鞋子圖像"等拆散的部件輸入，每個部件都有自己的條件編碼索引，讓模型知道"這是臉"、"這是衣服"、"這是鞋"。這樣訓練出來的模型，可以自由組合不同的臉和衣服生成新的人物——比如把某個明星的臉和你喜歡的一件外套組合成一個全新的人物形象，然後再驅動這個人物做各種動作、切換各種角度。從定量結果來看，這個端到端的拆分輸入版本（PSNR為22.74）和完整的圖像輸入版本（PSNR為23.99）相比略有下降，這是合理的，因為從拆散的部件推斷完整人物比從完整照片推斷更難，但整體質量依然相當可觀。

十、用戶怎麼看：真實人類的主觀評價

除了各種數學指標，研究團隊還邀請了30名參與者進行主觀評價，對比ReImagine和Qwen、Wan-Animate、Wan-Fun、Human4DiT四個方法。參與者既包括電腦視覺和圖形學領域的研究人員，也包括沒有技術背景的普通用戶。

評價方式是兩兩對比：每次呈現兩個不同方法生成的影片，參與者根據兩個維度選擇更好的那個——視角一致性（換了視角之後人還是不是同一個人）和時序流暢度（動作是不是順滑，有沒有閃爍或跳變）。每位參與者為每個維度隨機評價20對影片，結果匯總為偏好率。

贊助商廣告

ReImagine在視角一致性上獲得了41.8%的偏好率，在時序流暢度上獲得了34.7%的偏好率，均排名第一。Wan-Fun以26.8%/26.8%排名第二，Wan-Animate以24.1%/24.5%排名第三，Qwen以15.6%/16.2%排名第四，Human4DiT以11.7%/21.3%排名最低。這一結果表明，即便在沒有數學指標的純視覺主觀判斷中，普通人也能感知到ReImagine在視角切換和動作流暢度上的優勢。

說到底，ReImagine這項研究證明了一個看起來有些違反直覺的結論：在訓練數據有限的情況下，與其硬著頭皮直接訓練一個"全功能影片生成器"，不如把任務分解，先讓擅長生成漂亮圖片的模型把每一幀做好，再讓擅長處理時序的模型把這些幀串聯起來。這種分而治之的策略，讓兩個各自在海量數據上積累了豐富經驗的預訓練模型都能充分發揮所長，結果反而比"從頭再來"強得多。

這個思路對整個領域都有一定的啟示意義。在很多垂直場景（醫療、工業、時裝等）中，高質量的多視角影片數據本就稀缺，硬要端對端地訓練影片模型往往力不從心。把任務分解成"靜態外觀建模"和"時序動態建模"兩個獨立環節，分別藉助不同領域的預訓練大模型，可能是一條在數據受限條件下仍能保持高質量輸出的可行路徑。

當然，這套方法目前還需要提供人物的正面和背面參考照片，以及SMPL-X三維人體參數，這對普通用戶來說仍然有一定門檻。團隊通過構建規範資產數據集做出了一定簡化，但距離"隨手上傳一張自拍就能生成任意動作任意角度影片"的理想狀態還有距離。隨著數據積累和技術疊代，這個門檻有望進一步降低。

對這項研究感興趣的讀者，可以通過arXiv編號2604.19720找到完整論文，研究團隊也在GitHub上開放了代碼、模型權重和數據集，方便研究者直接復現和擴展。

Q&A

Q1：ReImagine生成人體影片需要提供哪些輸入資訊？

A：ReImagine主要需要三類輸入：第一是人物的正面和背面全身照（用於描述外貌）；第二是SMPL-X三維人體參數序列（用於描述每幀的動作姿勢和拍攝角度）；第三是目標攝像機視角參數。如果使用端到端擴展版本，也可以用臉部照片、上衣圖片、鞋子圖片等分離的部件圖像來代替完整的正背面全身照，靈活性更高。

贊助商廣告

Q2：ReImagine和其他影片生成方法相比，最核心的區別是什麼？

A：最核心的區別在於生成策略：其他方法通常直接訓練一個影片生成模型，一次性生成整段影片；ReImagine則把任務拆成兩步，先用圖像生成模型逐幀生成高質量畫面，再用影片模型做時序平滑。這種分工讓系統能同時享受頂級圖像生成模型的畫質優勢和影片模型的時序處理能力，在數據有限的情況下效果反而更好。

Q3：ReImagine的時序一致性模組為什麼選擇3D FFT而不是更簡單的中值濾波？

A：中值濾波雖然計算簡單，但它會對每幀做均勻的時間平均，容易把正常的運動模糊掉，導致幀間對齊變差（實驗中光流誤差反而升高到0.619）。3D FFT則是在頻率域對時間和空間方向分別控制平滑強度，時間方向用更強的濾波壓制幀間抖動，空間方向用較弱的濾波保留圖像細節，這種精細控制讓最終的光流誤差降到0.481，明顯優於中值濾波方案。