谷歌與新加坡國立大學聯手打造"影片導演AI"：讓機器像人類一樣拍出連貫的長影片

這項由谷歌雲AI研究院與新加坡國立大學聯合完成的研究，於2026年5月以預印本形式公開發布，論文編號為arXiv:2605.06924v1。有興趣深入閱讀原文的讀者可通過該編號在arXiv平台檢索到完整論文。

贊助商廣告

**研究背景：AI拍影片為何總是"記性不好"？**

你有沒有看過那種越來越長的AI生成影片，主角的衣服顏色在第三分鐘突然換了，背景里的椅子憑空消失，或者人物明明在室內，下一秒卻站在街頭？這不是你的錯覺，這是當前AI影片生成技術面臨的一個根本性難題——它太容易"忘事兒"了。

現有的AI影片工具在生成幾秒鐘的短片段時表現出色，但當任務變成生成一分鐘、五分鐘乃至十分鐘的長影片時，問題就會接踵而至。人物的臉開始變化，場景的布局開始偏移，故事的邏輯開始鬆散。研究團隊將這兩種現象分別稱為"語義漂移"和"敘事崩潰"——前者好比演員越演越不像自己，後者好比編劇越寫越忘了自己在講什麼故事。

正是為了解決這個困擾業界已久的核心問題，谷歌雲AI研究院與新加坡國立大學的研究團隊提出了一個全新的架構，命名為A?RD，發音類似英文單詞"hard"（中文讀作"阿方RD"）。這個名字是"Agentic AutoRegressive Diffusion"的縮寫，直譯過來就是"主動式自回歸擴散模型"。不過這些專業詞彙不重要，重要的是它背後的思路：與其讓AI被動地一段接一段生成影片，不如讓AI像一個有記憶、有判斷力的導演一樣，主動地規劃、生成、檢查、修正每一個鏡頭。

**一、從"流水線工人"到"電影導演"：A?RD的核心理念**

理解A?RD，可以藉助一個拍電影的比喻，而且這個比喻會貫穿整篇文章。

傳統的AI影片生成方式就像一個沒有劇本的流水線工人。他坐在工作檯前，只看得到面前的一小截傳送帶，把當前這個零件裝好之後，傳送帶往前走，他再裝下一個。他不知道整條生產線做的是什麼，不知道前面發生了什麼，也不知道後面還要做什麼。結果，一個完整的產品交到最後，往往是拼湊出來的，東拼西湊、前後不一。

贊助商廣告

A?RD則是把這個流水線工人換成了一位經驗豐富的電影導演。這位導演在拍攝每一個場景之前，會先翻閱劇本，回看已經拍好的片段，核對演員的造型檔案和場景設計圖，然後才喊"開機"。拍完之後，他還會在剪輯室里仔細審看剛拍好的素材，檢查是否有穿幫鏡頭，如果發現問題，立刻重拍。這種"拍攝-檢查-修正"的閉環操作，正是A?RD與傳統方法最根本的區別。

研究團隊將這個導演的工作流程總結為四個步驟：檢索（Retrieve）、合成（Synthesize）、精煉（Refine）、更新（Update）。每拍一個片段，導演先去片場檔案室（也就是系統的"多模態影片記憶庫"）調取相關資料，然後根據資料和當前劇情選擇最合適的拍攝方式，拍完後交給一套層層把關的審查機制，通過才更新檔案庫，進入下一場景。

值得一提的是，這套系統完全不需要額外訓練。就像一位導演不需要專門去學一門新技術，他只是更聰明地調用和協調現有的攝像師（影片生成模型）、美工（圖像生成模型）和劇本顧問（大語言模型）。

**二、導演的檔案室：多模態影片記憶庫**

一位優秀的導演在拍長片時，必須維護一套詳盡的檔案系統。記錄每個演員在每場戲裡的造型，記錄每個場景的燈光設置，記錄故事發展到了哪一步。A?RD中對應的組件叫做"多模態影片記憶庫"，簡稱MVMem，可以把它理解為導演桌上那本厚厚的"拍攝聖經"。

這本拍攝聖經里存放著三類核心內容。第一類是文字狀態記錄，也就是對影片中每一個實體（人物、物體）和環境的詳細文字描述。這不是簡單的一句話概括，而是結構化的、精細的狀態圖譜，包括視覺弧線（人物的外貌特徵、衣著變化、動作軌跡）、空間關係（畫面里誰站在誰左邊、誰在誰前面）以及攝像機運動軌跡。這種記錄方式的靈感來自於電腦視覺領域對"場景圖"的研究——把一幅圖像的內容用結構化的方式表達出來，而不僅僅依靠圖像本身傳達資訊。

贊助商廣告

第二類是參考幀圖像。僅靠文字有時候說不清楚一件衣服的精確顏色或者一個房間的準確布局，這時候圖像就發揮了作用。檔案庫里存放了兩種圖像：一種是在正式拍攝開始前就預先生成好的"全局參考圖"，相當於美術部門為每個角色和場景提前畫好的定妝照和場景概念圖；另一種是每段影片的開頭幀和結尾幀，像書籤一樣標記著每個片段的視覺起點和終點。

第三類是已經生成的影片片段本身。保存影片的目的主要是為了在生成後續片段時，能夠核實前一段影片結尾時人物和場景的運動狀態，確保動作能夠順滑銜接，就像真正的電影剪輯要保證"接戲"的連貫性一樣。

檔案庫在每次生成新片段之前，會根據當前場景的需要，智能地篩選出最相關的歷史記錄，而不是把所有歷史資訊一股腦兒全部塞給AI。這一點非常關鍵，因為把所有歷史資訊都給AI看，不僅計算代價高昂，還可能引入干擾資訊，導致生成結果適得其反。這種有選擇性地檢索，就像一個經驗豐富的劇組助理，知道什麼時候該翻哪一頁檔案，而不是每次都把整個檔案櫃翻個底朝天。

在整個拍攝開始之前，系統還會先專門生成一套全局參考圖。導演會先把整個劇本通讀一遍，找出所有需要保持一致外觀的角色和場景，然後依次生成它們的參考圖像。這個過程還考慮了依賴關係，比如，一個人物的定妝照應該在他所處的背景場景確定之後再生成，就像拍戲時先搭好景才能給演員試裝。系統會建立一個有向無環圖來表示這些依賴關係，並按照正確的先後順序生成所有參考圖，最後再並行完成不相互依賴的部分，提高效率。

**三、導演的調度智慧：自適應分段生成策略**

一位經驗老到的導演知道，不是所有場景都用同一套拍法。連續的室內戲要保證流暢過渡，而兩場戲之間如果發生了時空跳躍，就需要用另一種方式來銜接。A?RD在生成每個影片片段時，也會先判斷當前片段屬於哪種情況，然後選擇最合適的生成模式。

贊助商廣告

具體來說，系統有兩種拍攝模式。第一種叫做"外推模式"，就是從當前片段的開頭幀出發，讓影片自然地向前發展。這種模式適合場景連續、動作連貫的情況，就像攝像機一直跟著演員走，不切換場景。它的優點是影片進展自然，劣勢是如果畫面中沒有出現的細節（比如演員背部的紋身）在後續場景里需要出現，就可能出現前後不一的情況。

第二種叫做"插值模式"，就是先分別生成這個片段的開頭幀和結尾幀，然後讓AI去填充中間的過程，就像給一個翻書動畫定好第一頁和最後一頁，讓系統補全中間的過渡。這種模式對一致性的控制更強，但如果開頭和結尾兩幀本身生成得不夠自然合理，中間的過渡就會顯得生硬。

A?RD的聰明之處在於，它不強制要求全部用同一種模式，而是逐個片段地做出判斷。噹噹前片段與下一個片段處於同一個連續的時空環境中時，選擇外推模式；當片段跨越了不同的場景、或者要跳轉到一個已經在前面出現過的特定地點時，選擇插值模式。這個判斷交給大語言模型來完成，研究團隊測試發現，這個判斷的準確率超過85%，而且即使偶爾判斷失誤（把應該用外推模式的場景誤判為插值模式），通常也不會導致嚴重問題，因為圖像生成模型有時候能夠憑藉充分的參考資訊自行把一致性做好。

這裡有一個特別有意思的細節設計。當系統需要在插值模式下生成結尾幀，而對應的場景是回到之前某個遠處片段的某個狀態時，怎麼辦？比如，故事裡的賽車在第6幕疾馳過海岸公路，然後去了別的地方，第12幕再度回到這條海岸公路。此時系統需要知道第6幕的賽車最後停在了哪裡、是什麼朝向，才能順暢接上第12幕。為了解決這個問題，A?RD會從第6幕已存檔的影片中提取出所有的鏡頭結尾幀，然後讓大語言模型挑出最適合作為第12幕開頭的那一幀，從而實現跨越較大時間跨度的運動連續性。這種機制是這篇研究中的原創貢獻之一，在此之前的工作都沒有專門處理過這個問題。

贊助商廣告

**四、導演的審片間：層級化測試時自我提升機制**

生成一段影片只是工作的一半。在真正的電影製作中，每拍完一個鏡頭，導演都要在監視器前盯著回放，確認沒有問題。如果發現穿幫，立刻叫停重來。A?RD中的對應機制叫做"層級化測試時自我提升"，簡稱HITS，它分為兩層審片室：一層專門審查關鍵幀圖像，另一層專門審查生成好的影片片段。

在圖像審片室里，系統對每一張關鍵幀圖像進行八個維度的評分，每項滿分十分。這八個維度可以歸入三組：第一組關注跨片段一致性，檢查人物是否與之前的參考圖保持一致、環境是否與之前的場景保持一致、敘事是否在合理地向前推進，以及畫面中各元素的空間邏輯是否合理；第二組關注當前幀的狀態準確性，具體檢查人物狀態和環境狀態是否正確；第三組關注基本畫面質量，檢查是否按照指令生成以及畫面是否符合物理常識。

審完之後，系統會決定是微調這張圖還是重新生成。選擇微調時，AI會給出一條具體的編輯指令（比如"給人物加上藍色圍巾"），並且每次只修改一個問題，因為同時嘗試修復多個問題會讓編輯變得混亂。選擇重新生成時，系統則會先優化生成這張圖時使用的文字描述（也就是"提示詞"），再重新生成。最終，在所有疊代版本中，選出綜合評分最高的那一張作為正式採用的幀。

影片審片室的邏輯類似，但針對影片的特點做了擴展，覆蓋十個維度，分為三組：第一組關注跨片段的動態一致性，包括人物跨場景的外觀一致性、環境跨場景的一致性、運動狀態的一致性，以及攝像機運動的一致性；第二組關注片段內部的人物和環境一致性；第三組關注基本影片質量，包括是否遵循指令、物理合理性、敘事推進，以及（在插值模式下）影片結尾是否自然銜接到預設的結尾幀。

當處於插值模式時，系統在發現問題後只需要優化提示詞，因為開頭幀和結尾幀已經固定好了，重新生成影片就能改善質量。當處於外推模式時，優化提示詞還不夠，因為問題往往出在影片末尾那些沒有被開頭幀覆蓋的細節上。此時系統會先從已經生成的影片中提取出結尾幀，把它經過微調處理後固定下來，然後以這對"開頭幀+結尾幀"為錨點重新生成整段影片。這種聯合優化的方式，就像先把一場戲的首尾兩個關鍵動作釘死，再補全中間過程，比單純改台詞要有效得多。

贊助商廣告

**五、導演的經驗庫：記憶增強提示詞優化**

優秀的導演還有一個特質：善於從每一次拍攝經歷中積累經驗，知道什麼樣的指令有效、什麼樣的指令會適得其反。A?RD中有一個專門的組件來模擬這種學習能力，叫做"記憶增強提示詞優化"，簡稱MAPO。

MAPO的工作方式是維護一個"經驗資料庫"，裡面記錄著過去每一次提示詞優化的完整記錄：原始提示詞是什麼，優化後的提示詞是什麼，當時的評分情況如何，以及這次優化最終被標記為成功還是失敗。當需要對某個提示詞進行新一輪優化時，系統會從資料庫中找出最相似的成功案例和失敗案例，把它們放在一起對比，從中歸納出規律性的指導原則，比如"把抽象的場景參照換成具體的物理錨點"，或者"用排除法明確哪些物體不會出現在畫面中"。然後把這些原則應用到當前的提示詞上，生成優化版本。這個過程類似於拍片前讓助理整理之前類似戲份的拍攝心得，幫助導演避開已知的坑。

論文裡給出了一個生動的實際案例。原始提示詞描述一位麵包師從"既定的四分之三右前方角度"在工作檯前操作，背景里提到了儲藏架。這個提示詞有幾個問題：角度描述是抽象的，沒有給出物理參照；背景元素缺乏空間順序描述。MAPO檢索到了相關成功案例，提煉出了多條經驗，包括"用具體的物理錨點替代抽象的場景參照"、"用排他性語句防止AI產生幻覺"、"按線性順序描述環境元素"等。優化後的提示詞明確指出了工作檯從前景斜向延伸到左後方、陶瓷碗放在後左側、石砌烤爐居中、不鏽鋼水槽在烤爐左側等具體的空間關係。優化前這張圖的平均評分是6.4分，優化後達到了8.3分，多個維度直接滿分。

**六、這套系統的並行版本：效率與質量之間的平衡**

電影製作講求效率，有時候為了加快拍攝進度，可以讓多個攝製組同時開工拍不同的場景。A?RD也設計了一個並行版本，叫做A?RD-Par，用來在硬體允許的情況下大幅提升生成速度。

贊助商廣告

在A?RD-Par中，所有片段的關鍵幀仍然按照前後順序依次生成（這個步驟需要串行，因為下一幀要參考上一幀），但框架確定後，所有影片片段可以並行生成。這意味著在理想硬體條件下，生成速度不會隨影片變長而線性增加。代價是，並行版本不進行影片片段級別的自我改進，這對於場景間存在環境變化的情況會帶來一定的質量損失，但對於場景相對穩定、人物外觀一致性要求高的影片來說，這個代價是可以接受的。

**七、專為挑戰長程一致性而生的新評測基準：LVBench-C**

研究團隊在做實驗時發現，現有的影片生成評測基準普遍存在一個盲區：它們測試的都是"在同一個場景里保持一致"，而不是"在角色或場景消失一段時間後重新出現時還能保持一致"。這個區別至關重要，因為真實的故事往往有這樣的結構：主角在第一幕出現，然後視角切換到別人，若干場景後主角再次出現，這時候他的衣著造型應該和之前一致，或者根據故事情節有合理的變化。

為了填補這個空白，研究團隊構建了一個全新的評測基準，命名為LVBench-C，C代表"挑戰"（Challenge）。這個基準包含三種類型的測試場景：角色狀態演變場景（人物在消失一段時間後以不同的造型或狀態重新出現）、物體狀態演變場景（物體在消失後以不同的狀態重新出現，比如一個鍋從空鍋變成裝滿食物的鍋）以及環境狀態演變場景（場景在消失後以不同的狀態重新出現，比如一個燈塔房間從晴天變成暴風雨後的樣子）。

這個基準中有一條硬性規則：主要角色或場景必須消失至少10個場景片段，才能重新出現。這確保了測試的確是對長程記憶的考驗，而不是對相鄰片段一致性的簡單檢驗。整個基準涵蓋3分鐘、5分鐘和10分鐘三種影片時長，共120個完整的場景劇本。

為了保證數據質量，研究團隊設計了一套人機協作的數據篩選流程。首先用大語言模型批量生成候選場景劇本，然後去重，接著用定製化的自我改進機制逐一驗證劇本是否滿足六項質量標準，包括場景足夠具體、邏輯自洽、角色行為自然、細節符合現實、內容不重複、前後不矛盾。未通過的劇本進行有限次數的疊代修改，最後還引入了另一家公司的大語言模型進行交叉驗證，以避免同一模型自我評估時產生的偏好偏差，並由研究人員人工抽樣核查。

贊助商廣告

**八、實驗結果：數字背後的故事**

研究團隊在公開基準VBench-Long上測試了大約一分鐘長度的單場景影片生成效果，同時在LVBench-C上測試了三分鐘和五分鐘多場景影片的生成效果，並與六種基準方法進行了對比。這六種方法涵蓋了當前主流的長影片生成策略，包括最簡單的直接逐段生成、僅靠上一段末幀續接的簡單自回歸方法、依靠插值框架並行生成的方法，以及三種已有的多智能體長影片生成系統。

在一分鐘的單場景測試中，A?RD在敘事連貫性上的得分達到0.90，比最好的基準方法（得分0.75）高出了約20%。在角色跨片段一致性上，A?RD達到0.74，而最好的基準方法只有0.57，提升幅度約為30%。環境跨片段一致性從基準的0.73提升到0.84。最令人驚喜的數字是相鄰片段間的運動平滑度，A?RD達到了0.9935，意味著相鄰兩段影片的銜接幾乎與同一次生成的流暢度相當，這在此前的方法中是很難達到的。

在三分鐘和五分鐘的多場景測試中，所有基準方法的一致性指標相比一分鐘測試都出現了明顯下滑，這印證了長程一致性確實是一個隨時間積累而愈發嚴峻的問題。在三分鐘測試中，A?RD超越最強基準方法的幅度平均達到16%；在五分鐘測試中，這一超越幅度約為13%。敘事連貫性方面，A?RD在五分鐘測試中的得分高達0.95，比最強基準方法高出約10個百分點。

一個有趣的觀察是，與一分鐘測試相比，多場景測試中各基準方法的敘事連貫性評分反而普遍偏高。這不是因為這些方法在長影片上表現變好了，而是因為LVBench-C的多場景劇本天然帶有清晰的場景切換結構，而這些基準方法恰好都會強制在每個片段邊界做場景切換，這與劇本的節奏碰巧對應，看起來敘事邏輯尚可，但一致性依然不佳。

研究團隊還做了一個有趣的"公平對比"實驗，把基準方法也擴展到與A?RD消耗相同的計算資源（生成同樣多的候選影片，然後選最好的）。結果發現，給基準方法更多計算資源確實能提升一致性，但提升有限，而且敘事連貫性並不總是隨之改善。A?RD在同樣條件下展現出了更強的"以更多計算換來更好質量"的潛力，這得益於其多維度評判機制能夠更可靠地從多個候選結果中識別出真正好的那個。

贊助商廣告

研究團隊還專門在A?RD框架下替換了影片生成底座，分別用LTX-Video和Wan 2.2兩個開源模型進行測試，結果顯示A?RD在這兩個模型上同樣能夠帶來顯著的敘事連貫性和一致性提升（在LTX-Video上敘事連貫性從0.59提升到0.79，在Wan 2.2上從0.67提升到0.80），驗證了這套框架不依賴特定的影片生成模型，具有良好的通用性。

在10分鐘的超長影片測試中，研究團隊使用了一種專門設計的一致性評估方法，由大語言模型對比相關場景的關鍵幀來檢測明顯的不一致性。在LVBench-C的10分鐘場景下，A?RD的角色一致性保持率達到90.5%，環境一致性保持率84.0%，物體一致性保持率91.5%。

**九、人類眼睛的評判：用戶研究的發現**

數字可以說明很多問題，但最終的檢驗還是來自真實的人類觀看者。研究團隊招募了7位經驗豐富的評估員，讓他們對40個由不同方法生成的一分鐘影片進行盲評測分（評估員不知道哪個影片是哪種方法生成的），從1到5分評價六個維度：角色一致性、物體一致性、環境一致性、場景切換流暢性、敘事連貫性，以及參考圖像一致性（測試時提供了參考圖像的情況下）。

A?RD的平均綜合得分為4.68分，最強基準方法VideoMemory的綜合得分為3.93分。在角色一致性上，A?RD拿到了4.89分，接近滿分，表明人類評估員認為角色外觀保持得非常好。敘事連貫性4.75分，參考圖像一致性4.91分，說明當用戶提供了參考圖像時，生成的影片能夠高度忠實地呈現參考圖中的視覺細節。

場景切換流暢性方面，A?RD的得分為4.34，遠高於最強基準方法的3.34，驗證了自動指標中運動平滑度的改善在人眼看來同樣明顯。研究團隊特別指出，場景切換流暢性和物理環境一致性是所有基於分段生成方法中最難解決的維度，這也是研究團隊認為最值得未來繼續攻關的方向。

並行版本A?RD-Par在角色一致性上保持了不錯的表現，但在環境一致性和場景切換流暢性上明顯下滑，這與自動指標的結論一致，說明自回歸順序生成對於視覺和時序連貫性而言是有實質意義的，而不僅僅是計算方式的不同選擇。

贊助商廣告

**十、消融實驗：拆解導演的每一件工具**

為了搞清楚A?RD的各個組件各自貢獻了多少，研究團隊做了一系列"拆零件"實驗，逐一去掉某個組件，看看整體表現會下降多少。

去掉整個多模態影片記憶庫之後，系統的表現急劇下滑，接近最簡單的基準方法，說明這個記憶庫是整個系統的骨幹，失去它就失去了長程依賴追蹤、一致性驗證和自我提升的基礎。分別去掉記憶庫中的文字狀態記錄和影片存檔，可以看到文字狀態對敘事連貫性和跨片段一致性的貢獻更大，影片存檔主要影響運動連續性，相對沒那麼關鍵。

去掉HITS自我提升機制之後，敘事連貫性從0.90跌到0.74，角色一致性從0.74跌到0.68，說明即使有了好的記憶庫，不經過審片和重拍，質量依然會打折扣。去掉MAPO記憶增強提示詞優化之後，提示詞的改進效果變弱，整體指標也有所下滑。去掉全局參考圖之後，敘事連貫性和角色一致性變化不大，但環境一致性從0.84跌到0.79，說明環境更難維持一致，對參考圖的依賴更強。

對生成模式的消融最有意思。強制始終使用外推模式時，敘事連貫性尚可（0.83），但一致性下降；強制始終使用插值模式時，一致性更高，但敘事連貫性下降到0.71。這兩個極端的結果恰好說明了自適應策略的必要性：一致性和敘事性並非可以同時無代價地極大化，需要根據具體場景做出取捨和平衡，而自適應模式正是這種平衡的實現方式。

**研究的局限與誠實的自白**

研究團隊在論文中坦率地承認了這套系統的幾個局限。首先是計算開銷：每個片段最多可能需要生成6段影片和6張圖像，加上大量的模型調用，這比簡單的基準方法消耗更多資源。研究團隊估算，在現有配置下（使用Gemini 3 Flash作為推理模型），每個片段的額外推理開銷不超過0.5美元，但額外生成的影片和圖像的計算成本就取決於具體使用的影片生成服務了。

贊助商廣告

其次，這套系統對底層組件的能力要求較高，需要一個足夠強大的多模態語言模型和圖像生成模型作為支撐。如果底層組件能力有限，自我提升的效果也會打折扣。另外，評判標準中的各項指標反映的是研究團隊對"好影片"的理解，這種理解可能不適用於所有文化背景、創作風格或專業領域。

人類評估實驗中，部分影片只有兩個人評分，研究團隊坦承這導致評分者一致性數據不夠有意義，所以沒有報告這個指標。人工評估本身也具有主觀性，尤其是場景切換流暢性和敘事連貫性這類維度，不同評估員的感受可能存在差異。

歸根結底，這項來自谷歌雲AI研究院和新加坡國立大學的研究，給出了一個令人信服的答案：解決AI影片生成中的"記性差"問題，關鍵不是造一個更大的模型，而是給現有的模型配上一套像導演一樣工作的智慧調度系統。通過多模態記憶、自適應生成策略、層級化自我審查和經驗積累式提示優化的組合，一段十分鐘的、包含複雜角色和場景變化的影片，其角色一致性依然能維持在九成以上。

這對於普通人意味著什麼？未來，你或許能用自然語言描述一個故事，然後由AI生成一部幾分鐘甚至十幾分鐘的高質量短片，其中的人物從頭到尾保持著一致的面孔和服裝，場景的布局始終合理，故事的因果邏輯一以貫之——而這一切，都不需要你懂影片製作，也不需要專業級的設備和團隊。

---

Q&A

Q1：A?RD和普通的AI影片生成工具有什麼本質區別？

A：普通AI影片工具通常是逐段生成、一旦生成就固定，後續不再回頭檢查前面的內容，也沒有跨片段的記憶機制，所以容易出現人物造型變化、場景穿幫等問題。A?RD的本質區別在於引入了"主動的閉環機制"：每個片段生成後都會經過多維度自動審查，不通過就修改或重新生成，同時維護一個多模態記憶庫持續追蹤人物、物體和場景的狀態，實現了從"被動輸出"到"主動把關"的轉變。

贊助商廣告

Q2：LVBench-C評測基準和已有的影片評測基準有什麼不同？

A：現有的大多數評測基準只測試影片在連續播放過程中是否保持一致，而LVBench-C專門設計了"角色或場景消失至少10個片段後重新出現"的測試場景，模擬真實敘事中常見的時空跳轉。它涵蓋角色狀態演變、物體狀態演變和環境狀態演變三種類型，支持3分鐘、5分鐘和10分鐘三種時長，是目前針對長程循環一致性最具挑戰性的評測基準之一。

Q3：A?RD框架能用在其他影片生成模型上嗎？

A：可以。研究團隊專門在LTX-Video和Wan 2.2兩個開源影片生成模型上進行了測試，結果顯示A?RD在這兩個模型上同樣能帶來顯著的敘事連貫性和一致性提升。這表明A?RD是一個與具體影片生成底座解耦的通用框架，不需要重新訓練模型，只需要將其對接到支持文本加圖像輸入的影片生成模型上就可以使用。