香港城市大學與快手團隊聯手：讓AI「導演」教會影片生成模型真正「思考」

這項由香港城市大學與快手技術Kling團隊聯合完成的研究，發表於2026年6月，論文編號為arXiv:2606.02564，有興趣深入了解的讀者可以通過該編號查詢完整論文。

贊助商廣告

**一、當影片生成模型遭遇"會做不會想"的困境**

先從一個場景說起。假設你給一個非常厲害的畫家出了道謎題：把一個紫色圓球沿著迷宮路徑移動到綠色終點，路上不能穿越牆壁。這位畫家畫功一流，每一幅單獨的畫面都美得令人叫絕——但他從來沒學過迷宮規則。結果呢？他畫出的連續畫面里，紫色球走著走著就穿牆而過，或者乾脆消失了，又或者到了最後停在了一個完全錯誤的地方。畫面漂亮，但根本沒按規則走。

這恰恰是當前最先進的影片生成模型（可以理解為"AI影片畫家"）面臨的核心困境。這些模型經過海量訓練，能生成畫質精美、時序連貫的影片，但它們的"優化目標"從來都是"讓畫面好看"，而不是"讓邏輯正確"。於是在一些需要遵守規則的推理任務里——比如把彩色方塊移動到對應顏色的目標位置，或者在不違反規則的前提下還原一張異常圖片——這些模型經常生成視覺上流暢卻邏輯上漏洞百出的影片。

這個問題催生了一個很有意思的新研究方向，叫做"用影片來推理"。核心思路是：既然大語言模型可以用文字一步一步推理，影片生成模型能不能用一幀一幀的畫面來推理呢？每一幀畫面就像推理鏈條上的一個節點，整個影片就是一條完整的視覺推理軌跡。這個方向確實很有潛力，但問題依然存在——AI畫家不懂規則，那怎麼辦？

**二、前人的兩條路：各有各的短板**

研究者們嘗試過兩種思路來解決這個問題，就像兩位助手分別試圖幫助這位"不懂規則的畫家"。

第一種思路叫"最優樣本篩選"，也就是讓畫家多畫幾遍，然後挑最好的那張。具體做法是同時生成好幾個版本的影片，再根據評分選出最符合要求的那個。這確實能減少一些隨機性錯誤，但問題在於：如果畫家根本就不理解迷宮規則，不管畫多少遍，錯誤往往是系統性的——每次都在同樣的地方穿牆，再多嘗試也無濟於事。實驗數據也印證了這一點，多生成幾倍的候選影片，最終得分的提升相當有限，性價比很低。

贊助商廣告

第二種思路叫"用語言模型當參謀"，也就是讓一個懂規則、會思考的"文字AI"（視覺語言模型）先分析題目，寫出一份文字解題方案，然後把這份方案傳達給影片生成模型，讓它按方案去畫。理論上聽起來不錯，但實踐中卻遭遇了"翻譯失真"的難題。文字描述天然就很難捕捉到那些精妙的空間位置關係——"把藍色方塊向右移動兩格"，在文字里清晰，但影片模型在執行時往往走樣，要麼移錯了位置，要麼方塊形狀變了，要麼過程中出現了奇怪的中間狀態。更何況，如果任務本身就很罕見或者很精細，語言模型也未必能寫出一份真正可執行的方案。

這兩條路各自的局限，讓研究團隊意識到：問題的根源不在於"選哪個更好的結果"，也不在於"怎麼把文字方案寫得更詳細"，而在於能不能直接在影片生成的過程中注入"邏輯糾錯"的力量。

**三、一個關鍵的角色轉換：從"顧問"到"監考老師"**

研究團隊在這裡做了一個核心的思維轉換，而這個轉換正是整篇論文最有意思的地方。

他們注意到一件事：雖然視覺語言模型（那個"懂規則的文字AI"）不善於寫出可執行的影片方案，但它卻非常擅長看圖判斷——"這個球有沒有穿牆？""最終狀態里，球到了綠色終點嗎？""畫面里的三個方塊，形狀和顏色有沒有發生改變？"對於這類"是不是""對不對"的判斷題，視覺語言模型表現得相當出色。

換句話說：這個AI雖然當不了好的"出題老師"（幫你寫解法），但完全可以當一個好的"監考老師"（檢查你做得對不對）。

基於這個洞察，研究團隊提出了一個全新的框架，起名叫"VLM即教師"（VLM-as-Teacher）。在這個框架里，視覺語言模型不再負責寫文字方案，而是擔任一位嚴格的考官：它觀察影片生成模型生成的影片，判斷畫面是否符合規則，然後把判斷結果轉化為一種"糾錯信號"，直接反饋給影片生成模型，讓後者據此調整自己的生成方式。整個過程在每個測試任務中實時發生，無需提前訓練，屬於"臨場學習"。

贊助商廣告

用更直觀的比喻來說：以前的做法是考前讓語文老師給數學畫家寫題解（但語文老師寫的題解畫家根本照不出來）；現在的做法是請一位數學老師在畫家畫的時候坐在旁邊，不斷指出"這裡錯了""那裡對了"，讓畫家實時修正。

**四、"臨考教練"是怎麼工作的——方法細節**

這套"VLM即教師"框架在工程上是怎麼實現的呢？整個流程分成兩個緊密配合的環節。

第一個環節是"出考題"。給定一個影片推理任務（比如迷宮導航），視覺語言模型會分析任務描述，自動生成一組評判標準，以問答題的形式呈現。這些問題分為兩類：一類是"過程監督題"，檢查影片在中間過程里有沒有違規，比如"紫色球在整個過程中有沒有保持完整、沒有分裂或消失？""紫色球有沒有穿過任何一面牆？"另一類是"目標達成題"，檢查最終結果是否正確，比如"到影片結尾，紫色球和綠色方塊有沒有重疊在一起？"所有問題都是正向表述的，正確答案統一是"是的"。

這種設計有個巧妙之處：不同的任務會自動生成不同的考題，而不是用一套通用的籠統標準去評判所有任務。畢竟，迷宮任務的關鍵規則和顏色排序任務的關鍵規則完全不同，用同一套"通用問卷"往往抓不住真正的要點。

第二個環節是"在線優化"。影片生成模型（配備了一個叫做LoRA的輕量級"插件模組"）先快速生成一個初步的影片預測結果，然後把這個預測結果交給視覺語言模型考官去回答那些考題。考官給出回答後，系統會計算"考官有多大把握說這些答案是'是'"——把握越低，說明影片越有問題。這個"把握程度"的倒數就變成了優化信號，通過數學上的反向傳播（可以理解為把"哪裡錯了"的資訊一層一層往回傳遞），專門調整那個輕量級LoRA插件的參數。調整完之後，影片生成模型再生成一次，再讓考官評分，再調整，如此循環。當考官的評分高到一定程度（也就是對所有考題的"是"答案都有足夠把握），或者循環次數達到上限，優化停止，最終用優化後的模型生成正式的結果影片。

贊助商廣告

整個過程中，影片生成模型的原始參數和視覺語言模型的參數都保持不變，只有那個小小的LoRA插件在針對這個特定任務做調整。這意味著每次優化都是高度個性化的——針對這道題，專門調整，用完即止，不影響下一道題。

**五、讓優化變得實際可行的三個工程巧思**

如果直接按上面的思路實現，計算量會大得驚人。每一輪優化都需要完整地生成一個影片，然後用視覺語言模型逐幀分析，這在時間和算力上都難以承受。研究團隊為此設計了三個讓整個流程變得實際可行的技巧。

第一個技巧是使用一個簡化版的圖像解碼器來替代正式版本。正式的影片解碼器（把模型內部的數字信號轉化為肉眼可見畫面的工具）非常耗時耗內存，但在優化階段，視覺語言模型其實不需要畫質有多完美，只需要能看清大致結構就夠了。於是研究團隊引入了一個輕量級的替代解碼器，速度更快、內存占用更小，雖然畫質差一點，但絲毫不影響考官的判斷準確性（實驗也驗證了這一點）。正式輸出最終結果的時候，再切換回高質量解碼器。

第二個技巧是把影片生成模型"蒸餾"成一個只需要四步就能完成的快速版本，並且在優化階段只優化第一步的預測結果。正常的影片生成模型需要經過幾十步的疊代才能生成最終畫面，但研究表明，推理行為主要在早期步驟就已經確立。經過"蒸餾"的四步快速模型，在第一步的預測結果就已經能讓考官看出大致的推理走向，無需走完全部四步。這大大減少了每輪優化的計算量。

第三個技巧是用損失值來決定何時停止優化。當考官對所有問題的"是"答案都有足夠高的把握時（損失值降到閾值以下），系統就自動停止，不再繼續優化。這避免了過度優化——優化太多步反而可能讓模型"鑽空子"，在評分上表現不錯但實際影片質量反而下降。實驗顯示，平均只需要16步優化就能達到最佳效果，再往後的邊際收益迅速縮小。

贊助商廣告

**六、用兩套標準嚴格檢驗——實驗結果如何**

研究團隊用兩個專門評測影片推理能力的基準來檢驗這套方案。第一個叫VBVR-Bench，專注於符號視覺推理，涵蓋五大類能力：抽象推理、知識運用、感知判斷、空間關係和變換操作。這個基準有明確的標準答案，用專門的檢測程序來評分，客觀性很強。第二個叫RULER-Bench，偏向開放性的通用場景推理，涵蓋人文、科學、假設判斷、語義理解、視覺感知等五大類共30個子任務，用GPT-o3這個強大的AI來當評委評分。

基線模型是一個經過快速蒸餾的Wan2.2-5B影片生成模型，在VBVR-Bench上的初始得分為0.666，在RULER-Bench上的平均分為46.4。

對比"生成多個候選擇優"的方法（Pass@5，即生成5個候選選最好的），這種方法在VBVR-Bench上只能提升0.017，在RULER-Bench上提升2.7分。而對比"用語言模型優化提示詞"的方法（VideoTPO），在VBVR-Bench上不升反降，得分反而下降了0.032；在RULER-Bench上雖然有3.9分的提升，但相比基線的提升幅度依然有限，而且在30個子任務里，有4個任務的得分反而更低了。

這套新方法則在VBVR-Bench上把得分從0.666直接提升到0.781，整體提升0.115，而且在域內任務和域外任務上都有一致的提升。在RULER-Bench上更是從46.4躍升至68.2，提升了整整21.8分，並且在全部30個子任務里無一例外地取得了提升。兩個基準綜合下來的平均提升幅度達到16.7分，遠超其他所有對比方法，而且所用的計算時間與"生成5個候選"方案相當。

**七、拆解實驗——每個設計決策的作用**

研究團隊還做了大量的消融實驗，也就是把方法裡的每個組成部分逐一"拆除"，看看少了哪塊會損失多少，從而驗證每個設計決策的必要性。

關於優化步數的實驗清晰展示了一條先升後平再微降的曲線：從0步到16步，得分穩步從0.666升至0.781；從16步到20步，僅再提升0.002；繼續到40步，得分反而微降至0.778。這說明過多優化會讓模型過於"迎合考官"，反而帶來視覺上的退化。配合早停機制，實際平均只需16步就能達到最佳狀態。

贊助商廣告

關於獎勵設計，研究團隊分別測試了只去掉"目標達成問題"和只去掉"過程監督問題"兩種變體。去掉過程監督後，得分從0.781降至0.758；而去掉目標達成問題後，得分大幅降至0.692。兩者缺一都會造成損失，但目標達成問題的影響更大。定性實驗也提供了直觀解釋：在方塊移動任務里，去掉目標達成問題後，模型會很好地保持方塊的外觀，但就是不把方塊移到正確位置；而在蝸牛移動任務里，去掉過程監督問題後，模型為了讓蝸牛"到達目標區域"走了一條捷徑——讓一隻手伸進來放了另一隻蝸牛，而不是移動原來那隻。兩類監督相輔相成，缺任何一類都會導致邏輯漏洞。

研究團隊還測試了用"通用問題"替代"任務特定問題"的效果：把每次針對任務自動生成的具體考題，替換成"這個任務的目標有沒有達成"和"過程有沒有違規"這兩個籠統的通用問題，得分從0.781降至0.712。這說明考題需要針對每個具體任務量身定製，籠統的通用標準根本抓不住各類任務的關鍵要點。

關於使用視覺語言模型在推理階段直接優化與用它做離線後訓練的對比，實驗同樣很有說服力：如果改成先用視覺語言模型的反饋在訓練階段調整模型，然後直接推理，得分僅為0.688；如果用非可微分的強化學習方式做後訓練，得分為0.681；只有實時在線優化的方式才達到了0.781的最高水平。這表明影片推理任務需要針對每個具體實例的個性化適應，而不是一次性的通用訓練。

**八、框架的通用性驗證**

一個方法的價值，不僅在於它在標準配置下表現多好，更在於它換了不同的零件之後還能不能穩定工作。研究團隊用不同的視覺語言模型和不同的影片生成模型分別做了驗證。

在視覺語言模型的選擇上，用InternVL3-8B替換默認的Qwen3-VL-4B，RULER-Bench得分為68.1，幾乎持平；換成更強的Qwen3-VL-8B，得分進一步提升到69.2。而且研究團隊發現，視覺語言模型在Video-MME這個影片理解評測上的得分越高，在RULER-Bench上帶來的提升就越大，兩者之間有相當強的正相關關係（相關係數平方R?=0.733）。換句話說，"監考老師"越厲害，學生進步越明顯——這個直覺上合理的關係得到了數據支持。

贊助商廣告

在影片生成模型的選擇上，把Wan2.2-5B替換為更小的HunyuanVideo-1.5B（一個更輕量級的影片生成模型），基線得分只有35.8，但加上這套優化框架後，得分提升到了44.5，提升幅度依然可觀。這說明這套框架不依賴於特定的影片生成模型架構，具有較好的遷移性。

**九、誠實面對失敗——兩類主要錯誤**

論文專門分析了方法失效的情況，這是一個難得的誠實。研究團隊手動標註了50個失敗案例，發現其中84%（42個）的失敗來自視覺語言模型的感知錯誤，只有16%（8個）來自考題本身的設計錯誤。

在Raven漸進矩陣（一種類似圖形規律判斷題的任務）的失敗案例里，視覺語言模型誤判了正確答案應該是什麼形狀，生成了一個錯誤的目標考題，結果優化方向從一開始就跑偏了——哪怕影片真的滿足了這個錯誤考題的要求，也得不到正確答案。這屬於"考題出錯"類失敗。

在鉛筆變色任務里，鉛筆的顏色其實只有一小塊區域沒有完全變成紅色，視覺語言模型在檢查時漏掉了這個細節，誤以為已經完全變好了，於是提前停止了優化。鉛筆最終帶著一點點殘餘的顏色錯誤被輸出了。這屬於"感知精度不足"類失敗。

這兩類失敗指向了明確的改進方向：一是需要一個機制來驗證自動生成的考題是否正確，二是需要引入感知精度更高的視覺語言模型來充當監考老師，尤其是對細粒度視覺變化的判斷能力要更強。

歸根結底，這項研究揭示了一個很有意思的方向：讓一個"懂規則但不會畫"的AI來監督一個"會畫但不懂規則"的AI，在推理時實時糾偏，效果遠比單獨依賴任何一方要好得多。視覺語言模型和影片生成模型之間，並不是替代關係，而是可以形成一種互補的"教學關係"——一個負責理解和評判，一個負責生成和執行。把這兩種能力組合起來，才能讓"用影片來推理"這個方向走得更遠。

未來或許還有很多可以探索的地方：能不能讓考題生成更可靠，能不能引入更精細的視覺反饋，能不能讓這套框架遷移到更多類型的影片推理任務。這個領域還很年輕，但這項工作為它搭建了一個很清晰的思路框架。對這些問題感興趣的讀者，可以通過arXiv編號2606.02564找到完整論文，深入了解每個技術細節。

贊助商廣告

---

Q&A

Q1：VLM-as-Teacher方法和直接讓語言模型寫提示詞來指導影片生成，有什麼本質區別？

A：語言模型寫提示詞的方式（VLM-as-Solver）依賴文字描述來指導影片生成，但影片模型往往無法把細緻的文字指令轉化為正確的視覺動作。VLM-as-Teacher則完全不靠文字方案，而是讓語言模型直接"看影片、評分、糾錯"，把評判結果轉化為數學信號反向傳給影片模型，讓它在生成過程中實時修正。本質區別在於：一個是"告訴你怎麼做"，另一個是"看著你做、隨時糾正"。

Q2：VLM-as-Teacher框架里的LoRA是什麼，為什麼只調整它而不調整整個模型？

A：LoRA是一種輕量級的"插件模組"，可以理解為給影片生成模型套上的一個小型適配器。只調整LoRA而不動原始模型，一是因為LoRA參數量極小，計算成本低，適合實時優化；二是因為不同任務需要不同的適配，原始模型的通用能力需要保留，只讓插件做任務專屬的微調，用完即止，不會影響模型處理其他任務的能力。

Q3：VBVR-Bench和RULER-Bench這兩個測試集分別考的是什麼，VLM-as-Teacher在哪類任務上提升更明顯？

A：VBVR-Bench主要考驗結構化的符號推理，比如空間移動、圖形變換這類有明確規則和標準答案的任務；RULER-Bench則偏向開放性的通用場景推理，涵蓋科學、人文、視覺感知等多種類型。VLM-as-Teacher在兩個基準上都有顯著提升，但在RULER-Bench上提升更大（21.8分對比0.017），尤其在顏色、計數、方向、異常檢測等需要精確視覺執行的任務上提升最為突出。