中科大聯手FrameX.AI：讓AI影片生成更聰明，無需昂貴訓練也能拍出流暢長影片

這項由中國科學技術大學與FrameX.AI聯合主導、獨立研究員參與合作的研究，於2026年5月以預印本形式發布，論文編號為arXiv:2605.04461。有興趣深入了解的讀者可通過該編號在arXiv平台上查閱完整論文。

贊助商廣告

**一、影片生成的煩惱：為什麼AI拍出來的長影片總是"翻車"？**

你有沒有用過AI生成影片的工具？短則幾秒，長則十幾秒，剛開始看還挺順眼，但一旦時間拉長，畫面就開始"漂移"——人物的臉變形了，背景的顏色跑偏了，原本流暢的動作開始抽搐，甚至前後兩段畫面里的主角好像換了個人。這種體驗，就像你在看一部拍了一半就換了導演、換了攝影師、還換了布景的電影，前後毫無連貫感。

這並不是個別工具的問題，而是當前AI影片生成技術面臨的普遍挑戰。特別是在生成較長影片時，如何讓畫面從頭到尾保持一致，是擺在研究者面前的一道硬題。

更棘手的是，想要讓AI影片生成得更好，傳統的思路是"堆錢堆算力"——用更大的模型、更多的訓練數據、更長的訓練時間。但這條路越走越貴，已經快走到天花板了。研究者們開始轉變思路：既然訓練階段很難再大幅提升，能不能在影片生成的那一刻——也就是"推理階段"——多下點功夫？

這個思路在大語言模型領域已經被驗證過了。比如讓AI在回答問題之前多"想一想"，多考慮幾種可能性再給出答案，結果往往比直接脫口而出要好得多。這種做法被稱為"推理時擴展"（Test-Time Scaling，簡稱TTS）。研究者們自然想到：能不能把同樣的方法用到影片生成上？

然而，把TTS搬到影片生成領域並不簡單。以往的嘗試，比如一種叫做ImagerySearch的方法，需要一次性生成整段影片再從中挑選最好的。這就像你要做一道菜，不管好不好吃，都得從頭到尾做完整桌子才能選一個上菜——既費時又費力，而且一旦某個環節出了問題，整段影片就得全盤作廢。更糟糕的是，這種方式完全沒有辦法在影片進行到一半時發現問題、及時糾正。

贊助商廣告

正是針對這些痛點，中科大與FrameX.AI的團隊提出了一套全新的框架——Stream-T1。

**二、分段拍攝：流式影片生成為何天生適合"邊想邊做"？**

理解Stream-T1之前，先要搞清楚"流式影片生成"（Streaming Video Generation）是什麼。

普通的AI影片生成，就像一位畫家面對一張巨大的畫布，要一筆一筆把整幅畫畫完，中間不能停、不能改、不能回頭。而流式影片生成則更像是拍電視劇的方式：把整部劇切成一集一集來拍，每集拍完確認質量過關，再接著拍下一集，前一集的場景和人物設定會自然延續到下一集。

在技術層面，流式影片生成把影片切成一小段一小段（稱為"chunk"，可以理解為"片段"），每次只生成一段，並且每段只需要很少的去噪步驟（比如只需4步，而傳統方法可能需要幾十步）。這種"一段一段生成"的方式，天然地適合"邊想邊做"——生成完一段，評估一下好不好，再決定下一段怎麼拍。

Stream-T1就是建立在這個基礎上的。它把推理時擴展的思路和流式影片生成的特點完美結合，形成了一套包含三個核心機制的完整框架：噪聲傳播、獎勵剪枝和記憶沉降。下面我們一個一個來說清楚。

**三、"遺傳優良基因"：噪聲傳播如何讓每一段影片繼承前一段的優點？**

拍電視劇時，導演會把前一集最精彩的結尾作為下一集的開頭，確保故事銜接流暢。Stream-T1的第一個機制——"流式縮放噪聲傳播"（Stream-Scaled Noise Propagation）做的事情與此異曲同工。

在AI影片生成里，每一段影片都從一團"隨機噪聲"開始，然後通過一系列去噪步驟，逐步變成清晰的畫面。這團初始噪聲就像是影片的"種子"，種什麼樣的種子，一定程度上決定了長出什麼樣的畫面。

傳統方法每次都從完全隨機的噪聲重新開始，就像每一集電視劇都臨時找一批完全陌生的演員，當然很難保持風格一致。Stream-T1的做法是：把上一段影片裡質量最好的那批"種子噪聲"傳遞給下一段，作為新段落初始噪聲的參考依據。

贊助商廣告

具體來說，新一段的初始噪聲不是純隨機的，而是通過一種叫做"球面插值"的數學方法，在上一段的優質噪聲和新的隨機噪聲之間找一個平衡點。公式非常優雅：新噪聲等於上一段噪聲乘以一個係數β，再加上一個新隨機量乘以根號下(1減β?)。這個設計的精妙之處在於，不管β取什麼值，新噪聲的整體統計分布始終保持標準高斯分布，不會破壞AI模型對輸入的基本要求。β越大，新段落和上一段的相關性越強；β越小，新段落就越"自由發揮"。

這就像是讓新演員在上崗前先認真研究老演員的表演錄像，既保留了自己的發揮空間，又確保了角色風格的延續性。實驗證明，這種設計能有效減少相鄰片段之間的"跳躍感"，讓影片整體更加流暢自然。

**四、"考官評卷"：如何同時看顧眼前的畫質和整體的連貫性？**

生成了多個候選片段之後，下一步是挑出最好的那個。但"好"的標準是什麼？一段畫面本身很精美，是好；但如果它跟前面的片段銜接很突兀、動作不連貫，那算不算好？

這就是Stream-T1第二個機制——"流式縮放獎勵剪枝"（Stream-Scaled Reward Pruning）需要解決的問題。研究團隊提出用一套雙軌評分體系來評估每個候選片段。

第一條軌道叫做"短期評分"，專門看當前這段影片的畫面質量。評委是一個圖像獎勵模型，它會逐幀審查每一幀畫面的美觀程度，然後取平均分。這就像是讓一位擅長品評靜態攝影的攝影師來評分，專注於每一幀是否清晰、色彩是否飽和、構圖是否合理。

第二條軌道叫做"長期評分"，關注的是更長時間範圍內的連貫性。評委是一個影片獎勵模型，它不只看當前片段，而是把當前片段和前面若干段（用一個滑動窗口來控制範圍）拼在一起，綜合評估文字描述與影片內容是否吻合、畫面質量如何、動作是否流暢連貫。這就像是讓一位電影剪輯師來審看，他的眼睛不只停在單幀上，而是盯著整個故事的走向和節奏。

贊助商廣告

有了兩個分數之後，還需要一個融合策略把它們合併成最終評分。研究團隊設計了一個動態加權方案：在影片生成的早期階段，更多地倚重長期分數，確保整體方向走對了；隨著影片逐漸生成到後期，短期分數的權重逐漸上升，確保每一幀的畫質也經得起推敲。不過這個權重的上升有上限，一旦達到預設的閾值就不再繼續增加，目的是防止過於追求單幀美觀而導致畫面"原地踏步"——也就是畫面雖然好看，但動作停滯不前、內容不再變化。

通過這套雙軌評分和動態加權機制，Stream-T1在每一步都能選出局部畫質和整體連貫性之間最均衡的候選片段，確保影片既好看又流暢。

**五、"智慧檔案館"：如何讓AI記住過去卻不被過去淹沒？**

流式影片生成有一個與生俱來的挑戰：隨著影片越來越長，AI需要記住的"歷史畫面"也越來越多，內存很快就會撐爆。為了解決這個問題，研究者們通常會設置一個"滑動窗口"——只保留最近幾段影片的記憶，更早的內容就從記憶中刪除。

但這樣做有個明顯的弊端：如果把早期的關鍵畫面全刪掉，AI就會忘記"主角是誰"、"場景在哪"，導致後面生成的內容開始漂移。一些研究者嘗試把最開始的幾幀固定保留下來作為"錨點"，但如果故事中間發生了重大變化（比如換了場景），這個固定錨點就會造成混亂。還有人嘗試用數學方法把所有歷史記憶"壓縮融合"成一個簡化版本，但這樣做在場景切換時會把不同場景的特徵混在一起，產生奇怪的"幻影"效果。

Stream-T1的第三個機制——"流式縮放記憶沉降"（Stream-Scaled Memory Sinking）用了一套更聰明的方案：根據情況決定如何處理被擠出窗口的舊記憶，而不是一刀切地刪除或壓縮。

具體來說，每當一段舊影片要被從記憶窗口擠出時，系統會先做兩個判斷。第一個判斷叫"質量門控"：這段舊影片本身的畫質夠不夠好？如果連自己都是個劣質片段，那就直接丟棄，不值得保留——這樣可以防止糟糕的歷史資訊污染未來的生成。

贊助商廣告

通過了質量門控之後，系統還會做第二個判斷叫"場景切換檢測"：這段舊影片和它前一段相比，整體連貫性評分是否發生了明顯下降？如果沒有明顯下降，說明當前影片仍在同一場景內平穩推進，這段舊記憶和現有記憶高度重疊，可以通過"指數移動平均"（EMA）的方式把它融合進最新的記憶快照里——就像是把幾張相似的照片疊在一起取平均，保留共同特徵而去掉冗餘細節。

但如果連貫性評分發生了大幅下降，說明場景可能發生了切換或者動作發生了劇烈變化，這時候如果還用疊平均的方式處理，就會把新舊場景的特徵混在一起產生混亂。這種情況下，系統會把這段舊記憶作為一個獨立的"錨點"直接追加到記憶庫里，單獨保存，確保它的特徵不被污染。

通過這三種路徑——丟棄、融合更新、獨立追加——Stream-T1的記憶管理系統就像一個聰明的檔案管理員：垃圾不存，重複的內容精簡歸檔，重要的轉折點單獨建檔保存。這樣既不會讓內存爆炸，也能確保AI在生成後續內容時隨時可以翻閱到最關鍵的歷史資料。

**六、實驗數據：Stream-T1到底強在哪？**

研究團隊在兩個不同長度的影片生成任務上驗證了Stream-T1的效果，分別是5秒短影片和30秒長影片。對比對象包括CausVid、Self-Forcing和LongLive三種當前較為先進的開源方法。

在5秒影片的測試中，Stream-T1在主體一致性、背景一致性、動作流暢性、美觀度、動作質量和文字對齊度六項指標上均排名第一，僅在成像質量和視覺質量兩項上位居第二。相比基準模型LongLive，Stream-T1的動作質量提升約79.71%，文字對齊度提升約9.39%，視覺質量提升約49.47%，這些都是非常顯著的改善。

在更具挑戰性的30秒長影片測試中，Stream-T1的優勢更加突出，幾乎在所有指標上都拿下了第一名，包括主體一致性、背景一致性、動作流暢性、成像質量、美觀度、視覺質量和文字對齊度。其中動作質量這一項相比LongLive提升幅度極為驚人，達到了11400%——這不是筆誤，背後的原因是LongLive在長影片生成中動作質量幾乎接近零，而Stream-T1能夠穩定維持合理的動作表現。

贊助商廣告

研究團隊還專門把Stream-T1和其他推理時擴展方法做了對比，包括"最優N選一"（Best-of-N，即生成N個影片從中挑最好那個）和標準束搜索（Beam Search，即同時維護多條候選路徑逐步篩選）。結果顯示，這兩種方法雖然也能帶來一些改善，但都不如Stream-T1全面。背後的邏輯在於：前兩種方法都是"被動選擇"——只能從已經生成好的影片裡挑，而Stream-T1是"主動干預"——在生成過程中就通過噪聲傳播和記憶管理積極引導方向，從根源上提高了生成質量的上限。

為了驗證三個核心組件各自的貢獻，研究團隊還做了消融實驗，分別測試去掉其中某一個組件時的效果。去掉記憶沉降後，影片的主體一致性和背景一致性明顯下降，雖然單幀成像質量小有提升，但整體連貫性嚴重受損。去掉噪聲傳播後，各項指標普遍下滑，說明它對於系統整體穩定性的貢獻是全面性的。去掉獎勵剪枝後，成像質量略有提升但其餘所有指標都大幅下降，揭示出如果沒有長短期聯合評分的指引，系統會陷入"只追求單幀美觀而犧牲整體連貫性"的困境。三個組件缺一不可，共同構成了Stream-T1的完整能力。

**七、這對我們意味著什麼？**

說到底，Stream-T1解決的是一個很實際的問題：怎麼讓AI生成的長影片變得更靠譜，同時不要花太多錢。

以往想要讓AI影片生成更好，要麼花大錢訓練更大的模型，要麼接受湊合的質量。Stream-T1提供了第三條路：在生成過程中用更聰明的策略來引導AI，無需改變模型本身，就能顯著提升影片質量，尤其是在長達30秒這樣對AI來說頗具挑戰性的長度上。

從更長遠的視角來看，這套框架的思路——把推理時擴展與流式生成的分段特性結合起來，同時通過噪聲傳播、質量評估和動態記憶管理三管齊下——為後續的研究提供了一個值得參考的範本。未來隨著流式影片生成模型越來越普及，類似的推理時優化策略很可能成為標配。

贊助商廣告

當然，目前Stream-T1還建立在特定的基礎模型（LongLive，基於Wan2.1-T2V-1.3B）之上，能否無縫遷移到其他架構的生成模型上，還需要進一步驗證。另外，更長的影片（比如幾分鐘甚至更長）在記憶管理上面臨的挑戰會進一步加劇，這也是未來值得探索的方向。

對這項研究感興趣的讀者，可以通過arXiv:2605.04461找到完整論文，團隊也在stream-t1.github.io上提供了項目頁面供參考。

Q&A

Q1：Stream-T1和普通的AI影片生成有什麼區別？

A：普通AI影片生成要麼一次性生成整段影片，要麼逐幀生成但缺乏質量評估。Stream-T1把影片切成小片段逐段生成，每段生成後都用雙軌評分系統評估畫質和連貫性，並通過噪聲傳播讓每段繼承上一段的優良特徵，同時動態管理歷史記憶，整體上對生成過程進行主動干預而非被動篩選。

Q2：Stream-T1的記憶沉降機制是如何判斷場景切換的？

A：記憶沉降通過監測"長期影片獎勵評分"的變化來判斷場景切換。具體來說，系統會計算當前片段與上一片段的長期連貫性評分差值，如果差值超過預設閾值，則認為發生了場景切換或劇烈動作變化，此時會把被擠出窗口的舊片段作為獨立錨點追加保存，而非融合壓縮，以避免不同場景特徵混淆。

Q3：Stream-T1在30秒長影片測試中動作質量為何提升了11400%？

A：這個數字看起來誇張，但背後有合理解釋。基準模型LongLive在30秒長影片生成中動作質量評分極低，接近於零，這是因為長影片生成過程中動作連貫性迅速崩潰。而Stream-T1通過噪聲傳播、獎勵剪枝和記憶沉降三重機制維持了穩定的動作質量，從接近零的基準大幅躍升，百分比增幅因此顯得極為驚人。