這項由中國科學技術大學與FrameX.AI聯合主導、獨立研究員參與合作的研究,於2026年5月以預印本形式發布,論文編號為arXiv:2605.04461。有興趣深入了解的讀者可通過該編號在arXiv平台上查閱完整論文。
**一、影片生成的煩惱:為什麼AI拍出來的長影片總是"翻車"?**
你有沒有用過AI生成影片的工具?短則幾秒,長則十幾秒,剛開始看還挺順眼,但一旦時間拉長,畫面就開始"漂移"——人物的臉變形了,背景的顏色跑偏了,原本流暢的動作開始抽搐,甚至前後兩段畫面里的主角好像換了個人。這種體驗,就像你在看一部拍了一半就換了導演、換了攝影師、還換了布景的電影,前後毫無連貫感。
這並不是個別工具的問題,而是當前AI影片生成技術面臨的普遍挑戰。特別是在生成較長影片時,如何讓畫面從頭到尾保持一致,是擺在研究者面前的一道硬題。
更棘手的是,想要讓AI影片生成得更好,傳統的思路是"堆錢堆算力"——用更大的模型、更多的訓練數據、更長的訓練時間。但這條路越走越貴,已經快走到天花板了。研究者們開始轉變思路:既然訓練階段很難再大幅提升,能不能在影片生成的那一刻——也就是"推理階段"——多下點功夫?
這個思路在大語言模型領域已經被驗證過了。比如讓AI在回答問題之前多"想一想",多考慮幾種可能性再給出答案,結果往往比直接脫口而出要好得多。這種做法被稱為"推理時擴展"(Test-Time Scaling,簡稱TTS)。研究者們自然想到:能不能把同樣的方法用到影片生成上?
然而,把TTS搬到影片生成領域並不簡單。以往的嘗試,比如一種叫做ImagerySearch的方法,需要一次性生成整段影片再從中挑選最好的。這就像你要做一道菜,不管好不好吃,都得從頭到尾做完整桌子才能選一個上菜——既費時又費力,而且一旦某個環節出了問題,整段影片就得全盤作廢。更糟糕的是,這種方式完全沒有辦法在影片進行到一半時發現問題、及時糾正。
正是針對這些痛點,中科大與FrameX.AI的團隊提出了一套全新的框架——Stream-T1。
**二、分段拍攝:流式影片生成為何天生適合"邊想邊做"?**
理解Stream-T1之前,先要搞清楚"流式影片生成"(Streaming Video Generation)是什麼。
普通的AI影片生成,就像一位畫家面對一張巨大的畫布,要一筆一筆把整幅畫畫完,中間不能停、不能改、不能回頭。而流式影片生成則更像是拍電視劇的方式:把整部劇切成一集一集來拍,每集拍完確認質量過關,再接著拍下一集,前一集的場景和人物設定會自然延續到下一集。
在技術層面,流式影片生成把影片切成一小段一小段(稱為"chunk",可以理解為"片段"),每次只生成一段,並且每段只需要很少的去噪步驟(比如只需4步,而傳統方法可能需要幾十步)。這種"一段一段生成"的方式,天然地適合"邊想邊做"——生成完一段,評估一下好不好,再決定下一段怎麼拍。
Stream-T1就是建立在這個基礎上的。它把推理時擴展的思路和流式影片生成的特點完美結合,形成了一套包含三個核心機制的完整框架:噪聲傳播、獎勵剪枝和記憶沉降。下面我們一個一個來說清楚。
**三、"遺傳優良基因":噪聲傳播如何讓每一段影片繼承前一段的優點?**
拍電視劇時,導演會把前一集最精彩的結尾作為下一集的開頭,確保故事銜接流暢。Stream-T1的第一個機制——"流式縮放噪聲傳播"(Stream-Scaled Noise Propagation)做的事情與此異曲同工。
在AI影片生成里,每一段影片都從一團"隨機噪聲"開始,然後通過一系列去噪步驟,逐步變成清晰的畫面。這團初始噪聲就像是影片的"種子",種什麼樣的種子,一定程度上決定了長出什麼樣的畫面。
傳統方法每次都從完全隨機的噪聲重新開始,就像每一集電視劇都臨時找一批完全陌生的演員,當然很難保持風格一致。Stream-T1的做法是:把上一段影片裡質量最好的那批"種子噪聲"傳遞給下一段,作為新段落初始噪聲的參考依據。
具體來說,新一段的初始噪聲不是純隨機的,而是通過一種叫做"球面插值"的數學方法,在上一段的優質噪聲和新的隨機噪聲之間找一個平衡點。公式非常優雅:新噪聲等於上一段噪聲乘以一個係數β,再加上一個新隨機量乘以根號下(1減β?)。這個設計的精妙之處在於,不管β取什麼值,新噪聲的整體統計分布始終保持標準高斯分布,不會破壞AI模型對輸入的基本要求。β越大,新段落和上一段的相關性越強;β越小,新段落就越"自由發揮"。
這就像是讓新演員在上崗前先認真研究老演員的表演錄像,既保留了自己的發揮空間,又確保了角色風格的延續性。實驗證明,這種設計能有效減少相鄰片段之間的"跳躍感",讓影片整體更加流暢自然。
**四、"考官評卷":如何同時看顧眼前的畫質和整體的連貫性?**
生成了多個候選片段之後,下一步是挑出最好的那個。但"好"的標準是什麼?一段畫面本身很精美,是好;但如果它跟前面的片段銜接很突兀、動作不連貫,那算不算好?
這就是Stream-T1第二個機制——"流式縮放獎勵剪枝"(Stream-Scaled Reward Pruning)需要解決的問題。研究團隊提出用一套雙軌評分體系來評估每個候選片段。
第一條軌道叫做"短期評分",專門看當前這段影片的畫面質量。評委是一個圖像獎勵模型,它會逐幀審查每一幀畫面的美觀程度,然後取平均分。這就像是讓一位擅長品評靜態攝影的攝影師來評分,專注於每一幀是否清晰、色彩是否飽和、構圖是否合理。
第二條軌道叫做"長期評分",關注的是更長時間範圍內的連貫性。評委是一個影片獎勵模型,它不只看當前片段,而是把當前片段和前面若干段(用一個滑動窗口來控制範圍)拼在一起,綜合評估文字描述與影片內容是否吻合、畫面質量如何、動作是否流暢連貫。這就像是讓一位電影剪輯師來審看,他的眼睛不只停在單幀上,而是盯著整個故事的走向和節奏。
有了兩個分數之後,還需要一個融合策略把它們合併成最終評分。研究團隊設計了一個動態加權方案:在影片生成的早期階段,更多地倚重長期分數,確保整體方向走對了;隨著影片逐漸生成到後期,短期分數的權重逐漸上升,確保每一幀的畫質也經得起推敲。不過這個權重的上升有上限,一旦達到預設的閾值就不再繼續增加,目的是防止過於追求單幀美觀而導致畫面"原地踏步"——也就是畫面雖然好看,但動作停滯不前、內容不再變化。
通過這套雙軌評分和動態加權機制,Stream-T1在每一步都能選出局部畫質和整體連貫性之間最均衡的候選片段,確保影片既好看又流暢。
**五、"智慧檔案館":如何讓AI記住過去卻不被過去淹沒?**
流式影片生成有一個與生俱來的挑戰:隨著影片越來越長,AI需要記住的"歷史畫面"也越來越多,內存很快就會撐爆。為了解決這個問題,研究者們通常會設置一個"滑動窗口"——只保留最近幾段影片的記憶,更早的內容就從記憶中刪除。
但這樣做有個明顯的弊端:如果把早期的關鍵畫面全刪掉,AI就會忘記"主角是誰"、"場景在哪",導致後面生成的內容開始漂移。一些研究者嘗試把最開始的幾幀固定保留下來作為"錨點",但如果故事中間發生了重大變化(比如換了場景),這個固定錨點就會造成混亂。還有人嘗試用數學方法把所有歷史記憶"壓縮融合"成一個簡化版本,但這樣做在場景切換時會把不同場景的特徵混在一起,產生奇怪的"幻影"效果。
Stream-T1的第三個機制——"流式縮放記憶沉降"(Stream-Scaled Memory Sinking)用了一套更聰明的方案:根據情況決定如何處理被擠出窗口的舊記憶,而不是一刀切地刪除或壓縮。
具體來說,每當一段舊影片要被從記憶窗口擠出時,系統會先做兩個判斷。第一個判斷叫"質量門控":這段舊影片本身的畫質夠不夠好?如果連自己都是個劣質片段,那就直接丟棄,不值得保留——這樣可以防止糟糕的歷史資訊污染未來的生成。
通過了質量門控之後,系統還會做第二個判斷叫"場景切換檢測":這段舊影片和它前一段相比,整體連貫性評分是否發生了明顯下降?如果沒有明顯下降,說明當前影片仍在同一場景內平穩推進,這段舊記憶和現有記憶高度重疊,可以通過"指數移動平均"(EMA)的方式把它融合進最新的記憶快照里——就像是把幾張相似的照片疊在一起取平均,保留共同特徵而去掉冗餘細節。
但如果連貫性評分發生了大幅下降,說明場景可能發生了切換或者動作發生了劇烈變化,這時候如果還用疊平均的方式處理,就會把新舊場景的特徵混在一起產生混亂。這種情況下,系統會把這段舊記憶作為一個獨立的"錨點"直接追加到記憶庫里,單獨保存,確保它的特徵不被污染。
通過這三種路徑——丟棄、融合更新、獨立追加——Stream-T1的記憶管理系統就像一個聰明的檔案管理員:垃圾不存,重複的內容精簡歸檔,重要的轉折點單獨建檔保存。這樣既不會讓內存爆炸,也能確保AI在生成後續內容時隨時可以翻閱到最關鍵的歷史資料。
**六、實驗數據:Stream-T1到底強在哪?**
研究團隊在兩個不同長度的影片生成任務上驗證了Stream-T1的效果,分別是5秒短影片和30秒長影片。對比對象包括CausVid、Self-Forcing和LongLive三種當前較為先進的開源方法。
在5秒影片的測試中,Stream-T1在主體一致性、背景一致性、動作流暢性、美觀度、動作質量和文字對齊度六項指標上均排名第一,僅在成像質量和視覺質量兩項上位居第二。相比基準模型LongLive,Stream-T1的動作質量提升約79.71%,文字對齊度提升約9.39%,視覺質量提升約49.47%,這些都是非常顯著的改善。
在更具挑戰性的30秒長影片測試中,Stream-T1的優勢更加突出,幾乎在所有指標上都拿下了第一名,包括主體一致性、背景一致性、動作流暢性、成像質量、美觀度、視覺質量和文字對齊度。其中動作質量這一項相比LongLive提升幅度極為驚人,達到了11400%——這不是筆誤,背後的原因是LongLive在長影片生成中動作質量幾乎接近零,而Stream-T1能夠穩定維持合理的動作表現。
研究團隊還專門把Stream-T1和其他推理時擴展方法做了對比,包括"最優N選一"(Best-of-N,即生成N個影片從中挑最好那個)和標準束搜索(Beam Search,即同時維護多條候選路徑逐步篩選)。結果顯示,這兩種方法雖然也能帶來一些改善,但都不如Stream-T1全面。背後的邏輯在於:前兩種方法都是"被動選擇"——只能從已經生成好的影片裡挑,而Stream-T1是"主動干預"——在生成過程中就通過噪聲傳播和記憶管理積極引導方向,從根源上提高了生成質量的上限。
為了驗證三個核心組件各自的貢獻,研究團隊還做了消融實驗,分別測試去掉其中某一個組件時的效果。去掉記憶沉降後,影片的主體一致性和背景一致性明顯下降,雖然單幀成像質量小有提升,但整體連貫性嚴重受損。去掉噪聲傳播後,各項指標普遍下滑,說明它對於系統整體穩定性的貢獻是全面性的。去掉獎勵剪枝後,成像質量略有提升但其餘所有指標都大幅下降,揭示出如果沒有長短期聯合評分的指引,系統會陷入"只追求單幀美觀而犧牲整體連貫性"的困境。三個組件缺一不可,共同構成了Stream-T1的完整能力。
**七、這對我們意味著什麼?**
說到底,Stream-T1解決的是一個很實際的問題:怎麼讓AI生成的長影片變得更靠譜,同時不要花太多錢。
以往想要讓AI影片生成更好,要麼花大錢訓練更大的模型,要麼接受湊合的質量。Stream-T1提供了第三條路:在生成過程中用更聰明的策略來引導AI,無需改變模型本身,就能顯著提升影片質量,尤其是在長達30秒這樣對AI來說頗具挑戰性的長度上。
從更長遠的視角來看,這套框架的思路——把推理時擴展與流式生成的分段特性結合起來,同時通過噪聲傳播、質量評估和動態記憶管理三管齊下——為後續的研究提供了一個值得參考的範本。未來隨著流式影片生成模型越來越普及,類似的推理時優化策略很可能成為標配。
當然,目前Stream-T1還建立在特定的基礎模型(LongLive,基於Wan2.1-T2V-1.3B)之上,能否無縫遷移到其他架構的生成模型上,還需要進一步驗證。另外,更長的影片(比如幾分鐘甚至更長)在記憶管理上面臨的挑戰會進一步加劇,這也是未來值得探索的方向。
對這項研究感興趣的讀者,可以通過arXiv:2605.04461找到完整論文,團隊也在stream-t1.github.io上提供了項目頁面供參考。
Q&A
Q1:Stream-T1和普通的AI影片生成有什麼區別?
A:普通AI影片生成要麼一次性生成整段影片,要麼逐幀生成但缺乏質量評估。Stream-T1把影片切成小片段逐段生成,每段生成後都用雙軌評分系統評估畫質和連貫性,並通過噪聲傳播讓每段繼承上一段的優良特徵,同時動態管理歷史記憶,整體上對生成過程進行主動干預而非被動篩選。
Q2:Stream-T1的記憶沉降機制是如何判斷場景切換的?
A:記憶沉降通過監測"長期影片獎勵評分"的變化來判斷場景切換。具體來說,系統會計算當前片段與上一片段的長期連貫性評分差值,如果差值超過預設閾值,則認為發生了場景切換或劇烈動作變化,此時會把被擠出窗口的舊片段作為獨立錨點追加保存,而非融合壓縮,以避免不同場景特徵混淆。
Q3:Stream-T1在30秒長影片測試中動作質量為何提升了11400%?
A:這個數字看起來誇張,但背後有合理解釋。基準模型LongLive在30秒長影片生成中動作質量評分極低,接近於零,這是因為長影片生成過程中動作連貫性迅速崩潰。而Stream-T1通過噪聲傳播、獎勵剪枝和記憶沉降三重機制維持了穩定的動作質量,從接近零的基準大幅躍升,百分比增幅因此顯得極為驚人。






