騰訊ARC實驗室打造的「全知劇本」：AI看完一部電影，能幫你把劇本寫出來嗎？

這項研究來自騰訊應用研究中心（ARC Lab），論文於2026年4月13日發布在預印本平台arXiv，編號為arXiv:2604.11102v1，分類領域為電腦視覺（cs.CV）。感興趣的讀者可以通過這個編號查閱完整原文。

贊助商廣告

你有沒有想過，如果一個人從來沒看過某部電視劇，卻需要在兩小時內寫出整部劇每一場戲的劇本——包括每個角色說了什麼、做了什麼、臉上是什麼表情、背景音樂是什麼調性——這得耗費多少精力？對於影視行業的從業者來說，這種場景並不陌生：素材整理、內容歸檔、版權確認、片段檢索，每一項工作都需要人工反覆翻看影片，再一幀一幀地記錄下來。這是一項極其繁重、枯燥而又容錯率極低的工作。

騰訊ARC實驗室的研究團隊提出了一個大膽的問題：能不能訓練一個AI系統，直接"看"完一段幾分鐘乃至幾十分鐘的影視內容，然後自動生成一份結構化的、帶時間戳的完整劇本？這份劇本不是簡單的"這段影片講了一個人走進房間"這樣的粗略描述，而是真正專業意義上的劇本——包含場景描述、角色動作、對白台詞、面部表情乃至音效和背景音樂的文字記錄。

他們把這個任務稱為"影片轉劇本"（Video-to-Script，簡稱V2S），並為此構建了一個全新的系統，取名OmniScript。"Omni"在英文中意為"全能"、"全覆蓋"，而Script就是劇本——合在一起，大致的意思就是"能處理所有感官資訊的劇本生成器"。OmniScript是一個同時理解視覺畫面和聲音資訊的語言模型，參數規模為80億（8B），但其表現已經能與業界頂級的閉源商業模型相媲美。

這項研究的意義遠不止於此。它不僅提出了一個全新任務，還同時構建了第一個專門用於評測這類任務的人工標註基準數據集，設計了一套專屬的評估指標體系，並開發了完整的訓練框架。可以說，這是一次從"定義問題"到"解決問題"的完整探索。

一、為什麼這件事比你想像的難得多

贊助商廣告

要理解OmniScript的價值，首先得明白這件事究竟有多難。

現有的影片理解AI大多擅長處理短影片——幾十秒到一兩分鐘的片段，回答"影片裡發生了什麼"這類問題。但影視內容完全不同。一集電視劇通常四十分鐘到一小時，一部電影更是動輒兩小時，中間有大量的場景切換、人物穿插、對話交織，還有大量依靠音頻才能理解的資訊，比如畫外音、背景音樂烘托的情緒、說話人並不在畫面中的對白。

更麻煩的是，研究團隊發現，僅僅描述一段兩分鐘的影片內容，所需的文字就高達約4000個字符（token）。如果影片長度翻倍、翻三倍，生成文字的數量也會急劇膨脹，不僅對計算資源是巨大考驗，模型在生成過程中還極容易"忘掉"前面發生的事——就像你寫一篇很長的作文寫到後面，忘了開頭講的是誰一樣。

除此之外，還有三個深層次的難題。第一，沒有適合訓練這類任務的數據。給影視內容打這種細粒度的標註，需要專業人員反覆看影片、逐幀確認，工作量極其龐大，現有的數據集根本不夠用。第二，如何評價生成的劇本好不好？劇本不像數學題有標準答案，同一場戲可以用很多種方式描述，傳統的自動評分方法（比如看有多少詞重合）完全無法勝任。第三，如何讓模型生成的內容既有時間準確性（這件事發生在第幾分幾秒），又有語義準確性（這件事到底是什麼）？

這三個問題，OmniScript分別給出了對應的解決方案。

二、把一部電影"拆解"成結構化劇本：任務定義

OmniScript所要完成的任務，可以用"三層樓"的結構來理解。

最頂層是"元資訊層"，記錄整部影片的全局屬性：片名、時長、出場人物列表。這就像一本書的封面和目錄，讓讀者在翻開正文之前先有個整體概念。

中間層是"場景層"，把整段影片切分成一個個獨立的場景。每個場景有自己的編號、發生地點（比如"室內書房"或"戶外街道"）、時間屬性（白天、夜晚、清晨等）以及整體氛圍。這就像電影劇本里每一場戲開頭的場景說明。

贊助商廣告

最底層是"事件層"，也是資訊量最密集的一層。每個場景內部，按時間順序記錄若干個事件，每個事件都有一個精確的時間戳（比如"00:04"），標註是哪個角色，然後分別記錄這個角色的動作、對白、表情，以及當時的音效或背景音樂。特別值得注意的是，系統還會區分台詞的類型：是正常對話、畫外音（即聲音和說話的人都在畫面中但不可見）、還是旁白。

這種三層結構的設計，使得生成的劇本既有宏觀的敘事框架，又有微觀的逐幀細節，真正做到了"從大到小、層層貼近"。整體目標是同時優化三件事：事件發生的時間定位是否準確、角色身份的語義解析是否一致，以及多模態敘事描述是否忠實於原始影片。

三、解決數據荒：帶記憶的自動標註流水線

沒有訓練數據，再好的模型設計也無從施展。為了解決數據稀缺問題，研究團隊設計了一條半自動化的標註流水線，核心是一個他們稱之為"角色檔案管理器"（Character Profile Manager，CPM）的模組。

整個流程從原始影片開始。團隊從超過一萬部影視作品中提取了約4.5萬個片段，每段通常不超過5分鐘。隨後，系統用一個強大的短影片理解模型（即Google的Gemini-2.5-Pro）對每段影片進行分析，但關鍵不在於單段分析，而在於跨段落的記憶管理。

角色檔案管理器扮演的角色，類似於一位跟組的"劇組檔案員"。每次分析完一段新影片後，這位"檔案員"會把裡面出現的角色資訊記錄下來：外貌特徵（包括服裝、髮型）、聲音特徵、第一次出場的時間，以及目前已知的名字。當分析下一段影片時，這些歷史檔案會被"注入"給分析模型，幫助它識別出"這個穿黑色夾克的男性，就是上一段出現過的張偉"。

這個設計解決了一個影視內容特有的難題：角色名字往往不是一出場就被說出來的。在很多劇集中，一個重要人物可能在前五集都沒有人叫過他的名字，直到某個關鍵場景才揭曉。系統採用了一種"懶惰命名策略"——先給沒有名字的角色分配臨時編號（比如"unknown_001"），一旦在某段對話中出現了明確的稱呼，就回溯更新，把所有歷史記錄里的臨時編號替換成真實姓名，併合並重複記錄。

贊助商廣告

有了全局一致的角色資訊之後，系統再把這些資訊連同原始影片一起餵給Gemini，生成精細的場景-事件劇本。最後，為了讓訓練數據包含"思考過程"，團隊還用DeepSeek 騰訊ARC實驗室打造的全知劇本AI看完一部電影能幫你把劇本寫出來嗎這個語言模型，對生成的劇本進行反向推理，重新"發明"出一套思維鏈過程——相當於讓AI寫下"我是怎麼一步步分析出這段劇本的"，然後把這套思考過程作為訓練素材的一部分。

四、如何評判一份AI劇本寫得好不好：四階段評估體系

如果說生成劇本是這項研究的"輸出"，那麼如何評價這個輸出的質量，才是讓整項研究站得住腳的關鍵。傳統的文本評分方法依賴詞彙重合率，但影視劇本的描述往往存在大量同義表達——"張三推開了門"和"張三走出了房間"可能描述的是同一件事，卻沒有一個詞重合。

研究團隊設計了一套四階段的評估流程，層層遞進。

第一階段解決"哪個預測事件對應哪個真實事件"的問題。系統不依賴時間重疊來配對，而是通過綜合考量台詞相似度和動作相似度來建立語義關聯，同時施加一個"時間鄰近約束"——兩個事件之間的時間差不能超過30秒，否則視為不相關。在此基礎上，系統用動態規划算法找出全局最優的配對方案，同時保證配對的時間順序不被打亂。

第二階段解決"預測里的'警察'和真實標註里的'李明'是同一個人嗎"的問題。AI在描述角色時往往使用開放性詞彙，而真實標註可能使用角色真名，兩者之間需要建立映射。這個階段用語言模型對所有角色名進行分類（真實姓名、單數身份名詞、複數身份名詞），然後通過時間重疊度和詞彙相似度建立對應關係，並制定了一系列防止邏輯矛盾的規則，比如"真名不能匹配另一個不同的真名"、"單數角色不能匹配複數角色"。

第三階段對配對成功的事件組進行五個維度的內容評分：角色準確性用精確字符串匹配，台詞準確性用編輯距離（衡量兩段文字差多少字），而動作、表情、音效則請語言模型做語義相似度打分。最終匯總成精確率、召回率和F1值。值得一提的是，這套評分機制對"冗餘生成"和"遺漏"都有明確懲罰——多說了沒依據的事會拉低精確率，漏掉真實事件會拉低召回率。

贊助商廣告

第四階段獨立評估時間定位的準確性。對於成功配對的事件，計算預測時間段和真實時間段之間的"時間交並比"（tIoU，類似於兩個時間段的重疊程度），再統計超過某個重疊閾值的事件比例，形成"時間命中率"。

這四個階段共同構成了一套兼顧"說了什麼"和"什麼時候說的"的立體評估體系。

五、OmniScript的架構：同時用眼睛和耳朵看電影

OmniScript的模型架構建立在Qwen3-VL這個視覺語言模型的基礎上，但做了一個關鍵擴展：加入了獨立的音頻處理通道。

具體而言，系統使用預訓練的Whisper模型作為音頻編碼器，將影片的聲音軌道轉化為向量表示。關鍵設計是：影片的視覺幀和對應時刻的音頻信號被嚴格對齊，形成一一對應的"時間單元對"。這種對齊確保了系統在處理每一刻的資訊時，能同時感知畫面和聲音，就像人類用眼睛和耳朵同時感知世界一樣。

在特徵融合方面，研究團隊採用了一種名為"AV-DeepStack"的注入策略，將音頻和視覺特徵不只在模型的輸入層融合，而是在語言模型內部的多個層次反覆注入。每一層都有專門的殘差適配器，讓語言流同時被視覺資訊和聽覺資訊調節。這種設計的好處是，模型在做深層語義推理的時候，不會"忘掉"音頻信號——聲音資訊從始至終都參與運算，而不僅僅是開頭提了一下。

在輸出方式上，OmniScript採用了"先思考後生成"的解碼策略。模型不會直接跳到生成劇本，而是先生成一段"內部推理過程"，包括對整段影片劇情走向的梳理，以及對當前場景中各角色關係的明確陳述。這段推理過程就像打草稿，幫助模型在正式寫劇本之前理清脈絡，大幅減少前後矛盾的情況。

六、四階段漸進訓練：從打基礎到精雕細琢

OmniScript的訓練過程分為四個層層遞進的階段，每個階段都有明確的目標。

第一階段是模態對齊。這個階段的任務很單純：讓新加入的音頻模組和原有的視覺語言模型"接上頭"。具體做法是凍結視覺編碼器、語言模型和音頻編碼器，只訓練新引入的"音頻投影器"（負責把音頻特徵翻譯成語言模型能理解的格式）。訓練數據是約100萬條帶時間戳的語音識別樣本，目的是讓音頻模組學會把聲音和文字內容對應起來。為了防止模型過度依賴畫面、忽視聲音，訓練時還會隨機遮掉一部分影片幀，強迫模型依靠音頻來補全資訊。

贊助商廣告

第二階段是多模態預訓練。這個階段全面解鎖所有模組，在約240萬條雙語（中英文）影視內容上進行大規模訓練，任務包括語音識別、影片摘要、密集影片字幕和時間定位。這一階段的目標是讓模型建立起對影視內容的整體認知，同時打磨跨模態的語義理解能力。

第三階段是有監督微調（SFT）。用第三節描述的自動標註數據（約4.5萬條）進行專項訓練，讓模型學習如何按照"思考-場景-事件"的層次結構輸出內容。訓練時還會隨機遮掉字幕，避免模型學會"抄字幕"的捷徑，確保它真正依靠音影片內容來生成台詞。

第四階段是強化學習（RL）。在一小批高質量人工標註數據上，用GRPO算法（一種序列級別的強化學習方法）進一步優化模型。獎勵信號來自前文描述的多維度評估體系，但採用"時間分段獎勵"而非"全局獎勵"——也就是說，模型不是對整段生成的質量進行籠統打分，而是把影片時間軸切成若干段，分別評估每段的生成質量。這種細粒度的獎勵機制能有效識別並懲罰模型在短時事件上的遺漏和錯誤，比全局平均分更精準。

七、如何處理更長的影片：兩種延伸策略

OmniScript基礎版本能處理的影片長度約在5分鐘以內。為了應對更長的影視內容，研究團隊探索了兩條路徑。

第一條路徑是直接擴展上下文窗口，讓模型一口氣處理更長的影片。為此，團隊收集了一批長影片標註，包含全局故事線描述、分段情節轉折記錄，以及用於修正長影片中歷史不一致內容的"記憶修正標籤"。由於完整標註的長影片數量有限，團隊還通過"跨影片拼接"來生成偽長影片——把若干段主題相近的短影片拼在一起，同時合併它們的角色和情節標註，偽造出一段完整的長影片訓練樣本。這種方式保持了單次端到端生成的簡潔性，但對模型的長程推理能力要求極高，計算開銷也更大。

第二條路徑是把任務拆成兩步走。第一步，用一個專門的"情節分割模型"先對整部影片做結構化拆解，輸出每一段的起止時間、主要情節、出場角色和角色關係。第二步，把每個片段連同第一步的結構資訊一起餵給OmniScript的基礎版本，讓它為每段生成詳細的劇本。最後通過一個輕量級後處理模組把所有片段的輸出拼接成一份完整的長影片劇本，並在拼接時統一名字稱呼、處理指代一致性和事件順序。

贊助商廣告

這兩種路徑各有側重：第一種在中等長度影片（10-20分鐘）上表現出色；第二種在極長影片（30分鐘以上）上展現出更強的穩定性，幾乎不會因為影片變長而性能下降。

八、實驗結果：80億參數的模型，能打過誰？

研究團隊構建了一個專門的評測基準，包含10部完整影視作品，總時長約19.9小時，涵蓋動漫、動作、懸疑、劇情等多種類型。基準被切分為不同時長的片段：200個5分鐘片段、100個10分鐘、50個15分鐘，依此類推直到30分鐘，形成一個測試模型在不同時間跨度下表現的多粒度評測床。整個基準平均每分鐘有14.1個標註事件，密度極高。

在5分鐘影片的事件層面評測中，OmniScript（8B參數）在角色準確率、台詞準確率、整體F1分數和時間定位準確率上均超過了Qwen3VL-235B（參數量是它的近30倍）。與商業閉源模型相比，OmniScript的台詞理解能力超過了Gemini-3-Pro，時間定位準確率也優於它。值得關注的是，Qwen3-Omni等同等量級的全模態開源模型表現極差（整體F1分數僅約5分），而使用思維鏈推理的模型版本（-T後綴）有時反而比不使用思維鏈的版本差，說明在這類長輸出任務上，單純開啟"思考模式"並不總是有幫助。

在場景層面的評測上，OmniScript達到了52.4的整體分數和74.6的時間定位命中率，超過了Qwen3VL-235B和TimeChat-Captioner等多個模型，與多個頂級商業模型不相上下。

消融實驗揭示了各模組的實際貢獻。去掉思維鏈訓練，整體分數從37.0降到35.3，台詞F1從71.0降到68.2；去掉強化學習，整體分數從37.7降到37.0；用全局獎勵替換分段獎勵，整體分數維持不變但台詞從72.2降到69.0，說明分段獎勵對台詞理解有專項提升。

字幕遮擋實驗也揭示了一個有趣現象：遮住畫面中的字幕後，Qwen3VL-235B的台詞準確率從58.6急劇跌到7.7，說明它基本上是在"抄字幕"而非真正理解台詞；Gemini-3-Pro的台詞準確率從68.8降到60.9，下降幅度更溫和，說明它有一定的真實音影片理解能力；OmniScript的台詞準確率從72.2降到63.8，降幅適中，優於Gemini。

贊助商廣告

音頻消融實驗對比了加入音頻通道和不加音頻通道的差異：僅用視覺訓練的基線版本台詞準確率為52.0%，加入音頻預訓練後提升到68.2%，絕對提升幅度達16.2個百分點。

在長影片評測中，隨著影片時長從10分鐘延伸到40分鐘，絕大多數模型的表現呈現出幾乎線性的下滑趨勢。Gemini-2.5-Flash在25分鐘以內表現出異常高的召回率，但超過25分鐘後會突然崩潰，生成內容出現大量重複循環和結構混亂，這表明它的高分依賴於"大量生成內容"的策略，在極長序列上並不可持續。OmniScript的兩階段策略（TSG版本）則展現出近乎水平的性能曲線，從10分鐘到40分鐘幾乎沒有明顯衰減，在雷達圖上始終保持寬闊的多邊形面積，而其他模型在30分鐘和40分鐘時已經收縮成接近圓心的小核。

說到底，OmniScript這項研究做的事情，是把一個以前只能靠人工完成、耗費大量時間的專業任務，推進到了機器可以輔助甚至部分替代的階段。它不是一個簡單的"影片摘要"工具，而是真正嘗試復現人類專業編劇讀片、記錄、分析的完整認知過程——同時用眼睛看畫面，用耳朵聽聲音，在大腦里維持對角色和情節的持續記憶，最終輸出一份結構嚴謹、細節豐富的劇本文檔。

8B參數能做到這種程度，確實出人意料。但這背後的代價同樣值得關註：自動標註數據的質量高度依賴於商業閉源模型（Gemini、DeepSeek），評估框架的部分環節也需要語言模型參與打分，這意味著整個系統的上限在某種程度上被這些外部模型的能力所限定。另外，當前的基準數據主要覆蓋中文影視內容，跨語言、跨文化的泛化能力還有待驗證。

對於影視內容從業者來說，這類技術的成熟意味著大量重複性人工工作可能會被顯著壓縮；對於普通觀眾來說，它或許會催生更智能的內容檢索、更精準的劇情回顧，乃至個性化的影視輔助理解工具。而對於AI研究者來說，OmniScript留下了一個值得繼續追問的方向：在理解"發生了什麼"之外，AI能否進一步理解"為什麼這樣發展"——那才是真正意義上的敘事理解。有興趣深入了解這項研究的讀者，可以通過arXiv編號2604.11102查詢完整論文。

贊助商廣告

Q&A

Q1：OmniScript生成的劇本包含哪些具體內容？

A：OmniScript生成的劇本分三個層次：全局元資訊（片名、時長、角色列表）、場景層（每個場景的地點、時間、氛圍）和事件層（每個時間點對應的角色動作、對白、面部表情、音效或背景音樂），並區分台詞類型，如正常對話、畫外音或旁白。

Q2：OmniScript評測劇本質量的方法與傳統方法有什麼不同？

A：傳統方法依賴詞彙重合率，無法處理同義表達。OmniScript採用四階段評估：先通過語義相似度配對事件，再建立角色名稱映射，然後對動作、台詞、表情、音效五個維度分別打分，最後獨立評估時間定位準確性，能更全面地衡量劇本的語義質量和時序準確性。

Q3：OmniScript在處理超長影片時為什麼兩階段策略比直接擴展上下文更穩定？

A：直接擴展上下文要求模型在單次生成中維持極長的記憶，隨著影片變長，模型容易"忘記"前面的角色和情節，導致性能下滑。兩階段策略先用分割模型提取每段的結構資訊，再分段生成劇本，每段都有明確的局部約束，避免了全局記憶衰減問題，因此在30分鐘以上的影片上表現更穩定。