Catnip AI團隊造出了一個能「實時直播」的AI演員——它能同時說話、表演、還能跟你互動

這項由Catnip AI團隊開發的研究成果以技術報告形式發布於2026年6月17日，論文編號為arXiv:2606.17800v1，有興趣深入了解的讀者可以通過該編號查詢完整論文。

贊助商廣告

每天刷短影片的你，有沒有想過這樣一個問題：如果AI能像真人主播一樣，實時出現在螢幕前，邊說話邊做表情，還能回應你的留言，那將會是什麼樣的體驗？Catnip AI團隊正在把這個聽起來像科幻電影的場景變成現實。他們構建了一個名為MaineCoon的模型——是的，就是那種毛茸茸的大型貓咪品種的名字——這個220億參數的龐然大物，能夠在單張GPU上以每秒高達47.5幀的速度，同時生成音頻和影片，而且延遲不到一秒鐘。

打個比方，過去的AI影片生成器更像一個劇場導演：他先把整個劇本寫好，演員排練完畢，然後才正式開演，整個過程要花很長時間。而MaineCoon更像是一個天才即興演員，他不需要提前準備劇本，舞檯燈一亮就開始表演，而且表演過程中還能隨時根據觀眾的反應調整內容。更厲害的是，這位"即興演員"不僅會說台詞，還能同步配上表情、肢體動作和聲音——三件事同時進行，且配合得天衣無縫。

這項研究的核心貢獻在於，它不僅僅是一個更快的影片生成工具，而是提出了一個全新的概念框架，叫做"社交世界模型"。研究團隊認為，當今世界上大部分影片內容都是在社交平台上消費的，而且這個比例還在持續上升，但現有的AI影片生成技術卻幾乎完全忽視了社交影片的獨特特徵。MaineCoon就是為了填補這個空白而生的第一步。

---

一、為什麼過去的AI影片都不像"真人"

要理解MaineCoon的意義，得先聊聊它試圖解決的問題究竟有多棘手。

過去幾年，AI生成影片的技術突飛猛進。擴散模型（可以理解為一種"從噪音中雕刻出畫面"的技術）能生成質量驚人的影片片段，清晰度高，畫面細膩。但這類模型有兩個根本性的缺陷，就像一個廚師雖然廚藝精湛，但只會在廚房裡慢慢做，既不能外賣配送，也不接受現場點餐。

贊助商廣告

第一個缺陷是"慢"。生成一段影片需要對大量時空數據進行反覆運算，就像你要做一道需要醃製三天的菜，不管你多擅長烹飪，時間就是省不掉。雖然研究人員想出了很多加速辦法，但這些辦法並沒有從根本上改變這道菜"要醃三天"的事實。

第二個缺陷是"沒法實時輸出"。這些模型必須把整段影片全部計算完成後，才能把第一幀畫面呈現給你看。這就好比你訂了一個蛋糕，師傅說等他把整個蛋糕做好才肯給你，哪怕你就是想先舔一口奶油也不行。這種方式天然無法支持實時互動。

為了解決實時性問題，研究人員開始探索"流式"和"自回歸"影片生成——也就是說，模型每次只生成一小塊畫面，然後把這小塊當作背景，再生成下一小塊，就像一位畫家從左到右一筆一筆畫出一幅畫，而不是一下子把整張紙填滿。但現有的流式影片生成方法仍然有三個讓人頭疼的問題。

其一，它們幾乎全都只管畫面，不管聲音，或者只把聲音當作輸入條件，而不是同時生成音影片，這就像一部無聲電影配了字幕，根本不像真人在說話。其二，生成的時間一長，錯誤就會越積越多，就像一場傳話遊戲，傳到第十個人時內容已經面目全非。第三，雖然有些方法聲稱能實時生成，但實際上必須用多張GPU才能實現，這對大規模社交平台來說成本太高，根本行不通。

正是在這個背景下，MaineCoon出現了。

---

二、社交影片有它自己的"物理規律"

Catnip AI團隊提出了一個很有意思的觀察：社交影片和電影影片根本是兩種完全不同的東西，它們遵循著不同的"物理規律"。

電影是一種"精心設計的藝術品"。導演會仔細布置場景，調整光線，思考構圖，畫面里的人物更多是在演繹故事。而社交影片追求的是一種叫"真實感"（研究團隊稱之為"liveness"）的東西——那種讓人覺得"螢幕對面真的有一個活生生的人在跟我說話"的感覺。這種感覺不是靠宏大場景營造出來的，而是靠極其細膩的人類信號傳遞的：眼神的方向是否穩定、微表情的變化、說話時的語氣和節奏、手勢的時機，以及聲音里流露出的情緒。

贊助商廣告

在研究團隊看來，一段好的社交影片應該是自然的、以人為中心的，而不是擺拍的；說話、嘴部動作和面部表情之間必須高度同步；整體要在時間維度上保持一致性和連貫性。這些特質恰恰是社交世界模型需要學習生成的核心能力。

基於這個理解，團隊提出了"社交世界模型"的概念。傳統世界模型關注的是物理環境——預測一個球怎麼彈起來，或者一輛車怎麼轉彎。而社交世界模型關注的是人類社交互動本身——它需要主動觀察用戶、在內部模擬社交動態，並且實時做出反應。人類的社交互動有它自己的"社交物理學"，是一套高度結構化的、多模態的行為規則，一個模型可以通過自回歸的方式來學習這些規則。

簡單說，就是讓AI真正理解"人與人之間的對話是怎麼運轉的"，然後能夠參與進來，而不只是旁觀並複製。

---

三、做好數據：垃圾進去，垃圾出來

再好的模型，如果餵給它的數據不對，也會跑偏。MaineCoon的訓練數據體系，是整個研究中非常精妙的一部分，就像一位頂級廚師在正式烹飪前，會花大量時間精心挑選和處理食材。

研究團隊構建了兩條互補的數據來源。第一條是合成數據流水線，第二條是真實社交影片流水線。兩條流水線生產的數據最終匯合在一起，形成訓練用的數據集。

合成數據的生成過程非常有趣，可以把它理解為"讓一個AI導演來寫故事，然後讓另一個AI演員來演"。具體來說，團隊使用了一個類似導演思維的語言模型，從一個涵蓋225個場景、10個主題分組、15種視覺風格和12種鏡頭類型的分類體系中，隨機抽取場景組合，然後把一個連貫的故事分解成三到四段相互銜接的片段，每段大約五秒。在這幾段里，人物的外觀和身份保持不變，但鏡頭角度、動作、對話和聲音會隨著故事發展而變化。第一段用"文字生成影片"的方式生成，後續每段都用上一段的最後一幀作為起始圖像，用"圖像生成影片"的方式續接，這樣整個故事就自然地保持了視覺連貫性。

贊助商廣告

生成出來的片段還需要過一道質量關卡。系統會從影片質量、音頻質量、音影片同步程度和文字描述質量四個維度給每個片段評分，還會調用Gemini-3.1-flash這個視覺語言模型來判斷影片畫面是否和文字描述一致。只有綜合評分超過門檻的片段才能進入訓練數據集。更關鍵的是，這些倖存下來的片段不只是保存最終影片，連生成過程中的每一步中間狀態也一併保存下來，以便後續訓練步驟復用。

真實社交影片的處理流程則更像是一個嚴苛的淘汰賽。團隊從數以千萬計的原始社交媒體短影片中，經過四道關卡逐步篩選出有用的訓練數據。第一道關卡是低級過濾，剔除幀率異常、解析度不合格的影片，用TransNetV2工具把影片切割成單個連續鏡頭，再用EasyOCR過濾掉畫面中有持續文字覆蓋（如字幕、水印）的片段。第二道是高級過濾，重點確保每個片段里只有一個清晰可見的人在對著攝影機說話：先用SCRFD人臉檢測器過濾掉沒有人臉的內容（這一步能過濾掉將近一半的候選片段），再用音頻頻譜分析剔除多人同時說話的片段，最後用SyncNet工具驗證嘴部動作和音頻是否同步，不匹配的統統淘汰。第三道關卡是語音轉錄，先用Demucs工具把人聲從背景音樂和環境噪音中分離出來，再用faster-whisper進行語音識別，生成帶時間戳的對話文本，作為後續訓練時的文字條件輸入。第四道是編碼和分桶，把每個片段規範化到模型能處理的特定幀數格式，並統一縮放到832×480（橫向螢幕）或480×832（直向螢幕）兩種固定解析度。

然而數據工作還沒結束。研究團隊發現，通過上述流水線篩選出來的真實影片，大量都是"近景低動態說話人"——也就是對著攝影機靜靜說話的那種，而遠景、高動態、多人互動的片段極少。如果直接用這批數據訓練，模型就會變得只擅長生成"說話影片"，遇到跳舞或多人場景就會表現很差。為此，團隊又做了一輪專項篩選，把數據按場景類型分類，刻意上調難度較高的類型的權重，形成一個"領域均衡"的訓練集專用於後訓練階段。

贊助商廣告

---

四、為什麼要搞個專門的社交影片評測標準

在正式講訓練方法之前，有必要介紹一下研究團隊引入的新評測基準SocialVideo Bench，因為它說明了這項研究的視角與以往的本質差異。

現有的影片生成評測基準大多關注的是通用場景，比如物體運動、自然場景、室內場景等等，對於以人為核心、以社交為目的的影片內容覆蓋極為有限。為了填補這個空白，Catnip AI團隊構建了SocialVideo Bench，包含700個評測樣本，均勻分布在七個有代表性的社交影片類別中：密集演講（持續說話、敘述和獨白）、雙人互動（對話、採訪、辯論）、音樂與聲樂（唱歌、樂器表演）、情感表演（表情化的言語和面部情緒變化）、舞蹈（有明顯身體律動的表演）、創意壓力測試（人類動作與複雜音效的創意組合）、以及社交梗（包含幽默、反轉和誇張反應的內容）。

每個評測樣本由兩段連續的10秒片段組成，在第10秒處會切換一次文字描述提示，這樣就同時測試了生成質量和在提示變化時保持連貫性的能力。評測指標覆蓋九個維度：視覺質量、運動質量、音頻質量、文字-影片對齊度、文字-音頻對齊度、音影片語義一致性、音影片時間對齊度、音影片和諧度，以及一個綜合性的聯合音影片整合得分（JAVIS）。

---

五、訓練這個"即興演員"的秘密配方

現在進入技術核心。訓練MaineCoon這個即興演員，用了四種相互配合的方法，每一種都針對了一個具體的難題。

第一種方法叫做"自回歸流式訓練配合自我重採樣"。這裡需要解釋兩個概念。"自回歸"的意思是模型每次只生成一小塊（稱為"塊"）輸出，然後把這塊輸出放進自己的"記憶"里，作為生成下一塊的參考。"流式"的意思是整個生成過程是連續進行的，就像水流一樣不間斷。

問題在於，訓練時如果總是給模型看"完美的"歷史記錄（也就是真實數據），模型就會"被寵壞"——它只學會了在歷史記錄完美無缺時怎麼生成下一塊，但一旦遇到自己之前生成的、有些許瑕疵的歷史記錄，就會不知所措，錯誤越來越大，影片越來越奇怪。這就像一個人從小只在安靜的書房練習樂器，第一次上台表演時被觀眾的咳嗽聲一干擾就全忘了。

贊助商廣告

為了解決這個問題，研究團隊引入了"自我重採樣"技術。在訓練過程中，模型會周期性地被要求用自己之前生成的（略帶瑕疵的）輸出作為歷史上下文來繼續生成，而不總是用乾淨的真實數據。比例逐漸增加：早期訓練時90%用真實數據、10%用自己的輸出，隨著訓練推進，自己輸出的比例越來越高。這樣，模型就學會了"糾錯"——即使歷史上下文不完美，也能穩定地生成高質量的下一塊內容。這就像讓那個樂手在有噪音干擾的環境裡反覆練習，慢慢就能做到處變不驚。

第二種方法叫做"流式表示對齊"。訓練一個大型影片生成模型很慢的原因之一，是模型需要很長時間才能"懂得"影片內容的語義。表示對齊的思路是：既然已經有訓練好的、能深刻理解影片內容的"專家模型"（研究團隊選用的是V-JEPA 2，一個由Meta開發的自監督影片理解模型），不如讓MaineCoon在訓練時向這位專家"對齊"——不是直接模仿專家的輸出，而是讓自己內部對影片的"理解方式"和專家相近。具體方法是，在訓練的同時，對比MaineCoon內部中間層對影片片段的特徵表示和V-JEPA 2的特徵表示之間的相似度，鼓勵兩者結構接近。這樣做的效果是，MaineCoon不需要從零開始"理解"影片內容，大大加速了訓練進程，也讓生成的影片在語義層面更加連貫。

第三種方法是"基於領域感知的偏好優化與強化在線策略蒸餾（ROPD）"。這個名字聽起來很複雜，但背後的邏輯其實很直觀。

問題背景是：不同類型的社交影片有不同的質量要求。跳舞影片要求身體動作大而連貫；遠景多人對話影片要求每個人的身份始終清晰；近景演講影片要求嘴部動作和聲音高度同步。如果把所有要求混在一起訓練一個模型，這些要求會互相干擾，模型會變得什麼都做得不夠好。

解決方案是"專業化再整合"的策略。第一步，為五種最難的場景類型（遠景、多人對話、高動態、動畫風格、舞蹈）各自訓練一個"領域專家"——每個專家只是在主模型上加了一個小型的專用適配器（LoRA）。訓練這些專家時使用的是"偏好優化"方法：給專家看"好的示例"（從真實數據中選出來的高質量片段）和"差的示例"（模型自己生成的低質量結果），讓專家學會區分好壞並向好的方向靠近。

贊助商廣告

第二步是更關鍵的"強化在線策略蒸餾"。目標是把五個專家的能力都整合進一個統一模型里，而不是在推理時來回切換五個專家（那樣太麻煩了）。做法是：讓統一模型生成一批候選輸出，用各個領域專家來評判這些候選輸出，然後根據評判結果，動態調整每個候選輸出的目標——失敗的候選向對應的專家多學習，成功的候選則主要依靠自己的能力。整個過程結束後，五個專家都被"解散"，最終只剩下一個融合了所有能力的統一MaineCoon。

第四個部分是步驟蒸餾，簡單說就是將原本需要多步才能完成的生成過程壓縮成四步，實現速度的極大提升，同時保持畫質幾乎不損失。

---

六、讓AI能永不停歇地"直播"：智能流式推理框架

訓練好模型只是第一步。要讓MaineCoon真正變成一個能持續運行的"AI主播"，還需要一套精心設計的推理框架。研究團隊把這套框架稱為"智能流式推理框架"，由三個相互協作的"控制器"組成，就像一個小型的AI運營團隊。

第一個控制器是"智能規劃者與觀察者"，相當於這個運營團隊裡的總導演。它使用了Gemma 4 26B這個本地部署的大型語言模型來擔任這個角色。導演有兩項職責：一是規劃，即提前為每一個生成"節拍"寫好結構化的提示——包括視覺描述、要說的台詞，以及環境音效——保證故事永遠不會結束，也不會重複；二是觀察，即實時監控生成中的影片是否出現了質量下降的跡象。

觀察這個動作非常巧妙：由於生成速度比播放速度快，導演看到的是比觀眾提前幾秒的畫面，相當於在觀眾看到之前就能發現問題並採取行動。發現問題後，導演不會"重啟"直播（那會讓觀眾看到突兀的跳躍），而是採用一套從輕到重的"向前修復"策略：先是在下一個提示里刷新對人物外觀的描述，如果還不行就重拍這個節拍，實在不行就推動一個敘事轉折，引導故事走出當前的降質狀態，讓新內容逐漸稀釋舊的問題。整個過程對觀眾完全透明。

贊助商廣告

第二個控制器是"智能緩存管理器"，相當於運營團隊裡的"記憶管家"。AI模型生成內容時，會把用過的資訊儲存在一個叫KV緩存的地方，供後續生成時參考——可以理解為模型的"工作記憶"。對於一個永不停歇的直播來說，這個記憶要是一直增長就會撐爆，但要是完全清空又會讓模型"失憶"，忘記主播長什麼樣。

緩存管理器採用了一個聰明的解決方案：維護一個精心策劃的"必要記憶保留集合"，這個集合始終只保留最重要的那些資訊塊——開場建立的場景基準、主角身份資訊、場景的關鍵幀、以及最近的若干幀。其他的資訊塊則被逐出緩存。這樣，緩存大小始終保持在模型被訓練時能處理的範圍內，計算量恆定，不隨直播時長增長。

在這個框架下，還有兩種防漂移機制。一種是"統計錨定"：每次把一塊內容存入緩存時，先對它的顏色和亮度統計特性做一個輕微的校正，使其向開場時建立的參考標準靠近，防止畫面顏色在長時間運行後慢慢偏移。另一種是"主體錨定"：在緩存里永久保留一小塊專門記錄主角身份特徵的資訊，讓每一幀的生成都能"對照"這個身份記錄，防止主角的臉越來越不像自己。這兩種機制都只修改存入緩存的內容，不修改已經輸出給觀眾的影片，所以觀眾看到的始終是AI的原始輸出，沒有事後篡改。

第三個控制器是"智能前瞻緩衝區控制器"，處理的是一個微妙的時間管理問題。MaineCoon在單張H100 GPU上的生成速度大約是每秒32幀，而實際播放速度是每秒25幀。這意味著生成速度比播放速度快，時間一長，會積累出一段"已經生成但還沒被觀眾看到"的影片緩衝區。

這個緩衝區是把雙刃劍。一方面，它是一個寶貴的時間墊，讓導演控制器可以在觀眾看到之前就發現並修復問題；另一方面，它也意味著當用戶發出互動指令時，這條指令不能立即改變已經生成好的那段影片，會有一個響應延遲。緩衝區越大，系統就越流暢、前瞻修復能力越強，但用戶交互響應就越慢。

贊助商廣告

控制器通過"速率門"來管理這個平衡：當緩衝區太大時，踩剎車，讓生成速度放慢；當緩衝區太薄時，踩油門，全速生成。另外，系統的換題時機也不是靠計時器決定的，而是靠識別當前這句台詞是否已經說完來決定——只有當前台詞說完了，才切換到下一個提示，所以台詞永遠不會被切斷。

---

七、實驗結果：它真的做到了嗎

在SocialVideo Bench上的測試結果相當清晰地回答了這個問題。

MaineCoon在九項指標中的六項上拿到了最高分，綜合得分達到0.934，比排名第二的模型高出約4.4個百分點。在最能全面反映音影片聯合生成質量的兩個指標上，MaineCoon的優勢格外明顯：音影片和諧度（AVH）從此前最佳的0.291提升到0.308，相對提升約5.8%；聯合音影片整合得分（JAVIS）從0.247提升到0.272，相對提升約10.1%。

參與對比的模型來自三個類別：雙向文字生成音影片模型（JavisDiT++、Ovi、JoyAI-Echo、MoVA、LTX-2.3基礎版及蒸餾版）、流式文字加音頻驅動影片模型（LiveAvatar、SoulX-FlashTalk）以及流式純文字生成影片模型（Causal Forcing、Helios-Distilled、Krea）。MaineCoon不僅超過了所有這些對手，而且是在"只用單張GPU、採用實時流式生成"這個更苛刻的條件下做到的。

速度上的差距更為懸殊。以訓練時的塊大小2來運行，MaineCoon已經能達到每秒31幀。把推理時的塊大小增大到6，速度進一步躍升至每秒47.5幀，且肉眼看不出畫質下降。相比之下，同類流式音影片生成模型LiveAvatar和SoulX-FlashTalk的速度只有每秒6至7幀，MaineCoon比它們快了將近7倍。更令人印象深刻的是，這個22B參數的模型甚至比一個只有13億參數的小型流式影片模型（Causal Forcing，每秒19.1幀）還要快。速度的來源是多方面的疊加：原生因果架構本身的效率、四步蒸餾的加速、KV緩存的復用，以及整個智能推理框架的協同優化。

---

八、這只是"社交世界模型"的第一步

贊助商廣告

研究團隊非常清楚地表明，MaineCoon只是一個起點，不是終點。他們為"社交世界模型"描繪了一幅更宏大的藍圖。

從數學上說，傳統世界模型預測的是"給定過去的狀態和一個物理動作，下一個狀態是什麼"，而社交世界模型預測的是"給定過去的視覺和聲音歷史，以及用戶的互動行為和情感狀態，下一個視覺和聲音狀態是什麼"。這看似只是公式里多了幾個變量，實則意味著AI的參照系發生了根本轉變：不再以背景物理為中心，而是以人的意圖和情感為中心。

為了實現完整的社交世界模型，研究團隊認為需要進一步引入"實時雙系統全雙工交互"能力。目前主流的AI對話系統都是半雙工的，意思是用戶說完，AI才能回應，就像一個對講機。真正的人類對話是全雙工的：你說話的時候我可以同時點頭、插嘴、發出"嗯嗯"的應答聲，甚至打斷你。要讓AI模擬這種體驗，需要把系統分成兩個並行運作的部分：一個"快速小腦"負責亞秒級的即時反應，比如跟上你的話、做眨眼和點頭等實時反射動作；另一個"規劃大腦"在後台異步運作，負責長期規劃、深度理解和記憶管理，偶爾向"快速小腦"提供策略指導。這樣的雙系統架構能讓AI既有即時的反應速度，又有深度的理解能力。

---

說到底，MaineCoon代表的是AI從"被動內容生產工具"向"主動社交參與者"轉變的一個關鍵探索。過去的AI影片生成器扮演的是攝影師的角色——你告訴它要拍什麼，它給你一個成品。而MaineCoon探索的方向是讓AI變成一個可以實時上台表演、隨時與你互動的演員。生成成本已經降至每秒不到0.001美元，這意味著這類技術進入消費級產品不再是遙不可及的事。

這對普通人意味著什麼？未來的社交平台上，可能會存在永遠不下線的AI主播，它們能記住每一個老粉絲，和你用你熟悉的方式對話，在任何時區、任何時刻都給你提供個性化的互動體驗。教育、娛樂、陪伴、客服——這些場景都會因為有了實時、低延遲、高質量的AI音影片生成能力而發生深刻變化。當然，這也帶來了關於真實性、信任和人機邊界的深層問題，值得每個人認真思考。

贊助商廣告

有興趣深入了解技術細節的讀者，可以通過arXiv:2606.17800v1查閱完整論文，Catnip AI團隊的官網mainecoon.tech上也有更多演示材料。

---

Q&A

Q1：MaineCoon是什麼，它和普通AI影片生成有什麼區別？

A：MaineCoon是Catnip AI團隊開發的一個220億參數的音影片同步生成模型，它最大的特點是能"實時流式生成"——也就是說，它不需要把整個影片算完再輸出，而是像直播一樣一邊生成一邊播放，並且同時生成畫面和聲音。普通AI影片生成器通常需要等幾十秒甚至幾分鐘才能拿到成品，而MaineCoon能在單張GPU上以每秒47.5幀的速度輸出，比播放速度還快，還支持不到一秒的交互響應延遲。

Q2：MaineCoon生成的影片能持續多久，會不會越來越模糊或者臉越來越奇怪？

A：研究團隊專門針對長時間生成的"漂移"問題設計了一套智能緩存管理機制。通過保留關鍵的場景基準幀和人物身份特徵，以及對每塊內容做輕微的顏色統計校正，系統能讓主角的外觀和畫面質量在長時間運行後保持穩定。論文中報告，使用這套機制，一個在約20秒片段上訓練的模型，可以穩定連續運行45分鐘而無明顯質量下降。

Q3：社交世界模型和現在的AI聊天機器人或者數字人有什麼本質區別？

A：現有的AI聊天機器人大多是文字交互的，即使有語音，通常也是半雙工的——你說完它才能回答。數字人大多是把預先錄好的動作和聲音拼接起來，而不是實時生成。社交世界模型的核心目標是讓AI能夠真正"感知"你當下的狀態，同時生成同步的視覺和聲音反應，整個過程是連續的、實時的、全雙工的。MaineCoon是邁向這個目標的第一步，它解決了實時音影片同步生成的底層技術問題，但完整的社交世界模型還需要加入主動觀察用戶、內部狀態模擬等更高層次的能力。