TwelveLabs完成1億美元B輪融資，專注AI影片理解技術

影片AI基礎模型開發商TwelveLabs今日宣布完成1億美元早期融資，旨在突破簡單的影片理解邊界，向全面智能化邁進。

贊助商廣告

本輪B輪融資由NEA與NAVER Ventures聯合領投，亞馬遜、Radical Ventures、Korea Investment Partners、Index Ventures、Quadrille Capital以及Red Bull Ventures參與跟投。此輪融資完成後，TwelveLabs累計融資總額已超過2.07億美元。

"五年前，我們做出了一個逆向押註：機器智能的底層基礎是運動中被記錄的現實，而非語言。"聯合創始人兼首席執行官Jae Lee表示，"語言是理解的下游產物，影片才是理解真正需要回答的數據。"

TwelveLabs憑藉自研技術，在影片AI領域構建了前沿基礎模型，具備真正的影片理解能力。該公司從底層出發，打造了原生理解影片的多模態模型，而非簡單在大語言模型上疊加影片處理能力。

公司旗下核心產品包括Marengo模型系列（去年底發布了3.0版本）以及Pegasus 1.5模型。

Marengo實現了對影片、音頻、文本及內容構成的真實AI向量嵌入，能夠解析多種類型的內容，並將其存入向量資料庫等機器可讀數據結構，從而使AI模型能夠大規模理解和檢索相關資訊。

Pegasus則與Marengo協同工作，將影片轉化為結構化數據。它能夠識別場景邊界、實體對象、時間片段以及事件內容，使大語言模型得以對視覺資訊進行推理。其工作方式類似於大語言模型處理長文檔和圖像的機制——通過標記語言對內容進行摘要，以便於理解。

當前的大語言模型無法一次性處理完整影片，只能將其切分為一系列截圖幀再進行推理。TwelveLabs表示，公司構建了一種原生理解時序變化的推理能力——模型在多次查詢之間保持持續記憶，而非每次查詢後清空狀態，使智能隨著處理影片數量的增加不斷積累深化。

公司表示，藉助上述模型，將致力於建立影片感知的全新範式，打造一套能夠讓機器分析、檢索和利用影片素材的完整系統。

贊助商廣告

該技術的應用場景橫跨安全監控、廣告營銷、體育分析和汽車行業等多個領域，這些行業均擁有海量的影片資訊資產。

在本輪融資的同時，TwelveLabs也進一步深化了與亞馬遜雲科技（AWS）的合作關係。公司服務自2025年起已在AWS Marketplace上線，並可通過Amazon Bedrock託管訪問基礎模型。AWS目前已是TwelveLabs的首選雲服務提供商。隨著此次投資落地，公司還簽署了一項多年期承諾，將影片推理工作負載專項優化至AWS Trainium晶片上，未來新一代前沿模型也將率先在AWS平台發布。

Q&A

Q1：TwelveLabs的Marengo和Pegasus模型分別有什麼功能？

A：Marengo負責對影片、音頻和文本進行AI向量嵌入，將內容存入向量資料庫，讓AI模型能夠大規模理解和搜索資訊。Pegasus則將影片轉化為結構化數據，識別場景邊界、實體對象和時間片段，使大語言模型能夠對視覺內容進行推理，類似大語言模型處理長文檔的方式。兩者協同工作，共同構建完整的影片理解能力。

Q2：TwelveLabs的影片AI技術和普通大語言模型處理影片有什麼區別？

A：普通大語言模型無法直接處理影片，只能將影片切分成一系列截圖幀再進行推理，且每次查詢後記憶會清空。TwelveLabs則從底層構建了原生理解影片的多模態模型，能夠理解時序變化趨勢，並在多次查詢間保持持續記憶，讓模型隨處理影片數量增加而不斷積累智能。

Q3：TwelveLabs的影片理解技術主要用在哪些行業？

A：TwelveLabs的影片AI技術應用場景廣泛，主要覆蓋安全監控、廣告營銷、體育分析和汽車行業等影片數據密集型領域。這些行業擁有大量影片資產，藉助TwelveLabs的技術，可實現對影片內容的自動分析、智能檢索和業務化應用，大幅提升影片數據的利用效率。