或許你對 Lightricks 這個名字並不熟悉,但對於活躍在社交媒體上、熟悉P圖的用戶來說,它旗下的 Facetune 幾乎是家喻戶曉的存在。這家總部位於以色列的公司,憑藉 Facetune、Videoleap 等一系列橫跨圖片編輯和短影片製作的成功產品,在全球消費級創意應用市場積累了深厚的技術實力和用戶基礎。
就在前兩天,Lightricks 正式發布了他們最新的AI影片生成模型—— LTX Video 130億參數模型 (LTXV-13B)。模型一經發布,便迅速在網路上引起了熱潮。
LTXV-13B最引人注目的有兩點:第一,它在生成高質量 AI 影片方面的效率顯著提升,速度比現有同類模型快達 30 倍;第二也是更關鍵的是,它打破了高端硬體的桎梏,聲稱能夠運行在消費級 GPU 上,無需依賴昂貴的企業級設備。
這意味著什麼?Lightricks 聯合創始人兼 CEO Zeev Farbman 在接受採訪時給出了他的解讀:「130 億參數的 LTX Video 模型是 AI 影片生成領域的一個重要進展,它讓在消費級 GPU 上快速生成高質量影片成為可能。」 他進一步指出,這將使用戶能夠以更高的一致性、更好的質量和更精細的控制來創作內容。
突破「顯存」瓶頸:AI影片普惠化的關鍵一步
我們不妨先回顧一下 AI 影片生成當前面臨的核心技術挑戰。長期以來,高性能 GPU,尤其是其配備的大容量顯存(VRAM),一直是橫亘在普通用戶面前的一道「高牆」。像 Runway、Pika、Luma 等在文生影片領域走在前沿的模型,通常需要依賴於配備 80GB 甚至更高顯存的企業級 GPU 集群進行訓練和推理。
對計算資源的極度依賴,導致這些模型大多部署在雲端。對於絕大多數個體創作者或小型團隊而言,本地部署幾乎不現實,他們不得不依賴昂貴的雲服務。這不僅推高了使用成本,按時計費的模式也在一定程度上限制了創作者自由探索和快速疊代的靈活性。
LTXV-13B 的核心價值,恰恰在於其對這一硬體瓶頸的突破性嘗試。Farbman 解釋說,消費級和企業級 GPU 最主要的分界線就在於顯存容量。例如,英偉達面向普通消費者的 RTX 3090 和 4090 最高顯存為 24GB,最新的 5090 也只有 32GB,與企業級顯卡動輒 80GB 的顯存相去甚遠。
Lightricks 的新模型,正是設計來在這些相對有限的顯存條件下高效運作。「即使是完整模型,無需任何量化或近似處理,也能在 RTX 3090、4090、5090 等頂級消費級 GPU 及其筆記本版本上運行。」 Farbman 確認。這無疑是 AI 影片生成走向「民主化」、降低門檻的關鍵一步。
「多尺度渲染」:從藝術家流程中汲取靈感
那麼,LTXV-13B 是如何做到在有限顯存下實現高效運行的?其背後的技術「秘密武器」,是 Lightricks 稱之為「多尺度渲染」的創新方法。Farbman 將其描述為「本次發布中最大的技術突破」。
他解釋說:「這一技術使得模型能夠逐步細化生成過程。模型並非一次性渲染完整畫面,而是模仿藝術家的創作流程:先在粗略的網格上構建場景和物體運動的初步框架,隨後將畫面分解成一個個區域或『圖塊』,並對每個圖塊逐步添加高精度的細節。」
這種「分而治之」、逐層細化的渲染策略,巧妙地將模型的峰值顯存需求限制在處理單個「圖塊」所需的內存,而非一次性處理整個最終輸出解析度所需的內存。顯存的占用峰值被有效控制在較低水平。
此外,模型採用了更緊湊的潛在空間(latent space)表示,進一步優化了內存使用效率,在保證生成質量的同時,進一步減少了顯存需求。Lightricks 提供的性能數據顯示,LTXV-13B 生成一段影片僅需 37.59 秒,相比競品動輒上千秒的耗時,速度提升近 40 倍,這正是其底層高效架構和創新技術帶來的直接成果。
圖片來源:Lightricks
技術之外的棋局:開源、合規與獨特的商業模式
在技術層面實現突破的同時,Lightricks 在商業和生態策略上也走出了一條差異化路徑。在當前不少頂尖 AI 模型走向閉源或 API 收費的趨勢下,Lightricks 卻選擇將 LTXV-13B 完全開源,代碼託管在 Hugging Face 和 GitHub。
Farbman 對此的解釋是,開源能有效降低自身的研發成本,並藉助全球開發者社區的力量加速模型疊代。通過社區的廣泛使用和貢獻,Lightricks 能夠更專注於模型的整體規劃和「策展」,發現和整合最有價值的改進方向。
另一個關鍵點是數據合規。隨著針對抓取數據訓練模型引發的法律爭議增多,模型的「純淨度」對商業應用至關重要。Lightricks 選擇與內容巨頭 Getty Images 和 Shutterstock 建立合作,獲取授權數據進行模型訓練。
Farbman 坦言,儘管數據收集仍存在法律灰色地帶,但對於有嚴格合規要求的企業客戶而言,提供基於「乾淨」數據的模型至關重要。這些合作旨在確保模型用於商業應用的法律合規性,尤其是在對版權要求嚴格的企業級市場,這構成了 Lightricks 的差異化競爭優勢。
在商業化模式上,Lightricks 更是採取了分層策略:對年收入低於 1000 萬美元的企業,提供免費許可。
Farbman 坦言,這不是為了直接從小型創作者那裡賺錢,而是為了快速擴大模型使用範圍,積累用戶和生態,證明模型價值。真正的商業化目標是那些通過模型取得顯著商業成功(年收入超過 1000 萬美元)的大公司,屆時將參照遊戲引擎等模式協商許可協議。這是一種典型的平台或生態型商業策略,通過前端免費或低門檻,吸引海量用戶和應用,再從頂部的商業化項目中獲取回報。
AI 影片生成正影響動畫製作領域
儘管 LTXV-13B 在硬體兼容性和效率上取得了顯著進展,Farbman 仍坦承,AI 影片生成距離「好萊塢電影級」水準尚有距離。當前的生成效果可能在細節、一致性等方面仍有提升空間,但它已經能在特定領域發揮價值。
LTXV-13B 模型在單個消費級 GPU 上渲染的兩隻兔子 | 圖片來源:Lightricks
例如,模型當前就能在例如動畫製作中,大幅提升效率、降低成本。在高端動畫生產中,創意和故事構思只占預算一小部分,而耗時耗力的關鍵幀繪製則消耗大量資源。AI 輔助關鍵幀生成,正是 AI 在實際生產流程中「降本增效」的典型應用場景。
展望未來,Farbman 預測下一代 AI 影片模型將是「多模態」的,能夠整合影片、音頻、音樂等不同數據類型,並在統一的潛在空間中協同工作。這將使得如唇語同步等複雜任務變得更加容易處理,實現更自然、更全面的內容生成。
Lightricks LTXV-13B 模型作為其在這一領域的重要探索,現已開源,並計劃逐步集成到 Lightricks 旗下的創意應用平台,比如面向故事創作的 LTX Studio。這一系列動作,不僅是技術上的疊代,更是 Lightricks 試圖在 AI 影片生成這個新興賽道上,通過技術突破、開源策略和獨特的商業模式,重塑硬體邊界,構建自身生態的關鍵棋步。