宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

快手科技重磅發布:讓AI看懂複雜影片的「慢-快」雙眼系統

2025年09月23日 首頁 » 熱門科技

快手科技的研究團隊在2025年9月9日發布了一項令人矚目的研究成果——Keye-VL 1.5技術報告。這項由快手Keye團隊主導的研究,詳細介紹了一個能夠深度理解影片內容的多模態大語言模型。研究論文已發表在arXiv預印本平台上,編號為arXiv:2509.01563v3,感興趣的讀者可以通過https://kwai-keye.github.io/和https://huggingface.co/Kwai-Keye訪問相關資源,也可以通過https://github.com/Kwai-Keye/Keye獲取開源代碼。

當我們看電影或短影片時,大腦會自然地處理其中的畫面變化:對於激烈的動作場面,我們會全神貫注地觀察每一個細節;而對於相對靜止的對話場景,我們則會放鬆注意力,但仍能捕捉到重要資訊。快手科技的研究團隊正是受到這種人類視覺機制的啟發,開發出了Keye-VL 1.5這個革命性的影片理解系統。

這個系統最大的創新之處在於它的"慢-快"雙眼設計。就像人眼在觀看不同場景時會採用不同的注意力策略一樣,Keye-VL 1.5會智能地分配計算資源:當影片中出現重要變化時,"慢眼"會以高解析度仔細觀察每一個細節;而在相對平靜的場景中,"快眼"則會以較低解析度但更廣的時間跨度來監視整體情況。這種設計讓AI不僅能看清影片中的細節,還能理解時間序列中的複雜關係。

更令人驚訝的是,這個系統不僅能處理短影片,還能理解長達數小時的影片內容。研究團隊通過四個階段的漸進式訓練,讓模型的理解能力從處理8000個資訊單元擴展到128000個單元,這相當於讓一個人的注意力範圍擴大了16倍。同時,他們還開發了一套完整的訓練體系,讓AI不僅能準確理解影片內容,還能按照人類的喜好來回答問題。

在多項評測中,Keye-VL 1.5都表現出了超越同類產品的能力,特別是在影片理解任務上,它的表現堪稱業界標杆。這意味著未來的影片內容理解、自動字幕生成、影片搜索等應用都將迎來質的飛躍。

一、影片理解的困境與突破

想像你正在圖書館裡快速瀏覽一本厚重的畫冊。有些頁面內容豐富、細節繁多,需要你仔細觀察;而有些頁面相對簡單,你只需要快速翻過。現有的AI影片理解系統就像一個只會用同一種速度看書的讀者,無論內容複雜還是簡單,都用相同的"閱讀速度",這樣既浪費了時間,又容易遺漏重要資訊。

影片內容具有天然的動態性和資訊密集性,這給AI理解帶來了前所未有的挑戰。一段普通的影片可能包含成千上萬幀畫面,每一幀都攜帶著豐富的視覺資訊。傳統的處理方法通常採用"一刀切"的策略:要麼統一選取固定數量的關鍵幀,要麼將所有幀降低到相同的解析度。這種做法就像用同一個模板裁剪所有不同的布料,必然會造成資訊的丟失或資源的浪費。

快手團隊面臨的核心問題是如何在有限的計算資源下,既要保證對重要畫面的精細理解,又要維持對整個影片時間軸的全局把握。這就好比一個攝影師同時需要拍攝微距特寫和全景畫面,但只有一台相機的窘境。傳統方法往往在空間解析度和時間覆蓋範圍之間難以平衡,要麼看得清楚但看得不全,要麼看得全面但看不清楚。

為了解決這個根本性矛盾,研究團隊提出了革命性的"慢-快"影片編碼策略。這個策略的靈感來源於人類視覺系統的工作原理。當我們觀看體育比賽時,在運動員快速移動的關鍵時刻,我們的注意力會高度集中,大腦會調動更多資源來處理這些複雜的視覺資訊;而在比較平靜的時段,比如運動員在準備階段,我們的注意力會相對放鬆,但仍然保持基本的監控。

這種生物學啟發的設計理念被巧妙地轉化為技術實現。系統首先會分析影片中相鄰畫面之間的相似性。當畫面變化較小時,說明這段時間內的資訊相對穩定,系統就啟動"快通道",用較低的解析度但更密集的採樣來處理這些幀;當畫面出現顯著變化時,比如場景切換或重要動作發生,系統就切換到"慢通道",用更高的解析度來精細分析這些關鍵時刻。

這種自適應的處理方式帶來了顯著的優勢。首先,它大大提高了計算效率,避免了對平靜場景的過度分析;其次,它確保了對關鍵資訊的充分捕捉,不會因為資源限制而錯過重要細節;最重要的是,它保持了對整個影片時間軸的連貫理解,讓AI能夠建立起完整的時空關係圖譜。

研究團隊在設計這套系統時,還考慮了實際應用中的各種複雜情況。比如,當一個鏡頭中同時包含快速運動的前景和相對靜止的背景時,系統會基於畫面的整體變化程度來做出判斷,既不會因為局部的微小變化而過度反應,也不會因為整體的相對穩定而忽視重要的局部變化。

二、漸進式訓練:從新手到專家的成長之路

培養一個優秀的影片分析專家需要循序漸進的訓練過程,不可能一蹴而就。快手團隊設計的訓練方案就像一個精心規劃的學習課程,分為四個逐步深入的階段,讓AI從基礎的圖像識別能力發展到複雜的影片推理能力。

第一階段可以比作"基礎視覺訓練"。在這個階段,系統需要學會基本的視覺識別能力,就像人類嬰兒最初學會區分不同的顏色和形狀一樣。研究團隊使用了SigLIP-400M-384-14作為視覺編碼器的基礎,這相當於給AI配備了一雙經過基礎訓練的"眼睛"。但是,原始的SigLIP只能處理固定尺寸的圖像,就像一個只會看標準照片的人突然面對各種奇形怪狀的畫面會感到困惑。

為了讓AI能夠適應各種解析度和寬高比的視覺內容,研究團隊對視覺編碼器進行了"手術級"的改造。他們引入了原生解析度處理技術,讓AI能夠保持圖像的原始結構完整性,避免了傳統方法中常見的圖像裁剪或變形問題。同時,他們還加入了二維旋轉位置編碼技術,這就像給AI裝上了一個精密的空間定位系統,讓它能夠準確理解圖像中各個元素的相對位置關係。

第二階段是"跨模態對齊訓練",這個過程就像教會AI將看到的內容和聽到的描述聯繫起來。想像一個外國人剛到中國時,雖然能看懂圖片,但不知道如何用中文描述所看到的內容。這個階段的訓練就是要建立視覺資訊和語言資訊之間的橋樑。研究團隊在這個階段凍結了視覺編碼器和語言模型的參數,只訓練中間的投影層,這種做法確保了基礎能力的穩定性,同時專注於建立兩種模態之間的映射關係。

第三階段是"多任務全面訓練",相當於讓AI接受全科醫生的培訓。在這個階段,所有的模型參數都被解凍,系統開始學習處理各種複雜的視覺語言任務。研究團隊精心準備了包含圖像描述、光學字符識別、目標定位、視覺問答等多種任務的訓練數據。這種多任務學習方式讓AI不僅能專精某一項技能,還能在不同任務之間遷移和整合知識,形成更全面的理解能力。

最後一個階段是"長上下文退火訓練",這是整個訓練過程中最關鍵的環節。在前面的階段中,AI處理的資訊長度被限制在8192個token,相當於只能看短篇文章。但真正的影片理解往往需要處理更長的內容序列,就像理解一部完整的電影需要把握整個故事脈絡一樣。在這個階段,研究團隊將上下文長度擴展到131072個token,增長了16倍。

這種擴展並不是簡單的數字增加,而是涉及到整個系統架構的重大調整。研究團隊需要重新設計內存管理策略,採用更加複雜的並行計算方案,確保系統能夠穩定處理如此大規模的資訊。同時,他們還調整了訓練數據的配比:24%用於影片內容,50%用於圖像內容,剩餘26%用於純文本內容。這種精心設計的配比確保了系統在擴展長度能力的同時,不會損失在基礎視覺和語言任務上的表現。

整個訓練過程就像培養一個全能型人才,從基礎技能訓練開始,逐步增加任務複雜度和資訊處理量,最終培養出能夠處理各種複雜影片理解任務的AI專家。每個階段都有明確的目標和科學的設計,確保AI能夠穩步成長而不會出現能力倒退或不穩定的情況。

三、訓練後精雕細琢:讓AI更懂人心

即使一個AI系統掌握了基本的影片理解能力,要讓它真正為人類服務,還需要經過細緻的"人格塑造"過程。這就像一個技藝高超但不懂禮貌的工匠,雖然能做出精美的產品,但如果不學會與客戶溝通,就無法提供令人滿意的服務。快手團隊設計的訓練後優化方案,就是要讓AI不僅能準確理解影片內容,還能以人類喜歡的方式來表達和互動。

這個過程分為幾個重要環節。首先是"非推理階段"的基礎調優,包括監督微調和模型偏好優化。監督微調就像給AI上禮儀課,教會它如何按照標準格式回答問題。研究團隊準備了超過750萬個多模態問答樣本,涵蓋了各種可能的交互場景。這些數據不是隨機收集的,而是經過精心篩選和平衡的。團隊使用了TaskGalaxy框架,將數據按照7萬種不同的任務類型進行分類,確保AI能夠應對各種可能遇到的情況。

為了保證數據質量,研究團隊採用了多層過濾機制。對於大量的中等質量數據,他們使用CLIP評分進行初步篩選;對於少量的高質量數據,則使用開源的多模態大語言模型作為判別器。這種做法就像招聘時既要看簡歷又要面試一樣,確保進入訓練的每一條數據都有價值。

模型偏好優化階段則更像是教AI學會察言觀色。系統需要學會在多個可能的回答中選擇最符合人類期望的那一個。研究團隊構建了包含25萬個開源樣本、15萬個純文本樣本和2.6萬個人工標註樣本的偏好數據集。通過對比高質量和低質量回答的差異,AI逐漸學會了什麼樣的回答更受人類歡迎。

接下來是"推理能力強化"階段,這是整個訓練過程中最具挑戰性的部分。研究團隊開發了一套五步驟的思維鏈數據構建流程,就像教會AI進行系統性思考一樣。這個過程從多源數據收集開始,涵蓋數學推理、科技問題、邏輯推理、目標定位等多個複雜領域。

在數據增強環節,研究團隊使用專有的多模態大語言模型對原始問題進行重寫和任務合併,將簡單直接的問題轉化為需要多步推理的複雜挑戰。這就像將單選題改造成需要寫出完整解題過程的應用題,不僅要求AI給出正確答案,還要求它展示清晰的思考路徑。

多路徑推理生成是這個階段的核心創新。對於每個增強後的問答對,系統會生成多個不同的推理路徑,就像解決同一個問題可以有不同的方法一樣。研究團隊還引入了置信度量化機制,在步驟級別和整體響應級別都計算模型的確信程度。這種設計讓AI不僅知道答案是什麼,還知道自己對這個答案有多確定。

質量評估環節採用了雙層評估框架,既檢查答案的正確性,也檢查推理過程的合理性。研究團隊設計了靈活的匹配模式,能夠識別不同表達方式但本質相同的答案。比如數學答案會考慮公式等價性和單位轉換,文本答案會考慮語義相似性和表述變化。根據評估結果,所有樣本被分為三個等級:A級(高質量)、B級(中等質量,需要人工審查)、C級(低質量,直接丟棄)。

對於B級樣本,研究團隊實施了"人在迴路"的質量提升過程。人工審查員會對這些樣本進行精細化改進,修正冗長或重複的推理步驟,增強邏輯連貫性。這個過程確保了最終用於訓練的數據不僅正確,而且具有良好的教學價值。

為了優化數據利用效率,研究團隊還設計了動態質量評分系統,根據樣本對多模態能力的依賴程度進行1-5分的評價。得分較高的樣本會在訓練過程中被更頻繁地使用,這種策略化的數據運用方式確保了模型學習過程的高效性。

四、專業化與通用性的平衡藝術

在AI系統開發中,一個永恆的挑戰是如何在專業化和通用性之間找到平衡點。就像培養一個人才,既希望他在某個領域有突出專長,又不希望他在其他方面一竅不通。快手團隊在這方面採用了"專家模型融合"的創新策略,這種方法就像組建一個由各領域專家組成的智囊團,每個專家在自己的領域內表現卓越,同時又能協調合作解決綜合性問題。

研究團隊首先對基礎模型進行了全面的能力評估,發現了三個主要的薄弱環節:純文本處理、數學推理和光學字符識別。這就像發現一個優秀學生在語文、數學和英語三個科目上還有提升空間。針對這些不足,團隊決定為每個領域專門訓練一個專家模型。

以光學字符識別專家模型為例,這個專業化訓練過程相當精細。除了標準的OCR數據集,研究團隊還特別關注了車牌識別、街景標識和公章印鑑等特殊場景,這些都是實際應用中經常遇到但標準數據集覆蓋不足的情況。他們的增強策略包含三個關鍵要素:首先是利用圖像配對已驗證OCR標註的自動化數據生成流程,通過其他多模態大語言模型產生相關OCR問題,而原始標註作為標準答案確保正確性;其次是使用字體渲染工具合成高質量OCR樣本,包括多樣化的圖像背景、語義和非語義文本、多種字體風格和尺寸,以及各種圖像解析度;最後是結構化文檔和代碼理解任務,通過渲染保持原始布局的代碼和文檔,創建複雜的OCR任務。

這種專家模型訓練的效果顯著。OCR專家模型在所有評估的OCR基準測試中都實現了大幅提升,平均得分從基礎模型的78.25%提升到83.65%。更重要的是,通過模型融合技術,當專家模型與基礎模型合併後,性能進一步提升到84.51%,在TextVQA任務上的表現(83.40%)相比競爭對手MiMo-VL(75.57%)有了顯著優勢。

模型融合過程需要精確把握多個關鍵參數。研究發現,專家模型的訓練步數存在最優區間:步數太少無法充分掌握專業技能,步數太多則會與通用模型產生過大差異,影響融合效果。學習率的選擇同樣關鍵,較小的學習率能夠產生更好的專家模型性能,相應的融合模型表現也更優。

最有趣的發現是專家模型與通用模型之間的參數差異對融合性能有決定性影響。差異太小限制了專業領域的改進空間,而差異太大則會導致融合後的模型性能下降,存在一個需要精確把握的最優平衡點。這種現象就像調製雞尾酒,每種酒的比例都需要恰到好處,才能調出完美的口感。

為了驗證這種專家融合策略的普適性,研究團隊在數學推理和純文本處理領域也進行了類似的實驗。結果表明,這種方法不僅在特定領域內能夠顯著提升性能,還能保持模型在其他任務上的穩定表現,真正實現了專業化與通用性的完美平衡。

五、強化學習與智能提示系統

當AI系統掌握了基礎能力後,如何讓它在面對困難問題時也能堅持不懈地尋找解決方案,這是一個極具挑戰性的課題。快手團隊開發的"漸進提示採樣"系統,就像給AI配備了一個智能的學習助手,能夠在適當的時候提供恰到好處的指導,既不會直接告訴答案,又能夠幫助AI突破思維障礙。

這個系統的設計哲學基於"最小干預原則",就像一個優秀的老師不會直接告訴學生答案,而是通過巧妙的引導讓學生自己找到解決方法。研究團隊將提示分為五個遞進的層次,每一層都比前一層提供更多的指導,但都嚴格控制在不直接泄露答案的範圍內。

第一層是"概念觀察層",主要引導AI關注問題的核心概念或圖像中的關鍵特徵。這個層次的提示不包含任何解題方法或公式,只是幫助AI把注意力集中在正確的方向上。比如在處理幾何問題時,提示可能是"注意觀察這個三角形的特殊性質",而不會提及任何具體的定理或計算方法。

第二層是"策略方法層",會建議一種或多種可能的解題策略。這就像給迷路的人指出幾條可能的道路,但不會告訴具體怎麼走。提示可能包括"嘗試整體思考"、"考慮分情況討論"或"建立坐標系"等策略性建議,讓AI明白解決問題的大致方向,但仍需要自己細化具體步驟。

第三層是"工具公式層",會提供解決問題所需的特定數學定理、公式或工具。這個層次開始提供具體的知識支持,比如"你可能需要使用勾股定理"或"考慮使用積分方法"。但即使提供了工具,AI仍然需要自己決定如何使用這些工具來解決具體問題。

第四層是"步驟計算層",會提供問題解決過程中的第一個具體操作步驟。這就像在拼圖遊戲中給出第一塊拼圖的正確位置,為後續的解題過程建立一個可靠的起點。這個層次的提示讓AI能夠開始具體的計算或操作,但仍需要獨立完成剩餘的步驟。

第五層是"完整方案層",提供問題的完整解決方案。這個層次主要用作標準答案,當前四個層次都無法幫助AI得到正確結果時,這個完整方案可以作為學習材料。

實驗結果顯示了這種分層提示系統的顯著效果。在沒有任何提示的情況下,約有25.56%的困難樣本完全無法得到正確解決,這嚴重影響了強化學習過程的效率。隨著提示層次的提升,錯誤率逐步下降,到第五層時錯誤率降至僅0.20%。同時,四次嘗試的平均得分也從無提示時的1.62分提升到完整方案提示時的3.96分,標準差從1.18降低到0.28,說明結果的穩定性也大大提升。

這種漸進提示系統的巧妙之處在於它能夠為每個困難樣本找到最適合的幫助程度。對於只需要輕微引導就能解決的問題,系統會停留在較低的提示層次;對於確實困難的問題,系統會提供更多支持,但始終保持讓AI自主學習和推理的空間。這種動態調整的能力確保了強化學習過程既高效又有教育價值。

為了進一步提升訓練效果,研究團隊還設計了疊代循環機制。AI模型會使用強化學習模型對原始訓練數據進行重新採樣,通過獎勵模型評分篩選出比原始標準答案更好的新答案。這些改進的數據會替換原始數據,用於訓練下一輪的模型。這個過程會持續多輪,每一輪都在前一輪的基礎上進一步提升,形成螺旋上升的改進軌跡。

六、人類偏好對齊的精細化訓練

讓AI系統不僅能夠準確完成任務,還能以符合人類期望的方式進行交互,這是現代AI開發中的重要挑戰。快手團隊在這個方面投入了大量精力,開發了一套全面的對齊訓練系統,這個系統就像培養一個懂得社交禮儀的專業助手,既要有紮實的專業能力,又要有良好的服務意識和溝通技巧。

對齊訓練的第一個維度是"指令遵循能力"的提升。這涉及到AI對用戶需求的準確理解和恰當響應。研究團隊設計了25種硬性約束和20種軟性約束來測試和訓練這種能力。硬性約束包括關鍵詞包含、標點符號使用、發音要求、輸出格式等具體要求,這就像給AI制定了明確的行為規範;軟性約束則涉及文本風格和語義表達,更多體現在細微的表達差異上。

團隊構建了一個包含1.7萬個多模態數據和2.3萬個純文本數據的查詢集合,每個查詢都被分配了2到6種不同類型的約束條件。這種多約束的設計模擬了真實應用場景中用戶可能提出的複雜要求,訓練AI在滿足多重條件的同時保持響應的自然和有用性。

第二個重要維度是"格式adherence",即確保AI的回應嚴格遵循預定義的格式要求。這包括think-answer格式、代理思考格式、自動思考格式和無思考格式等多種交互模式。每種格式都有其特定的應用場景和用戶期望,AI需要能夠根據上下文準確選擇和執行相應的格式。

研究團隊開發了基於規則的獎勵系統來評估格式遵循情況。這個系統能夠自動檢測AI輸出是否符合邏輯推理格式要求,以及是否遵循特定的結構化指導原則,如JSON、Markdown和代碼格式等。通過這種自動化評估,訓練過程能夠及時糾正格式錯誤,確保AI輸出的一致性和可預測性。

第三個維度是"偏好對齊",這是最具挑戰性的部分,因為它涉及到對人類主觀判斷的模擬和學習。對於開放性問題,研究團隊通過提升回應的可靠性、交互性和風格來改善用戶體驗。這個過程需要AI學會在多個可能正確的答案中選擇最符合人類偏好的那一個。

為了支持偏好對齊訓練,研究團隊構建了一個多樣化的任務系統和獎勵建模框架。這個框架包含三個主要組成部分:基於規則的獎勵檢查AI回應是否遵循預定義的結構和格式規則;生成式獎勵使用其他多模態大語言模型評估回應與參考答案的契合程度、推理一致性和關鍵屬性的相關性;基於模型的獎勵則利用專門訓練的獎勵模型評估回應是否符合人類偏好標準。

在推理任務方面,團隊構建了1.2萬個數學和邏輯推理查詢,每個查詢都設計了3到5個解題步驟。AI需要按照規定的步驟順序解決問題,這不僅測試了問題解決能力,也訓練了遵循指令的精確性。系統使用基於規則的獎勵計算結果正確性,使用生成式獎勵評估推理過程是否遵循了預定義步驟。

對於知識檢索增強生成任務,研究團隊收集了一系列基於最新新聞的實例,這些實例需要通過網際網路搜索才能獲得答案。AI被鼓勵在思考過程中使用搜索和摘要行為,最終生成正確答案。系統通過生成式獎勵評估搜索行為解決查詢的有效性、摘要行為的正確性以及最終答案的一致性。

整個對齊訓練過程使用GSPO算法進行優化,這種算法特別適合處理具有可驗證獎勵的強化學習場景。通過多輪疊代訓練,AI系統在指令遵循、格式規範和偏好對齊三個維度上都實現了顯著提升,為實際應用奠定了堅實的基礎。

七、技術創新的核心架構

要理解Keye-VL 1.5的技術魅力,我們需要深入了解其精巧的系統架構。這個架構就像一座設計精良的現代化工廠,每個組件都有明確的分工,同時又協調配合,共同完成複雜的影片理解任務。

系統的核心由三個主要組件構成:視覺編碼器、投影層和語言解碼器。視覺編碼器就像工廠的原料檢測部門,負責接收和初步處理各種視覺資訊;投影層像是翻譯部門,將視覺資訊轉換為語言系統能夠理解的格式;語言解碼器則是最終的產品生產線,將所有資訊整合後生成最終的文字回應。

視覺編碼器基於開源的SigLIP-400M-384-14模型,但經過了大量的定製化改進。最重要的創新是原生解析度處理能力的引入。傳統的視覺處理系統就像只能看標準尺寸照片的人,面對不同比例的圖像時要麼會裁剪掉重要資訊,要麼會產生變形。而Keye-VL 1.5的視覺編碼器能夠自然地處理各種解析度和寬高比的圖像,保持視覺內容的完整性和準確性。

為了實現這種靈活性,研究團隊首先使用插值技術將固定長度的可學習位置嵌入擴展為解析度自適應的位置嵌入。這個過程就像給視覺系統配備了一個可以自動調節的觀察網格,能夠根據不同的圖像尺寸調整觀察的精細程度。接著,他們引入了二維旋轉位置編碼技術,這種編碼方式能夠更好地表示視覺元素之間的空間關係,特別是在處理高解析度圖像時表現出色。

最後,團隊採用了NaViT打包技術結合FlashAttention優化,讓視覺編碼器能夠在處理不同解析度圖像時保持高效率。這種組合就像給生產線裝上了智能調度系統,能夠根據原料的不同特性自動調整處理流程,既保證質量又提高效率。

在視覺編碼的實際應用中,系統對圖像和影片採用了不同的策略。對於圖像處理,系統為每張圖像分配20480個token的預算,這個容量足以處理包含數千萬像素的高清圖像,確保AI能夠看到圖像中的足夠細節。

對於影片處理,系統的SlowFast編碼策略展現了其獨特的智能性。這個策略的工作原理類似於人類觀看電影時的注意力分配機制。系統首先分析相鄰幀之間的patch級別相似性,將第一幀始終標記為slow frame,然後對後續每一幀,如果其與最近的slow frame的patch相似度超過95%,就標記為fast frame,否則標記為新的slow frame。

這種分類完成後,系統為fast frame分配的token預算僅為slow frame的30%,這樣既保證了對關鍵變化時刻的精細捕捉,又通過降低靜態場景的處理精度來節省計算資源。整個token分配過程使用二分搜索算法來精確計算每個slow frame的token數量,確保在總預算限制下(例如75000個token)達到最優的資源利用效果。

為了幫助語言模型更好地理解影片的時間結構,研究團隊還引入了特殊的時間戳標記。這些標記就像影片的章節目錄,清楚地標識出slow frame和fast frame的邊界以及對應的時間資訊,讓AI能夠建立起完整的時空關係圖譜。

投影層雖然結構相對簡單,只是一個隨機初始化的多層感知器,但它承擔著關鍵的模態轉換功能。這個組件在第一階段訓練中被重點優化,學會將視覺編碼器輸出的高維視覺特徵轉換為語言模型能夠理解的語義表示。

語言解碼器基於廣受認可的Qwen3-8B模型,這為系統提供了強大的語言理解和生成能力。為了適應超長上下文的需求,研究團隊對語言模型進行了專門的優化,包括將RoPE逆頻率從100萬調整到800萬,使模型能夠穩定處理128K token的長序列。

整個架構的設計體現了效率與性能的精妙平衡,每個組件都經過精心優化,確保在處理複雜的多模態任務時既能保持高精度,又能維持合理的計算開銷。

八、訓練數據的精心orchestration

高質量的訓練數據是AI系統成功的基石,快手團隊在數據收集、處理和組織方面展現了工匠級的精細態度。他們構建的訓練數據生態系統就像一個精心策劃的營養配方,為AI提供了全面均衡的"食物"來源,確保系統能夠在各個維度上全面發展。

在圖像字幕數據的構建上,研究團隊面臨的首要挑戰是現有開源數據的質量參差不齊。許多數據源雖然量大,但質量不可靠,主要是因為它們通常只經過簡單的爬蟲匹配,圖像與描述之間的對應關係不夠準確。為了解決這個問題,團隊設計了嚴格的相似性過濾流程,使用CLIP模型對圖像-字幕對進行評分,只保留高相似性的配對(CLIP分數大於0.9)。

對於那些被過濾掉的低質量開源圖像數據以及團隊自有的圖像資源,研究團隊採用了重新字幕生成的策略。他們調用多個先進的多模態大語言模型,包括Qwen2.5-VL 72B、Tarsier2、GPT-4o和Gemini1.5-pro,為各種解析度的圖像和不同類別的內容生成高質量的合成字幕。實驗表明,由不同模型生成的重字幕數據對於細粒度圖像理解非常有幫助。

為了防止AI系統退化為單純的字幕生成器,損害其指令遵循和複雜推理能力,團隊實施了數據增強策略,創建了多種格式的訓練樣本。包括"圖像-字幕-問題-答案"格式,訓練模型無縫地從生成字幕轉向準確回答後續問題,加強上下文理解和任務連續性;"圖像-問題-答案-字幕"格式,顛倒任務順序,要求模型先回答問題再進行描述,打破默認生成字幕的傾向,提高任務切換靈活性和指令敏感度;指令遵循式圖像字幕生成和問答,提供多張圖像作為輸入,然後隨機詢問特定圖像對應的問題或生成字幕。

團隊還主動注入了一些"陷阱問題",這些問題指向不存在或矛盾的內容。這種反事實數據鼓勵模型更準確地基於視覺內容進行回應,而不是依賴文本先驗知識,提高了模型的忠實性和可靠性。

在OCR和VQA數據構建方面,研究團隊採用了多種技術來彌補高質量中文數據的稀缺。他們利用SOTA多模態大語言模型合成技術,從開源和內部圖像-文本數據集中提取圖像構建圖像庫,利用其中的文本密集圖像合成涵蓋不同場景的綜合OCR數據集。對於VQA任務,他們首先設計種子問題集,通過自演化方法擴展初始問題池,然後將圖像及其對應字幕輸入SOTA多模態大語言模型,生成高質量且多樣化的VQA數據。

考慮到高質量開源中文OCR數據的稀缺,團隊進一步利用字體渲染工具合成高質量OCR樣本。這個過程包括多樣化的圖像背景和布局、語義和非語義文本、多種字體風格和尺寸,以及各種圖像解析度,顯著增強了模型對中文OCR識別的魯棒性。

在結構化文檔和代碼理解方面,團隊使用大量代碼庫(如Markdown、HTML和其他編程語言)創建精細的OCR任務。通過渲染保持原始布局的代碼和文檔,他們創建了諸如從圖像重構源代碼或在特定位置補全缺失代碼等複雜的OCR任務,訓練模型理解文本層次結構和結構。

目標定位和計數數據的構建展現了團隊對細節的極致關注。在Keye-VL-1.5的目標定位功能中,他們主要使用三種對象定位形式:中心點、邊界框和多邊形,坐標嚴格輸入為整數並歸一化到[0, 1000)範圍內以適應不同解析度圖像。數據來源主要包括RefCoCo、VisualGenome和TolokaVQA作為定位數據源,PixMo作為計數數據源。

對於內部定位數據生成,團隊使用其他多模態大語言模型提取相應文檔問題的答案區域邊界框。為了過濾不正確、缺失或模糊的標註定位數據,他們利用CLIP和Qwen-2.5-7B選擇更高分數的點、框或多邊形作為訓練數據,即從圖像中提取相應的定位區域來計算其與目標客觀文本的相似性。

九、基礎設施的精密engineering

構建如此複雜的AI系統需要強大的技術基礎設施支撐,快手團隊在這方面展現了深厚的工程能力。他們設計的訓練基礎設施就像一座高度自動化的現代化製造工廠,能夠高效處理海量數據,同時保證訓練過程的穩定性和可靠性。

多模態大語言模型的訓練面臨三個主要挑戰:架構異構性、負載不平衡和I/O瓶頸。針對第一個挑戰,團隊設計了異構混合併行策略。傳統的統一併行策略就像用同一套管理方法管理所有不同類型的員工,必然會導致效率低下。而異構策略則像是為不同崗位制定專門的工作流程。

具體來說,對於計算模式相對固定的視覺編碼器組件,團隊只使用數據並行來最大化吞吐量。這種選擇是基於視覺編碼器的計算特性:每個樣本的處理時間相對可預測,不同GPU之間的工作負載差異較小。而對於參數密集且內存消耗巨大的語言模型組件,團隊採用流水線並行、張量並行和數據並行的混合策略。這種精細化的並行設計是實現128K超長序列訓練的決定性技術前提。

負載不平衡問題主要源於多模態數據的固有特性。處理高解析度影片的計算成本可能是處理靜態圖像的數倍,如果簡單地將這些樣本隨機分配給不同的GPU,就會出現有些GPU長時間高負載運行,而有些GPU提前完成任務後只能等待的情況。為解決這個問題,團隊開發了動態負載均衡機制。

這個機制的核心是預估算法,能夠根據輸入樣本的特徵(解析度、幀數、內容複雜度等)預測其計算複雜度。然後使用貪心算法將樣本分配到不同的GPU上,目標是使所有GPU的總計算時間儘可能接近。這種做法就像合理安排工廠生產線上的任務分配,確保每個工作站都能保持適當的忙碌程度,避免整體效率被最慢的環節拖累。

I/O瓶頸的解決方案體現了團隊對系統架構的深刻理解。他們設計了靈活可擴展的數據加載器,能夠深度感知並行訓練的拓撲結構。在數據並行維度,每個進程只加載全局數據集的一個分片;在流水線並行維度,只有第一階段負責數據獲取和預處理;在張量/上下文並行維度,數據首先由組內單個進程獲取,然後高效廣播到組內所有進程。

更進一步,團隊實現了I/O伺服器架構,將CPU密集型任務(如影片解碼)從訓練節點上分離出來。這種設計類似於現代工廠中的專業化分工,讓訓練節點能夠專注於GPU計算任務,而繁重的數據預處理工作由專門的伺服器承擔。這不僅解決了CPU瓶頸問題,還顯著提高了整體系統的資源利用率。

為了保證長時間訓練過程的穩定性,團隊還實現了實例級完美恢復機制。這個機制能夠確保任務在中斷後從最後一個成功處理的樣本開始恢復,而不是從最近的檢查點開始,避免了重複處理和數據浪費。這種細緻入微的設計體現了團隊對大規模訓練實踐的深刻理解。

在硬體資源優化方面,團隊還針對不同訓練階段採用了不同的優化策略。在前兩個訓練階段,由於序列長度限制在8K,主要採用數據並行配合Zero-2優化策略來減少內存開銷。在最後的退火階段,為了支持128K的超長上下文,切換到Zero-1優化策略,並採用上下文並行和流水線並行來支持長上下文訓練。這種動態調整策略確保了不同訓練階段都能達到最優的資源利用效率。

十、實驗評估與性能驗證

為了全面驗證Keye-VL 1.5的實際性能,快手團隊設計了一套涵蓋多個維度的綜合評估體系。這個評估過程就像對一個全科醫生進行執業資格考試,不僅要測試專業技能,還要考察實際工作中的應用能力和用戶滿意度。

在公開基準測試中,Keye-VL 1.5展現出了全面超越競爭對手的實力。在通用視覺-語言任務方面,系統在OpenCompass上取得了79.5%的得分,顯著高於同規模的其他開源模型。在大規模多學科理解基準MMMU上獲得71.4%的成績,在AI2D科學圖表理解任務上達到89.5%的準確率。這些成績不僅體現了系統的基礎能力,更重要的是證明了其在處理複雜多模態任務時的可靠性。

更令人印象深刻的是系統在影片理解任務上的表現。在Video-MME基準上,Keye-VL 1.5獲得了73.0%的成績,相比其他開源模型有顯著優勢。在Video-MMMU這個需要從專業影片中獲取知識的任務上,系統的表現(66.0%)比第二名高出6.5個百分點,這個差距在AI評測中已經是相當顯著的提升。

在數學推理能力測試中,系統同樣表現出色。MathVision任務的46.8%準確率、MathVista的81.2%成績以及MathVerse的68.7%表現,都明顯超越了同規模的競爭對手。這些結果證明了系統不僅能看懂圖像和影片,還能進行複雜的邏輯推理和數學計算。

為了更深入地了解系統的實際應用效果,研究團隊還構建了內部評估基準。這個基準的設計更貼近實際應用場景,涵蓋了視覺元素識別、推理能力、時間資訊理解、知識問答、描述能力、魯棒性、創造能力和領域專業知識等八個核心維度。

在這個綜合評估中,Keye-VL 1.5獲得了3.53的總分(滿分5分),相比預覽版本提升了0.51分,相比主要競爭對手MiMoVL-7B-RL-2508提升了0.13分。特別值得注意的是,系統在正確性方面的表現(3.73分)明顯優於競爭對手(3.54分),這對於實際應用來說是至關重要的。

細分能力評估揭示了系統的優勢領域。在推理能力上,Keye-VL 1.5獲得了3.81分,比競爭對手高出0.25分;在時間資訊理解方面得分3.36分,比競爭對手高出0.18分;在魯棒性測試中更是獲得了4.29的高分,比競爭對手高出驚人的0.83分。這個魯棒性優勢表明系統在面對各種異常情況和邊界案例時都能保持穩定的性能。

為了驗證SlowFast影片編碼策略的有效性,團隊進行了專門的對比實驗。他們將Keye-VL-1.5-Base與採用2D卷積合併技術的Qwen-2.5-VL在VideoMME基準上進行了詳細比較。結果顯示,Keye-VL-1.5-Base在不同幀數設置下都能保持穩定的性能,並且能夠在更高的幀數下仍然保持性能提升,而競爭對手在128幀時就達到了性能峰值。

更有趣的是token使用效率的對比。Qwen-2.5-VL的token使用與幀數基本成線性關係,而Keye-VL-1.5-Base在低幀數時使用更多token,在高幀數時使用更少token。這種動態調整的資源分配策略證明了SlowFast編碼的智能性和效率優勢。

在不同FPS設置的測試中,Keye-VL-1.5-Base表現出了更好的穩定性,這進一步驗證了其影片編碼策略的魯棒性。這種穩定性對於實際應用非常重要,因為真實世界的影片內容往往具有不同的幀率和質量特徵。

十一、技術細節的深入剖析

在技術實現的細節層面,Keye-VL 1.5展現了研發團隊在工程實踐方面的深厚功底。這些看似微小的技術選擇和優化,實際上對系統的整體性能產生了關鍵影響,就像精密機械中每一個齒輪的精度都會影響整體運轉的smooth性。

在視覺編碼器的native解析度處理實現中,團隊面臨的首要挑戰是如何擴展原本固定尺寸的位置嵌入。SigLIP-400M-384-14模型原本只能處理384×384像素的正方形圖像,但實際應用中的圖像和影片幀往往具有各種不同的寬高比和解析度。簡單的拉伸或裁剪會導致資訊丟失或視覺變形,影響AI的理解準確性。

研究團隊採用的解決方案是位置嵌入插值技術。這個過程就像給一個只會看標準地圖的人配備了一副能夠自動調節焦距的眼鏡,讓他能夠清晰地觀察不同比例尺的地圖。具體實現上,系統會根據輸入圖像的實際尺寸,計算出需要的位置嵌入網格大小,然後使用雙線性插值將原始的固定尺寸嵌入擴展到相應的大小。

二維RoPE的引入進一步增強了系統的位置理解能力。傳統的絕對位置嵌入就像給每個位置貼上固定的標籤,而RoPE更像是建立了一個動態的坐標系統,能夠更好地表示元素之間的相對位置關係。在處理高解析度圖像時,這種相對位置關係的準確表示變得尤為重要,因為絕對位置嵌入在外推到訓練時未見過的解析度時往往會出現性能下降。

NaViT packing技術的應用則解決了batch處理中的效率問題。傳統的方法需要將所有圖像填充到相同的尺寸,這不僅浪費計算資源,還可能引入無意義的填充資訊。NaViT允許在同一個batch中處理不同尺寸的圖像,就像在同一個包裝箱中放入不同大小的物品,通過巧妙的排列實現空間的最大化利用。

在SlowFast編碼的具體實現中,patch相似性計算是關鍵環節。系統將每幀圖像分割成14×14像素的patch,然後計算當前幀與最近slow frame之間的patch-level相似度。這個計算過程類似於比較兩幅拼圖的相似程度,通過分塊對比來判斷整體的變化幅度。95%的相似度閾值是經過大量實驗確定的最優值,既能有效識別靜態場景,又不會過于敏感而將微小變化誤判為重要變化。

token預算的動態分配使用了精巧的二分搜索算法。給定總token預算(如75000個token)和fast frame與slow frame的token比例(30%),系統需要找到一個最優的slow frame token數量,使得所有frame的總token使用量不超過預算。這個過程就像在有限的資源約束下安排生產計劃,需要精確計算才能達到最優配置。

在長上下文擴展的實現中,RoPE逆頻率的調整是一個關鍵細節。原始Qwen3-8B模型的RoPE逆頻率為1,000,000,適用於相對較短的序列。為了支持128K的超長上下文,團隊將這個參數調整為8,000,000。這個看似簡單的數值改變,實際上重新定義了模型對序列長度的感知能力,類似於調整望遠鏡的焦距來觀察更遠的景物。

訓練數據的配比優化也體現了團隊對細節的關注。在128K上下文訓練階段,24%影片、50%圖像、26%文本的數據配比是經過反覆實驗確定的。這個配比既保證了影片理解能力的提升,又維持了圖像理解和語言能力的平衡。過多的影片數據可能會影響基礎的圖像處理能力,而過少則無法充分利用擴展的上下文長度。

在訓練過程的技術實現中,gradient accumulation和mixed precision training的組合使用確保了在有限的GPU內存下也能處理大batch size的訓練。這些技術就像在有限的廚房空間裡通過精心安排來完成大型宴會的準備,每個環節都需要精確協調。

十二、應用前景與實際價值

Keye-VL 1.5的技術突破不僅僅是學術研究的成果,更重要的是它為實際應用開闢了廣闊的可能性空間。這個系統就像一把萬能鑰匙,能夠開啟許多之前無法解決或解決得不夠好的實際問題,為各行各業帶來切實的價值。

在內容創作和媒體行業,這項技術的影響將是革命性的。目前的影片內容分析和標註工作主要依賴人工完成,不僅成本高昂,而且效率低下。一個專業的影片編輯人員可能需要幾個小時才能為一段長影片製作準確的字幕和摘要,而且容易出現遺漏或錯誤。Keye-VL 1.5能夠自動理解影片內容,生成準確的描述、提取關鍵資訊、甚至創建時間軸標註,這將大大降低內容製作的門檻和成本。

對於快手這樣的短影片平台,這項技術的價值更是直接而巨大。平台每天上傳的影片內容數以百萬計,傳統的內容審核和推薦系統很難做到精準理解每個影片的具體內容。有了Keye-VL 1.5,系統能夠深度理解影片中的場景、人物、動作、情感表達等細節資訊,從而實現更精準的內容分類、更智能的推薦算法、更有效的安全審核。

在教育領域,這項技術同樣具有巨大的應用潛力。傳統的在線教育影片往往缺乏互動性,學生只能被動觀看,很難實現個性化學習。Keye-VL 1.5能夠理解教育影片的內容結構,自動生成章節劃分、知識點標註、甚至針對特定內容生成練習題。更進一步,系統還能根據學生的學習進度和理解情況,智能推薦相關的影片片段或補充材料。

在醫療健康領域,影片分析技術也有著重要的應用價值。醫學影像診斷、手術影片分析、康復訓練監控等場景都需要對動態視覺資訊進行準確理解。Keye-VL 1.5的時間序列理解能力和細節識別能力,使其能夠輔助醫護人員進行更準確的診斷和治療方案制定。比如在康復訓練中,系統能夠分析患者的運動影片,評估動作的標準程度,提供個性化的訓練建議。

對於安防監控行業,這項技術帶來的改進同樣顯著。傳統的監控系統主要依賴人工監看,既消耗大量人力資源,又容易出現疏漏。Keye-VL 1.5能夠實時分析監控影片,自動識別異常行為、追蹤特定目標、甚至預測潛在的安全風險。更重要的是,系統能夠生成詳細的事件報告,為後續的調查取證提供有力支撐。

在智能交通領域,影片理解技術對於交通流量分析、違章行為識別、事故預防等方面都有重要價值。Keye-VL 1.5能夠分析道路監控影片,識別車輛類型、統計交通流量、檢測違章行為、甚至分析交通事故的發生過程。這些資訊對於城市交通管理部門制定更科學的交通策略具有重要意義。

在零售和電商領域,影片內容的理解能夠為商品推薦和營銷策略提供新的數據支撐。通過分析用戶上傳的產品使用影片或購物體驗分享,系統能夠提取出更豐富的用戶偏好資訊,從而實現更精準的個性化推薦。同時,商家也能夠通過影片分析更好地了解消費者的使用習慣和滿意度。

對於科研和工業檢測領域,Keye-VL 1.5的精確分析能力同樣具有重要價值。在材料科學研究中,系統能夠分析實驗過程的影片記錄,自動識別關鍵的變化時刻和異常現象;在工業質量檢測中,系統能夠分析生產線的監控影片,及時發現產品缺陷或設備異常。

這些應用場景的實現不僅能夠提高工作效率、降低成本,更重要的是能夠釋放人類的創造力,讓人們從重複性的分析工作中解放出來,專注於更有價值的創新和決策工作。隨著技術的不斷完善和應用領域的擴大,我們有理由相信,像Keye-VL 1.5這樣的智能系統將成為推動社會數字化轉型的重要引擎。

說到底,快手科技團隊開發的Keye-VL 1.5代表了影片理解技術的一個重要里程碑。通過"慢-快"雙眼系統的巧妙設計,這個AI不僅學會了像人類一樣智能地分配注意力,還掌握了處理超長影片內容的能力。從技術創新到工程實現,從基礎研究到實際應用,這項成果展示了中國科技企業在人工智慧領域的創新實力和工程能力。

更重要的是,這項技術的開源特性意味著全球的研究者和開發者都能夠在此基礎上繼續創新,推動整個行業的發展。當我們站在人工智慧快速發展的時代節點上,像Keye-VL 1.5這樣的技術突破不僅僅是科技進步的體現,更是人類智慧和創造力的延伸。它讓我們看到了一個更加智能、更加便利的數字化未來。

對於普通用戶來說,這意味著未來的影片應用會變得更加智能和貼心。無論是觀看短影片時的智能推薦,還是查找特定影片內容時的精準搜索,亦或是自動生成的影片摘要和字幕,這些改進都將讓我們的數字生活體驗更加豐富和便捷。而對於內容創作者、教育工作者、醫護人員等專業人士來說,這項技術將成為強有力的工作助手,幫助他們更高效地完成工作,創造更大的價值。

Q&A

Q1:快手Keye-VL 1.5的"慢-快"雙眼系統是怎麼工作的?

A:這個系統模仿人類看影片時的注意力分配機制。當影片畫面變化較大時,"慢眼"會用高解析度仔細觀察每個細節;當畫面相對穩定時,"快眼"會用較低解析度但更廣的時間範圍進行監控。系統通過分析相鄰畫面間的相似性來自動切換模式,相似度超過95%就啟用快速處理,這樣既節省計算資源又不會錯過重要資訊。

Q2:Keye-VL 1.5能處理多長時間的影片內容?

A:Keye-VL 1.5可以處理非常長的影片內容,其上下文處理能力從8K個資訊單元擴展到了128K個單元,相當於注意力範圍擴大了16倍。這意味著它不僅能理解短影片,還能分析長達數小時的影片內容,建立完整的時空關係理解。這種長時間處理能力對於電影分析、教育影片理解、監控影片分析等應用場景非常重要。

Q3:普通用戶什麼時候能體驗到Keye-VL 1.5技術?

A:由於這是快手內部開發的核心技術,普通用戶最可能通過快手App或其相關產品來體驗這項技術。目前研究團隊已經在GitHub上開源了相關代碼,開發者可以通過https://github.com/Kwai-Keye/Keye訪問。隨著技術的不斷完善,我們預計很快就能在快手的各種影片功能中感受到更智能的內容理解、更精準的推薦和更準確的搜索體驗。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新