西安交通大學等聯合研究團隊打造的"數據裁縫"：讓AI自己學會從海量影片中提煉有用訓練數據

這項由西安交通大學、中國科學院大學、深圳先進技術研究院與清華大學聯合開展的研究，以預印本形式於2026年6月19日發布，論文編號為arXiv:2606.21337，標題為《DataClaw?: Agentic Tailoring Multimodal Data from Raw Streams》，有興趣深入了解的讀者可以通過該編號查詢完整論文。

贊助商廣告

如果你曾經試圖從一段冗長的教學影片中快速提取出有價值的資訊，你大概能感受到那種費時費力的無奈——影片裡夾雜著大量廢話、重複畫面和無關內容，真正有用的知識點零散地分布在幾十分鐘的錄像里。現在，人工智慧領域正面臨同樣的困境，只不過規模要大得多。研究團隊把這個困境正式命名為"數據熵"問題，並提出了一套全新的解決思路。

一、亂糟糟的原料：為什麼AI訓練數據這麼難搞

要理解這項研究解決的是什麼問題，不妨把訓練一個AI模型比作開一家高檔餐廳。廚師（AI模型）需要食譜和食材（訓練數據）來學習怎麼做菜。問題在於，網際網路上那些"食材"——比如機器人操作的監控錄像、用戶在電腦上完成各種任務的操作截圖序列、教人做飯或修東西的長影片——都是非常原始、雜亂的狀態。就好像你訂購了一批食材，結果收到的是一整頭豬、一塊帶泥的農田和一捆還沒去殼的穀物，要直接用這些做出米其林三星的菜餚幾乎不可能。

現有的數據處理方式大多是"被動式"的，相當於派一個實習廚師看著那頭豬，讓他簡單描述一下"這是什麼動物、它在幹什麼"，然後把這段描述當作訓練素材。這種做法有兩個明顯的缺陷：其一，描述往往流於表面，沒能提煉出深層的操作邏輯或因果關係；其二，面對幾十分鐘甚至幾小時的連續影片流，這種方式很容易產生內容幻覺——說了一些影片裡根本沒有的東西，或者漏掉了最關鍵的片段。

研究團隊把這套新思路叫做"主動式數據裁縫"。不同於之前被動描述的方式，這個系統更像一位經驗豐富的主廚助理，他不只是看著食材發呆，而是根據今天要做什麼菜（也就是下游任務的目標），主動地篩選、切割、搭配食材，最終端出符合要求的半成品。這套系統的核心產品就是DataClaw?，一個基於90億參數語言模型構建的多模態數據裁剪框架。

贊助商廣告

二、數據悖論：想訓練"數據裁縫"，先要有"裁縫的樣本"

研究工作最棘手的部分在於一個先有雞還是先有蛋的難題：要訓練一個擅長精煉數據的模型，首先需要大量"精煉數據的高質量示例"，但這類示例本身就極度稀缺——如果它們已經存在，還要你的新系統幹什麼？

研究團隊設計了一條兩階段的自動化數據構建流水線來打破這個僵局。

流水線的第一階段叫做"事實錨點提取"。所謂事實錨點，可以理解成從原始影片或操作日誌中提取出來的確定性的、可驗證的硬資訊——比如機器人的手臂在第12幀時抓住了藍色碗，或者用戶在某個截圖里點擊了瀏覽器的某個按鈕。這些資訊是輕量級的專門工具（OCR識別文字、目標檢測識別物體、元數據解析提取時間戳等）提取出來的，不依賴任何大模型，因此結果非常可靠，基本不會出現幻覺。這就像是在一部混亂的紀錄片裡，先讓一位負責時間線的助理用熒光筆標註出所有的關鍵時刻。

流水線的第二階段叫做"生成式語義合成"。有了這些可靠的硬資訊錨點之後，再讓一個能力強大的視覺語言模型（類似於GPT-4o或Gemini這類系統）在這些錨點的約束下，進行高層次的邏輯推理和語義整合。模型會根據錨點資訊判斷：在這段影片裡，機器人的動作序列說明它正在完成什么子任務？下一步應該做什麼？整個任務邏輯是什麼？這個階段做的事情更像是在事實材料的基礎上寫一篇有邏輯的分析報告，而不是憑空編造。

通過這套"先確認事實、再進行推理"的兩階段策略，研究團隊構建出了一個覆蓋五大領域的大規模訓練數據集：日常生活（如做飯、家庭修繕類影片）、教育（如在線講座和教學）、具身智能（機器人操作軌跡）、世界模型與生成式內容（遊戲畫面等），以及GUI智能體（用戶在電腦或手機上完成各種任務的操作截圖序列）。整個數據集包含約34,717條樣本，其中日常生活類數據占比最高（約46%），其次是具身智能西安交通大學等聯合研究團隊打造的數據裁縫讓AI自己學會從海量影片中提煉有用訓練數據（約21%）和GUI類（約17%）。

贊助商廣告

三、"裁縫"是怎麼工作的：問題建模與訓練設計

理解DataClaw?的工作機制，可以把它的輸入輸出關係想像成一個定製化的資訊提煉任務。給系統一段原始的多模態流（比如一段長影片的幀序列），同時告訴它一個"意圖"（比如"我要用這段影片訓練一個能判斷機器人是否卡住的模型"），系統就需要產出一份結構化的輸出——包含具體的問題、答案、推理步驟、以及對應的影片幀範圍，而且輸出必須嚴格符合預定義的JSON格式。

這個過程需要兩種核心能力同時在線。一方面是"資訊過濾與聚焦"——原始輸入可能有幾十幀甚至幾百幀，但真正有用的往往只有幾幀，系統必須根據意圖識別出哪些才是關鍵畫面。另一方面是"結構化重組"——不只是寫一段自由文本描述，而是把資訊按照嚴格的模板重新組織，確保最終產出的數據可以直接被下游任務使用，不需要再經過額外的人工清洗。

在這個框架下，訓練DataClaw?分兩步走。第一步是監督微調，用前面兩階段流水線構建出的34,000餘條樣本對基座模型Qwen3.5-9B進行一輪精調，相當於先讓這位實習助理把大量案例過一遍，建立基本的任務理解能力。第二步是強化學習優化，採用一種叫做GRPO（組相對策略優化）的方法，讓模型在已有能力的基礎上進一步提升。

GRPO的工作方式可以這樣理解：給模型同一道題，讓它同時給出一組答案（比如8個），然後根據一套評分規則評估這組答案的好壞，讓模型從"比自己更好"和"比自己更差"的答案對比中學習。評分規則完全是基於規則的，不需要額外訓練一個評判模型，由三個部分組成。第一個叫格式合規獎勵，檢查輸出的JSON格式是否完整、欄位是否正確，這是硬指標，不合格的直接扣分。第二個叫時空錨點獎勵，專為機器人操作和影片類任務設計，計算預測的幀序列與標準答案的"軌跡形狀相似度"——兩段軌跡的時間分布差距越小，分數越高。第三個叫推理效率懲罰，防止模型產生過於冗長的廢話推理，也防止推理過於簡單粗糙，通過組內相對比較來確定什麼樣的推理長度是"剛好合適"的。

贊助商廣告

這套訓練策略的實驗配置是：在8張A100 GPU上進行訓練，格式獎勵權重設為0.7，錨點獎勵權重設為1.0，效率懲罰權重設為0.3，學習率為4×10??。

四、兩種部署形態：通用選手還是領域專家

DataClaw?在實際使用中有兩種部署方式，各有側重。

第一種叫做DataClaw?-O，即"全能型"版本。它是在所有領域數據混合訓練出來的單一模型，接到任何領域的任務都由這一個模型處理。這種方式部署簡單，使用方便，但對於高度專業化的任務，效果可能打折扣，因為混合訓練時不同領域之間會存在干擾。

第二種叫做DataClaw?-E，即"專家型"版本。每個領域分別訓練一個專門的小模型，實際使用時根據任務類型自動路由到對應的專家模型處理。這種方式部署稍複雜，但每個領域專家都可以在自己擅長的數據分布上做到最好。

研究團隊通過實驗發現，全能型版本在混合數據訓練時呈現出不穩定的擴展曲線——隨著數據量增加，性能並不是穩步提升，而是出現明顯的震盪。這是因為來自不同領域的優化目標之間存在梯度衝突，用專業說法叫做"負遷移"或"任務干擾"。以實驗數據為例，全能型模型在用1/15的數據訓練時整體得分為53.60，到7/15時驟降至47.23，12/15時回升至57.84，隨後又下跌——這條折線圖看起來就像股市行情一樣動盪。專家型版本則完全繞開了這個問題，各領域模型各司其職，最終綜合得分達到68.86，穩定且更優。

五、考試成績：跟頂尖AI同台競技

為了系統評估DataClaw?的能力，研究團隊專門構建了一個新基準，叫做DataClaw?-val，包含200道經過精心設計的多模態數據裁剪題目，覆蓋前述五大領域。另外還有一個難度更高的子集叫DataClaw?-Intent，專門考察模型在用戶意圖模糊不清時的應對能力——比如用戶只說"幫我設計一個數據構建的例子"，模型必須自己判斷該影片最適合做什麼類型的訓練數據。

贊助商廣告

評價體系分三個維度。欄位分（Field）考察JSON輸出格式是否完整，缺少必要欄位就扣分。語義分（Semantic）用嵌入向量的餘弦相似度衡量輸出文本與標準答案在含義上的貼合程度，其中問題文本和答案文本各占40%權重，推理過程占20%。序列分（Sequence）針對涉及時間順序的任務，衡量預測幀序列的時間分布形狀與標準答案的相似程度，通過歸一化後計算平均絕對誤差，再經過指數變換轉為0到1之間的相似度分數。

拿DataClaw?-E與一系列知名AI系統比較的結果相當有說服力。在格式合規性方面，DataClaw?-E的欄位分達到97.53，與Gemini-3.1-Pro-Preview的98.12和GPT-4o的97.27相當，顯著超過Claude-Sonnet-4-6的88.98和Qwen3.5-9B基座模型的89.64。在語義質量方面，DataClaw?-E得到74.94分，略低於GPT-4o的75.15分，但超過Gemini的73.85分。序列分方面，DataClaw?-E在具身智能領域（機器人操作）拿到了71.60的最高分，在GUI領域達到96.33，在模糊意圖子集上也以50.31居首——這三項成績都超過了所有被比較的系統。

把專家型和全能型版本對比來看，專家型在欄位分、語義分、序列分上全面領先（97.53 vs 87.65；74.94 vs 62.46；48.86 vs 44.82），且在模糊意圖這個最難的子集上同樣如此。

六、終極考驗：裁剪出來的數據，到底有沒有用

光在DataClaw?-val上得高分還不夠，研究團隊更想知道的是：用DataClaw?處理出來的數據去訓練下游模型，最終任務表現會不會真的更好？這才是最直接的有效性證明。

研究團隊選了三個有代表性的下游任務做驗證實驗。第一個是長時程GUI導航，用Qwen3.5-4B為基座，在AgentNet數據集上測試，評估模型能不能跟著指令在電腦上完成複雜的多步操作任務。第二個是動作影片生成，用Wan2.2-I2V-5B為基座，在Ego4D數據集上測試，看模型能不能根據起始圖像和文字提示生成物理上合理的動作影片。第三個是時空視覺問答，同樣用Qwen3.5-4B為基座，在ReMoT數據集上測試，考察模型能不能回答關於影片中攝像機運動和空間關係的精細問題。

贊助商廣告

實驗設計的關鍵是控制變量。完全相同的原始影片素材，分別用三種方式處理：讓基座模型自己處理（自精煉基線）、讓Gemini-3.1-Pro-Preview處理（強商業模型基線）、讓DataClaw?處理。三種方式處理後都經過同樣的質量過濾，並抽取等量的有效樣本，用完全相同的超參數微調基座模型，然後在統一的測試集上評分。

結果表明，自精煉數據只帶來了有限的提升：GUI導航的步驟成功率從12.4%提升到16.8%，任務成功率從1.2%提升到3.5%；影片生成的FVD分數（越低越好）從385.2降到362.1；時空問答的整體準確率從9.8%升至14.2%。這說明讓模型用自己當前的能力處理數據，得到的訓練素材並不足以支撐顯著的能力提升。

Gemini處理的數據效果要好得多：GUI步驟成功率達到39.5%，任務成功率14.2%；影片FVD降至295.4，時序一致性達76.2%；時空問答部分準確率53.4%，整體準確率31.5%。

DataClaw?的表現與Gemini非常接近，並且在幾個關鍵指標上實現了反超。GUI任務成功率達到15.6%（超過Gemini的14.2%），影片生成FVD降至288.6（優於Gemini的295.4），接觸點平均精度（Contact mAP，衡量模型是否正確理解了物體互動關係）達到51.2（超過Gemini的48.5），時空問答整體準確率33.2%（超過Gemini的31.5%）。兩者的主要差異在於：Gemini在步驟級別的指標（GUI步驟成功率39.5% vs DataClaw?的38.2%；VQA部分準確率53.4% vs DataClaw?的52.1%）上稍有優勢，而DataClaw?在端到端的任務完成指標上更強。研究團隊對此的解讀是，DataClaw?生成的數據更加精煉緊湊，專注於任務完成所需的關鍵資訊，而Gemini可能提供了更豐富的中間步驟描述，對局部預測有幫助，但不一定對最終完成任務幫助更大。

七、消融實驗：每個設計決策是否都有必要

研究團隊還做了一系列對照實驗，驗證每個設計選擇的必要性。

關於強化學習獎勵設計的消融：僅使用最基本初始化（未經足夠SFT）時，欄位分82.50，語義分36.79，序列分45.40，整體較弱。完成SFT後，欄位分躍升至100.00，語義分82.54，序列分70.83，效果顯著。在SFT基礎上加入GRPO但不包含時空錨點獎勵，語義分略升至83.32，但序列分反而輕微下滑到70.11，說明單純的格式和文本獎勵有時會以犧牲時序準確性為代價換取文字表達的流暢。加入時空錨點獎勵後，序列分提升到71.96，證明這個專為時序任務設計的獎勵信號確實在發揮作用。

贊助商廣告

關於專家路由的消融：把具身智能任務路由到GUI專家處理，欄位分和語義分雙雙歸零（0.00），序列分也只有50.00；反過來把GUI任務路由到具身智能專家處理，同樣一塌糊塗（欄位分0.00，語義分52.55，序列分0.00）。而正確路由時，具身智能任務用具身專家處理得到96.50/74.21/63.48，GUI任務用GUI專家處理得到100.00/84.93/76.41。這組結果非常直白地說明：錯誤的專家路由會導致災難性的輸出，正確的路由是整個專家系統能正常工作的前提。

八、典型案例：裁縫到底是怎麼裁的

論文中展示了多個具體的數據構建案例，幫助理解系統的實際工作方式。

在機器人操作數據構建方面，給定一段機器人抓取物體的操作影片（樣例編號120_embodied_30），用戶的意圖是"從這段機器人操作影片中構建一個'預測下一個主要子任務'的訓練樣本"。系統首先通過底層提取識別出錨點資訊：黃色珠子袋已經被放進藍色碗裡（幀0至16），綠色積木仍在桌上（幀0至16），機器人手臂在完成上一步操作後正在收回（幀0至16）。基於這些錨點，系統生成的結構化輸出為：問題是"機器人接下來的主要子任務是什麼"，答案是"撿起綠色積木"，推理過程解釋了為什麼——已完成子任務的證據，以及桌上剩餘物體的狀態，共同指向下一步的操作目標。輸入影片範圍被精確鎖定在第0到16幀。

在長時程GUI任務合成方面（樣例編號145_GUI_15），給定六段短影片片段，每段對應不同應用和操作，用戶意圖是"從這些短時程GUI軌跡片段中合成一個長時程GUI任務"。六段片段分別涉及Excel電子表格操作（片段A：創建列標題和輸入數據，片段B：調整列寬行高，片段C：修正單元格中的拼寫錯誤），以及Twitter/X分享功能（片段D）、Trello到期日設置（片段E）、螢幕時間設置（片段F）。系統識別出片段B、A、C都作用於同一個Excel表格，時序上先格式調整再數據錄入再拼寫修正，邏輯連貫，而片段D/E/F來自完全不同的應用，應當丟棄。最終輸出的排列順序為["B","A","C"]，並重建出了原始長時程任務描述。

贊助商廣告

在日常生活場景理解方面（樣例編號17_daily_7），給定一段室內日常生活影片，用戶意圖是"從影片中構建一個上下文推理與環境理解問答對"。系統識別出的錨點包括：室內木質桌面環境，桌上有書和家居用品，有玻璃容器，整體符合客廳或書房特徵。最終產出了問題"影片開始時我在什麼類型的房間裡"，配以詳細答案和推理過程，並明確標註了所有參考幀（第0到24幀）。

此外，論文還展示了一個失敗案例，以幫助理解系統的局限性。在一段從書桌區域到床邊的室內漫遊影片中，系統正確識別了起止位置，也生成了正確的導航描述（從工作區走向背景中的床），但推理文本中描述的時序與實際幀順序相反——影片其實是從床邊走向書桌的，而系統的敘述卻把它描述成從書桌走向床的過程。這類錯誤源於大語言模型固有的"時間幻覺"傾向：模型傾向於根據空間語義推斷一個它認為合理的時間順序，而不是嚴格遵循幀號的先後關係。

九、語義多樣性：裁出來的數據更豐富了

研究團隊還做了一項有趣的分析，通過t-SNE降維可視化技術比較了三種數據在語義特徵空間裡的分布：原始數據、基座模型自精煉後的數據，以及DataClaw?精煉後的數據。

原始數據的特徵點聚集在若干密集的簇里，分布集中。基座模型自精煉後的數據分布稍微擴散了一點，但變化不大，仍然圍繞原始數據的區域打轉。DataClaw?精煉後的數據分布則明顯更寬廣，覆蓋了更大的語義空間，出現了許多基座模型從未觸及的區域，對應著更多樣化的任務類型、問答模式和推理路徑。這說明DataClaw?不只是在"翻譯"原始數據，而是在主動重組和擴展數據的語義覆蓋範圍，產出的訓練素材在多樣性上超過了僅靠自精煉能達到的上限。

歸根結底，DataClaw?做的事情，就是把"從混亂原料中提煉有價值訓練數據"這件原本需要大量人工的工作，變成了一件可以自動化、可以擴展、並且有理論支撐的系統性工作。它不是萬能的——時序幻覺等問題依然存在，數據規模相比大型預訓練語料庫也還較小，而且目前還不能完全脫離人類提供的原始影片素材獨立生成訓練數據——但在"從有限預算的原始流中精煉出高質量下游任務數據"這個定義明確的問題上，它展示出了與最強商業模型競爭的實力，同時保持著開源、可控、可本地部署的優勢。

贊助商廣告

對於關注AI落地成本的研究者和工程師來說，這個方向有直接的實際意義：如果同樣數量的數據，經過更精準的裁剪就能讓下游模型學到更多，那麼無論是訓練成本還是數據標註成本都有機會大幅壓縮。對於未來AI系統的演進而言，一個能主動改善自身訓練數據質量的系統，本身就是邁向更自主學習能力的一步。有興趣深入了解技術細節的讀者，可以通過arXiv:2606.21337查閱完整論文，項目主頁地址在論文摘要中也有提供。

Q&A

Q1：DataClaw?和普通大模型直接標註數據有什麼區別？

A：普通大模型直接標註屬於"被動描述"，容易對長影片產生內容幻覺、漏掉關鍵幀。DataClaw?先用輕量級工具從原始影片中提取出可靠的事實錨點（比如具體幀號、物體狀態），再在這些錨點約束下進行高層推理合成，減少幻覺的同時輸出嚴格的JSON結構化數據，可以直接用於下游模型訓練。

Q2：DataClaw?的"專家型"和"全能型"版本應該怎麼選擇？

A：全能型DataClaw?-O部署簡單，適合需要跨多個領域靈活處理的場景，但在高度專業化任務上效果會打折扣。專家型DataClaw?-E對每個領域單獨訓練一個模型，效果更強，但需要根據任務類型做路由選擇。實驗證明，錯誤路由會導致災難性失敗，正確路由的專家型版本在所有主要指標上全面優於全能型。

Q3：DataClaw?處理出來的數據用來訓練下游模型，比Gemini處理的數據效果更好嗎？

A：兩者整體接近，各有側重。Gemini在步驟級局部指標上略有優勢，DataClaw?在端到端的任務完成指標（如GUI任務成功率、影片生成質量、時空問答整體準確率）上反而更強。研究團隊認為DataClaw?產出的數據更精煉緊湊、更聚焦於任務完成的關鍵資訊，在同等數據量下對下游模型最終性能的提升更有效。