不讀原論文也能看懂：英屬哥倫比亞大學與Meta聯合研發的AI數據「智能篩選員」，如何用一次掃描抵過傳統方法數小時的計算？

這項由英屬哥倫比亞大學、Vector研究所與Meta聯合開展的研究，於2026年4月以預印本形式發布在arXiv平台，論文編號為arXiv:2508.10180v3。研究成果以"For-Value"為名，提出了一套全新的大語言模型與視覺語言模型數據價值評估框架。

贊助商廣告

每天，全球有數以億計的人在使用ChatGPT、文心一言、通義千問這樣的AI助手。這些系統之所以能回答問題、寫文章、分析圖片，根本原因在於它們接受了海量數據的"訓練"。然而，這裡藏著一個鮮少被外界關注的核心難題：訓練數據的質量參差不齊。一旦混入了錯誤標註、無關內容或帶有偏見的樣本，AI的回答就會出現事實性錯誤，甚至產生偏見。

這就好比一個廚師學藝——如果師傅傳授的食譜里有一半是錯的，哪怕這個廚師再聰明勤奮，做出來的菜也難以保證質量。為了解決這個問題，研究人員長期以來致力於開發"數據價值評估"技術：簡單說，就是給每一條訓練數據評分，找出哪些數據對AI真正有幫助，哪些是"爛食譜"需要丟棄。

然而，傳統的數據評分方法有一個致命的缺陷：計算成本極其高昂。現有主流方法需要讓AI模型"反向思考"——即進行所謂的梯度反向傳播計算，相當於讓廚師不僅要做菜，還要把整個做菜過程倒著重演一遍，逐步分析每個步驟對最終口味的影響。對於擁有數十億甚至數百億參數的現代大模型來說，這個過程消耗的時間和算力令人咋舌，往往需要數小時乃至數天。

正是在這個背景下，來自英屬哥倫比亞大學和Meta的研究團隊提出了一個顛覆性的問題：能不能不做"反向演算"，僅靠"正向推理"就完成數據評分？他們的答案是肯定的，而這套方法就是本文要介紹的For-Value。

一、為什麼給訓練數據評分這麼難

要理解For-Value的價值，首先需要明白傳統方法到底難在哪裡。

現代AI模型的核心運作方式是"預測下一個詞"。給定一段文字，模型計算出所有可能的後續詞彙，並選擇概率最高的那個。這個過程從頭到尾是單向的——輸入進去，預測出來，一氣呵成，研究人員把這叫做"前向傳播"，就像廚師按照食譜一步步做菜。

贊助商廣告

數據價值評估要回答的問題是：某一條特定的訓練數據，到底讓模型在處理某個驗證任務時變得更好還是更差？這聽起來直觀，但實現起來需要知道"如果去掉這條數據，模型的表現會怎麼變"，而要回答這個問題，傳統方法需要追溯模型參數的變化軌跡，這就必須用到梯度反向傳播。

更棘手的是，現代大模型的參數量極其龐大，僅Llama-3或Qwen-2.5這類模型就有幾十億到幾百億個參數。計算每條數據對所有參數的影響，然後把這種影響傳遞到最終的預測結果上，相當於要在一個擁有數十億個變量的方程組裡逐一求解——這就是為什麼最先進的Hessian矩陣方法（一種用於捕捉參數相互作用的數學工具）對大模型來說根本不可行，而即便是近似計算的DataInf和HyperINF方法，完成一次數據評分也需要數小時。

此外，傳統方法還有一個批量處理的瓶頸：由於每條數據的梯度必須單獨計算，無法同時處理大量數據，這使得並行加速幾乎不可能實現，進一步拖慢了整體效率。

二、For-Value的核心思路：看"最後一層"就夠了

For-Value的核心洞察來自一個理論推導：在充分預訓練的大模型中，數據價值的信號其實已經被壓縮進了模型最後一層的隱藏表示里，無需逐層反向追溯。

用做菜的比喻來理解：當一道菜端上桌時，一位經驗豐富的美食評論家只需嘗一口最終成品，就能大致判斷哪些原材料（訓練數據）對這道菜貢獻最大——他不需要親自進廚房把每個烹飪步驟倒著重演一遍。For-Value的思路與此類似：利用預訓練大模型已經積累的豐富"味覺經驗"，只看最終輸出層的表現，就能高效評估每條訓練數據的貢獻。

具體來說，這套方法基於一個數學上可以嚴格證明的結論（研究團隊在論文附錄中給出了完整證明）：對於充分表達的大模型，某條訓練數據對驗證樣本的影響，可以用一個簡潔的閉合公式來表達，這個公式只依賴兩類資訊：第一，訓練數據和驗證數據在模型最後一層的"隱藏嵌入"（可以理解為模型對這條數據的深層語義理解）；第二，兩者在每個詞元（token，即模型處理文本的最小單位）上的"預測誤差"，也就是模型對每個位置詞元的預測概率與真實詞元之間的差距。

贊助商廣告

這個公式本質上是在衡量兩件事的相似程度：訓練數據和驗證數據在語義上有多相似（通過隱藏嵌入的內積來衡量），以及它們在哪些位置讓模型感到"困難"、預測不夠自信（通過預測誤差來衡量）。如果一條訓練數據與驗證數據語義相近，且在相同位置上讓模型感到困惑，那麼這條訓練數據對幫助模型處理該驗證任務就非常有價值——就像兩道菜用了相似的原材料，且在相同的步驟上容易出錯，那麼解決一道菜問題的經驗對另一道菜就很有幫助。

這裡有一個關鍵的理論前提叫做"無約束特徵假設"：充分預訓練的大模型具有足夠強的表達能力，可以產生不受特定架構約束的自由嵌入表示。這個假設在大模型分析領域已被廣泛採用，是For-Value理論推導的基石。

三、從理論到實踐：For-Value算法是如何運作的

理解了核心思路之後，再來看For-Value的實際操作流程，就會發現它的優雅之處在於極度的簡潔。

整個評分過程只需要一次前向傳播（也就是讓數據正常經過模型，不做任何反向計算）。具體步驟是：首先，把待評估的驗證樣本輸入模型，記錄它在每個位置的最後一層隱藏嵌入和預測概率分布；然後，把所有訓練數據批量輸入模型，同樣記錄它們的最後一層隱藏嵌入和預測概率分布；最後，用公式計算每條訓練數據與驗證樣本之間的得分，排序輸出。

不過，這裡還有一個工程上的挑戰需要克服：預測誤差向量的維度等於詞彙表大小（通常超過十萬個詞元），直接計算會產生天文數字級別的內存消耗。研究團隊的應對策略是利用"稀疏性"——實際上，模型的預測概率質量高度集中在少數詞元上，真正需要關注的只是出現在當前批次樣本中的詞彙（稱為"批內詞彙"），這個數量通常遠小於完整詞彙表，從而將計算量大幅壓縮至可行範圍內。

由於整個過程不涉及任何反向傳播，每條數據的得分計算可以完全並行化處理——這意味著可以用大批次同時處理大量訓練數據，而不像傳統方法那樣必須逐條串行計算。這種批量並行能力是For-Value效率優勢的另一個重要來源。

贊助商廣告

四、實驗驗證：在多種任務上的表現

研究團隊在一系列任務上對For-Value進行了系統驗證，覆蓋了文本語言模型和視覺語言模型兩大類別，以及多種規模的模型。

在"影響力數據識別"任務上，目標是找出對某個測試樣本影響最大的訓練數據。研究團隊使用了三類文本任務：句子變換（如把句子中的詞順序倒排、把元音字母替換成星號等十種規則，每種規則100個樣本），以及有無推理過程的數學應用題（同樣十種題目類型，每種100個樣本）。在這些任務上，For-Value不論是在AUC（曲線下面積，衡量整體排序質量的指標）還是召回率（找到真正有影響力樣本的比例）上，都達到了接近滿分的水平，明顯優於傳統的Hessian-free方法，並與計算成本更高的DataInf和HyperINF方法相當甚至更優。

以Qwen-2.5-1.5B模型為例，在句子變換任務上，For-Value的召回率達到0.989，而最強的傳統基線HyperINF為0.934；在數學題任務上，For-Value召回率為0.998，而HyperINF為0.950。這個差距並不算小，畢竟在實際應用中多找出6%的有價值數據，意味著訓練效果的實質性提升。

在視覺語言模型（同時處理圖片和文字的模型）上，研究團隊使用了Qwen2.5-VL-3B和Llama-3.2-11B-Vision兩款模型，測試了"主體生成"（為特定物體或動物的圖片生成描述）和"風格生成"（為卡通、像素藝術、線描風格圖片生成描述）兩類任務。

主體生成任務上，For-Value同樣表現出色，在11B模型上的召回率為0.985，高於HyperINF的0.919。更值得關注的是風格生成這個更困難的任務——傳統方法在這裡集體"啞火"，AUC僅在0.49到0.52之間徘徊（接近隨機猜測的0.5），而For-Value的AUC高達0.895至0.974，展現出壓倒性的優勢。這說明在數據分布複雜、類別間差異微妙的場景下，For-Value的理論設計更貼近大模型的實際學習機制。

在"錯誤標註數據檢測"任務上，研究團隊使用了經典的貓狗分類數據集，人為地把50%的標籤調換（把貓標成狗，把狗標成貓），然後測試各方法能否從這些混亂數據中找出被錯誤標註的樣本。在Qwen-VL-3B模型上，For-Value的AUC為0.885，比最強基線HyperINF的0.770高出11.5%；召回率達到0.999，也比HyperINF的0.916高出8.3%。研究團隊還驗證了For-Value在不同噪聲比例（40%、50%、60%）下的魯棒性，結果顯示各場景下表現均保持穩定。

贊助商廣告

五、實用價值：幫助模型從噪聲數據中學到真正有用的東西

除了識別重要數據和錯誤數據，研究團隊還測試了For-Value在實際微調場景中的價值——也就是用它來篩選高質量訓練子集，然後只用這些精選數據來微調模型，看最終性能如何。

第一個場景是數學推理，使用GSM8K數據集（一個包含7470道數學應用題的標準測試集）。以Llama-3.1-8B模型為基礎，用For-Value篩選出最有價值的5%訓練數據進行微調，最終在GSM8K測試集上的準確率達到48.3%，不僅比使用全量數據訓練（47.8%）還要高，更比最強基線HyperINF高出5.5%。即便只選取1%的數據，For-Value仍比所有基線方法高出最多3.3%。與此同時，For-Value完成數據評分只需要0.3小時，而HyperINF需要2.4小時，DataInf需要1.9小時，Hessian-free需要1.4小時——效率提升超過5倍。

第二個場景更接近現實中的"髒數據"挑戰。研究團隊構建了一個名為"Noise-Huatuo-Complex-CoT"的醫療問答數據集：從原始的5000條醫療推理數據中，隨機對40%的樣本注入噪聲——要麼在推理過程中隨機刪除若干詞彙，要麼隨機插入"foo"、"bar"、"baz"這樣毫無意義的噪聲詞。這模擬了真實世界中訓練數據質量參差不齊的情況。

在如此嘈雜的數據環境下，For-Value僅用5%的高質量數據微調，就在五個醫療QA測試集上取得了平均60.31%的準確率，比次優方法DataInf高出3%，比HyperINF高出4%。使用10%數據時，平均準確率進一步提升至62.35%，全面領先所有基線。研究團隊還專門統計了各方法在找出真正乾淨數據方面的準確率：For-Value以84.4%遙遙領先，而Hessian-free為48.2%，DataInf為33.2%，HyperINF僅有15.1%——這解釋了為什麼在噪聲數據場景下，For-Value的優勢特別明顯，因為它真正具備區分高質量數據和噪聲數據的能力。

第三個場景是醫學視覺問答，使用PMC-Reasoning數據集，評估Qwen2.5-VL-3B模型。同樣的模式：For-Value在10%和20%數據篩選場景下均取得最高平均準確率（分別為52.23%和52.67%），且評分耗時僅0.4小時，而基線方法需要1.3至1.7小時。

贊助商廣告

六、效率優勢：從幾小時壓縮到幾分鐘

效率方面的提升幅度足以改變這類技術的實用價值。

在大型模型上，這種差距尤為顯著。以Qwen-32B模型為例，HyperINF完成一次數據評分需要約6小時，而For-Value只需幾百秒——兩者相差超過30倍。更重要的是，For-Value不需要對模型進行任何微調訓練就可以直接使用，而DataInf和Hessian-free都需要先把模型微調到收斂，這本身就是一筆額外的時間和算力開銷。

研究團隊在論文中提供了詳細的計算複雜度對比表格。傳統方法的計算複雜度通常與模型層數、參數量成正比甚至更高次方增長，而For-Value的複雜度主要取決於模型維度和批內詞彙表大小的乘積——由於批內詞彙表通常遠小於完整詞彙表（通常不超過2000個詞元），實際計算量非常有限，且內存占用也大幅降低。

For-Value還有一個獨特優勢：它與具體的訓練算法無關，也不需要訪問模型的梯度資訊，因此可以在推理API接口上直接使用，理論上甚至適用於只提供推理服務而不開放權重的商業模型。

七、消融實驗：預測誤差權重的作用

研究團隊還通過一個消融實驗驗證了For-Value設計中的關鍵組件。

在公式中，有一個叫做α的權重項，它代表"預測誤差的相似性"——即訓練數據和驗證數據在每個詞元位置上的預測困難程度有多相近。如果把這個權重設為1（相當於忽略預測誤差，只看語義相似度），For-Value就退化成了一個簡單的文本嵌入相似度方法，與論文中的"Emb"基線等價。

實驗結果清晰地顯示：去掉α權重後，性能大幅下降，在視覺語言任務中尤為明顯。這驗證了預測誤差權重的不可或缺性。背後的直覺是：純粹的語義相似度告訴你兩條數據"說的是同一類事情"，但無法區分哪些部分對模型來說真正困難、真正需要學習。α權重通過聚焦於模型預測不自信的位置，有效過濾掉了模型已經輕鬆掌握的內容，讓數據價值評估更精準地指向真正有學習價值的信號。

贊助商廣告

此外，研究團隊還驗證了For-Value在不同模型規模下的穩定性：從1.5B參數一直擴展到72B參數，AUC和召回率始終保持在接近1.0的高水平，沒有出現性能隨規模下降的現象。這說明For-Value的理論基礎與模型規模具有良好的兼容性。

八、這套方法的局限與未來方向

任何技術都有其邊界，研究團隊在論文中坦誠地討論了For-Value的局限性。

For-Value目前專門針對微調階段的數據評估，不直接適用於預訓練階段的數據篩選。原因在於預訓練階段的模型尚未充分收斂，"無約束特徵假設"可能不成立，模型的表達能力還未充分釋放，此時最後一層的隱藏表示可能無法充分捕捉數據價值的全部信號。

此外，數據價值在訓練過程中會隨模型狀態的變化而演變。For-Value目前使用的是預訓練初始化時刻的模型進行評估，對於長期訓練中數據價值的動態變化沒有直接的處理機制。將For-Value擴展為支持訓練感知的動態數據篩選，或者整合進主動學習框架，是研究團隊指出的未來方向。

歸根結底，For-Value做的事情可以用一句話概括：用最少的計算資源，最準確地回答"這條數據值不值得用來訓練AI"這個問題。

過去，這個問題需要讓AI模型反覆"回憶"每一個訓練步驟，消耗數小時的計算時間，且難以大規模並行。For-Value證明，只要站在預訓練大模型已經積累的豐富"常識"上，只需要一次正向掃描，就能從數據的語義深度和預測困難程度兩個維度，快速而準確地完成這個評估。

對於AI開發者來說，這意味著數據清洗和數據篩選的成本可以大幅降低，也意味著在資源有限的條件下，可以更高效地找到真正有價值的訓練數據，而非依賴"用量彌補質"的粗放策略。對於普通用戶來說，這項技術的長遠影響體現在AI產品回答更準確、偏見更少、對各類知識的掌握更均衡——因為它從源頭上改善了AI學習的"食譜質量"。

有興趣深入了解技術細節的讀者，可以通過arXiv編號2508.10180查閱完整論文，其中包含詳細的數學推導、實驗設置說明和代碼鏈接。

贊助商廣告

Q&A

Q1：For-Value和傳統數據價值評估方法（如DataInf）最核心的區別是什麼？

A：傳統方法依賴梯度反向傳播計算，需要讓模型"倒著思考"每個訓練步驟對結果的影響，計算成本極高，且無法大批量並行處理。For-Value則完全不做反向計算，只需一次正向推理，利用模型最後一層的隱藏表示和預測誤差就能完成評分。在實際測試中，For-Value比HyperINF快5倍以上，在32B參數模型上節省超過30倍時間，同時準確率持平甚至更優。

Q2：For-Value在噪聲數據場景下為什麼比其他方法表現好那麼多？

A：傳統影響函數方法依賴模型收斂到最優解的假設，而在有40%噪聲的數據集裡這個假設很難成立，導致方法失效。For-Value識別乾淨數據的準確率達84.4%，而HyperINF只有15.1%，DataInf為33.2%。本質原因在於For-Value通過預測誤差權重α聚焦於模型真正感到困難的位置，能有效區分"讓模型學到真知識的數據"和"讓模型學到錯誤模式的噪聲數據"。

Q3：For-Value能用於預訓練階段的數據篩選嗎？

A：目前不能直接用於預訓練階段。For-Value的理論基礎依賴"無約束特徵假設"，即模型已經充分預訓練、具備足夠的表達能力。預訓練初期的模型尚未充分收斂，最後一層的表示可能無法捕捉數據價值的完整信號。研究團隊明確指出，將For-Value擴展到預訓練場景是未來的研究方向之一。