這項由英屬哥倫比亞大學、Vector研究所與Meta聯合開展的研究,於2026年4月以預印本形式發布在arXiv平台,論文編號為arXiv:2508.10180v3。研究成果以"For-Value"為名,提出了一套全新的大語言模型與視覺語言模型數據價值評估框架。
每天,全球有數以億計的人在使用ChatGPT、文心一言、通義千問這樣的AI助手。這些系統之所以能回答問題、寫文章、分析圖片,根本原因在於它們接受了海量數據的"訓練"。然而,這裡藏著一個鮮少被外界關注的核心難題:訓練數據的質量參差不齊。一旦混入了錯誤標註、無關內容或帶有偏見的樣本,AI的回答就會出現事實性錯誤,甚至產生偏見。
這就好比一個廚師學藝——如果師傅傳授的食譜里有一半是錯的,哪怕這個廚師再聰明勤奮,做出來的菜也難以保證質量。為了解決這個問題,研究人員長期以來致力於開發"數據價值評估"技術:簡單說,就是給每一條訓練數據評分,找出哪些數據對AI真正有幫助,哪些是"爛食譜"需要丟棄。
然而,傳統的數據評分方法有一個致命的缺陷:計算成本極其高昂。現有主流方法需要讓AI模型"反向思考"——即進行所謂的梯度反向傳播計算,相當於讓廚師不僅要做菜,還要把整個做菜過程倒著重演一遍,逐步分析每個步驟對最終口味的影響。對於擁有數十億甚至數百億參數的現代大模型來說,這個過程消耗的時間和算力令人咋舌,往往需要數小時乃至數天。
正是在這個背景下,來自英屬哥倫比亞大學和Meta的研究團隊提出了一個顛覆性的問題:能不能不做"反向演算",僅靠"正向推理"就完成數據評分?他們的答案是肯定的,而這套方法就是本文要介紹的For-Value。
一、為什麼給訓練數據評分這麼難
要理解For-Value的價值,首先需要明白傳統方法到底難在哪裡。
現代AI模型的核心運作方式是"預測下一個詞"。給定一段文字,模型計算出所有可能的後續詞彙,並選擇概率最高的那個。這個過程從頭到尾是單向的——輸入進去,預測出來,一氣呵成,研究人員把這叫做"前向傳播",就像廚師按照食譜一步步做菜。
數據價值評估要回答的問題是:某一條特定的訓練數據,到底讓模型在處理某個驗證任務時變得更好還是更差?這聽起來直觀,但實現起來需要知道"如果去掉這條數據,模型的表現會怎麼變",而要回答這個問題,傳統方法需要追溯模型參數的變化軌跡,這就必須用到梯度反向傳播。
更棘手的是,現代大模型的參數量極其龐大,僅Llama-3或Qwen-2.5這類模型就有幾十億到幾百億個參數。計算每條數據對所有參數的影響,然後把這種影響傳遞到最終的預測結果上,相當於要在一個擁有數十億個變量的方程組裡逐一求解——這就是為什麼最先進的Hessian矩陣方法(一種用於捕捉參數相互作用的數學工具)對大模型來說根本不可行,而即便是近似計算的DataInf和HyperINF方法,完成一次數據評分也需要數小時。
此外,傳統方法還有一個批量處理的瓶頸:由於每條數據的梯度必須單獨計算,無法同時處理大量數據,這使得並行加速幾乎不可能實現,進一步拖慢了整體效率。
二、For-Value的核心思路:看"最後一層"就夠了
For-Value的核心洞察來自一個理論推導:在充分預訓練的大模型中,數據價值的信號其實已經被壓縮進了模型最後一層的隱藏表示里,無需逐層反向追溯。
用做菜的比喻來理解:當一道菜端上桌時,一位經驗豐富的美食評論家只需嘗一口最終成品,就能大致判斷哪些原材料(訓練數據)對這道菜貢獻最大——他不需要親自進廚房把每個烹飪步驟倒著重演一遍。For-Value的思路與此類似:利用預訓練大模型已經積累的豐富"味覺經驗",只看最終輸出層的表現,就能高效評估每條訓練數據的貢獻。
具體來說,這套方法基於一個數學上可以嚴格證明的結論(研究團隊在論文附錄中給出了完整證明):對於充分表達的大模型,某條訓練數據對驗證樣本的影響,可以用一個簡潔的閉合公式來表達,這個公式只依賴兩類資訊:第一,訓練數據和驗證數據在模型最後一層的"隱藏嵌入"(可以理解為模型對這條數據的深層語義理解);第二,兩者在每個詞元(token,即模型處理文本的最小單位)上的"預測誤差",也就是模型對每個位置詞元的預測概率與真實詞元之間的差距。
這個公式本質上是在衡量兩件事的相似程度:訓練數據和驗證數據在語義上有多相似(通過隱藏嵌入的內積來衡量),以及它們在哪些位置讓模型感到"困難"、預測不夠自信(通過預測誤差來衡量)。如果一條訓練數據與驗證數據語義相近,且在相同位置上讓模型感到困惑,那麼這條訓練數據對幫助模型處理該驗證任務就非常有價值——就像兩道菜用了相似的原材料,且在相同的步驟上容易出錯,那麼解決一道菜問題的經驗對另一道菜就很有幫助。
這裡有一個關鍵的理論前提叫做"無約束特徵假設":充分預訓練的大模型具有足夠強的表達能力,可以產生不受特定架構約束的自由嵌入表示。這個假設在大模型分析領域已被廣泛採用,是For-Value理論推導的基石。
三、從理論到實踐:For-Value算法是如何運作的
理解了核心思路之後,再來看For-Value的實際操作流程,就會發現它的優雅之處在於極度的簡潔。
整個評分過程只需要一次前向傳播(也就是讓數據正常經過模型,不做任何反向計算)。具體步驟是:首先,把待評估的驗證樣本輸入模型,記錄它在每個位置的最後一層隱藏嵌入和預測概率分布;然後,把所有訓練數據批量輸入模型,同樣記錄它們的最後一層隱藏嵌入和預測概率分布;最後,用公式計算每條訓練數據與驗證樣本之間的得分,排序輸出。
不過,這裡還有一個工程上的挑戰需要克服:預測誤差向量的維度等於詞彙表大小(通常超過十萬個詞元),直接計算會產生天文數字級別的內存消耗。研究團隊的應對策略是利用"稀疏性"——實際上,模型的預測概率質量高度集中在少數詞元上,真正需要關注的只是出現在當前批次樣本中的詞彙(稱為"批內詞彙"),這個數量通常遠小於完整詞彙表,從而將計算量大幅壓縮至可行範圍內。
由於整個過程不涉及任何反向傳播,每條數據的得分計算可以完全並行化處理——這意味著可以用大批次同時處理大量訓練數據,而不像傳統方法那樣必須逐條串行計算。這種批量並行能力是For-Value效率優勢的另一個重要來源。
四、實驗驗證:在多種任務上的表現
研究團隊在一系列任務上對For-Value進行了系統驗證,覆蓋了文本語言模型和視覺語言模型兩大類別,以及多種規模的模型。
在"影響力數據識別"任務上,目標是找出對某個測試樣本影響最大的訓練數據。研究團隊使用了三類文本任務:句子變換(如把句子中的詞順序倒排、把元音字母替換成星號等十種規則,每種規則100個樣本),以及有無推理過程的數學應用題(同樣十種題目類型,每種100個樣本)。在這些任務上,For-Value不論是在AUC(曲線下面積,衡量整體排序質量的指標)還是召回率(找到真正有影響力樣本的比例)上,都達到了接近滿分的水平,明顯優於傳統的Hessian-free方法,並與計算成本更高的DataInf和HyperINF方法相當甚至更優。
以Qwen-2.5-1.5B模型為例,在句子變換任務上,For-Value的召回率達到0.989,而最強的傳統基線HyperINF為0.934;在數學題任務上,For-Value召回率為0.998,而HyperINF為0.950。這個差距並不算小,畢竟在實際應用中多找出6%的有價值數據,意味著訓練效果的實質性提升。
在視覺語言模型(同時處理圖片和文字的模型)上,研究團隊使用了Qwen2.5-VL-3B和Llama-3.2-11B-Vision兩款模型,測試了"主體生成"(為特定物體或動物的圖片生成描述)和"風格生成"(為卡通、像素藝術、線描風格圖片生成描述)兩類任務。
主體生成任務上,For-Value同樣表現出色,在11B模型上的召回率為0.985,高於HyperINF的0.919。更值得關注的是風格生成這個更困難的任務——傳統方法在這裡集體"啞火",AUC僅在0.49到0.52之間徘徊(接近隨機猜測的0.5),而For-Value的AUC高達0.895至0.974,展現出壓倒性的優勢。這說明在數據分布複雜、類別間差異微妙的場景下,For-Value的理論設計更貼近大模型的實際學習機制。
在"錯誤標註數據檢測"任務上,研究團隊使用了經典的貓狗分類數據集,人為地把50%的標籤調換(把貓標成狗,把狗標成貓),然後測試各方法能否從這些混亂數據中找出被錯誤標註的樣本。在Qwen-VL-3B模型上,For-Value的AUC為0.885,比最強基線HyperINF的0.770高出11.5%;召回率達到0.999,也比HyperINF的0.916高出8.3%。研究團隊還驗證了For-Value在不同噪聲比例(40%、50%、60%)下的魯棒性,結果顯示各場景下表現均保持穩定。
五、實用價值:幫助模型從噪聲數據中學到真正有用的東西
除了識別重要數據和錯誤數據,研究團隊還測試了For-Value在實際微調場景中的價值——也就是用它來篩選高質量訓練子集,然後只用這些精選數據來微調模型,看最終性能如何。
第一個場景是數學推理,使用GSM8K數據集(一個包含7470道數學應用題的標準測試集)。以Llama-3.1-8B模型為基礎,用For-Value篩選出最有價值的5%訓練數據進行微調,最終在GSM8K測試集上的準確率達到48.3%,不僅比使用全量數據訓練(47.8%)還要高,更比最強基線HyperINF高出5.5%。即便只選取1%的數據,For-Value仍比所有基線方法高出最多3.3%。與此同時,For-Value完成數據評分只需要0.3小時,而HyperINF需要2.4小時,DataInf需要1.9小時,Hessian-free需要1.4小時——效率提升超過5倍。
第二個場景更接近現實中的"髒數據"挑戰。研究團隊構建了一個名為"Noise-Huatuo-Complex-CoT"的醫療問答數據集:從原始的5000條醫療推理數據中,隨機對40%的樣本注入噪聲——要麼在推理過程中隨機刪除若干詞彙,要麼隨機插入"foo"、"bar"、"baz"這樣毫無意義的噪聲詞。這模擬了真實世界中訓練數據質量參差不齊的情況。
在如此嘈雜的數據環境下,For-Value僅用5%的高質量數據微調,就在五個醫療QA測試集上取得了平均60.31%的準確率,比次優方法DataInf高出3%,比HyperINF高出4%。使用10%數據時,平均準確率進一步提升至62.35%,全面領先所有基線。研究團隊還專門統計了各方法在找出真正乾淨數據方面的準確率:For-Value以84.4%遙遙領先,而Hessian-free為48.2%,DataInf為33.2%,HyperINF僅有15.1%——這解釋了為什麼在噪聲數據場景下,For-Value的優勢特別明顯,因為它真正具備區分高質量數據和噪聲數據的能力。
第三個場景是醫學視覺問答,使用PMC-Reasoning數據集,評估Qwen2.5-VL-3B模型。同樣的模式:For-Value在10%和20%數據篩選場景下均取得最高平均準確率(分別為52.23%和52.67%),且評分耗時僅0.4小時,而基線方法需要1.3至1.7小時。
六、效率優勢:從幾小時壓縮到幾分鐘
效率方面的提升幅度足以改變這類技術的實用價值。
在大型模型上,這種差距尤為顯著。以Qwen-32B模型為例,HyperINF完成一次數據評分需要約6小時,而For-Value只需幾百秒——兩者相差超過30倍。更重要的是,For-Value不需要對模型進行任何微調訓練就可以直接使用,而DataInf和Hessian-free都需要先把模型微調到收斂,這本身就是一筆額外的時間和算力開銷。
研究團隊在論文中提供了詳細的計算複雜度對比表格。傳統方法的計算複雜度通常與模型層數、參數量成正比甚至更高次方增長,而For-Value的複雜度主要取決於模型維度和批內詞彙表大小的乘積——由於批內詞彙表通常遠小於完整詞彙表(通常不超過2000個詞元),實際計算量非常有限,且內存占用也大幅降低。
For-Value還有一個獨特優勢:它與具體的訓練算法無關,也不需要訪問模型的梯度資訊,因此可以在推理API接口上直接使用,理論上甚至適用於只提供推理服務而不開放權重的商業模型。
七、消融實驗:預測誤差權重的作用
研究團隊還通過一個消融實驗驗證了For-Value設計中的關鍵組件。
在公式中,有一個叫做α的權重項,它代表"預測誤差的相似性"——即訓練數據和驗證數據在每個詞元位置上的預測困難程度有多相近。如果把這個權重設為1(相當於忽略預測誤差,只看語義相似度),For-Value就退化成了一個簡單的文本嵌入相似度方法,與論文中的"Emb"基線等價。
實驗結果清晰地顯示:去掉α權重後,性能大幅下降,在視覺語言任務中尤為明顯。這驗證了預測誤差權重的不可或缺性。背後的直覺是:純粹的語義相似度告訴你兩條數據"說的是同一類事情",但無法區分哪些部分對模型來說真正困難、真正需要學習。α權重通過聚焦於模型預測不自信的位置,有效過濾掉了模型已經輕鬆掌握的內容,讓數據價值評估更精準地指向真正有學習價值的信號。
此外,研究團隊還驗證了For-Value在不同模型規模下的穩定性:從1.5B參數一直擴展到72B參數,AUC和召回率始終保持在接近1.0的高水平,沒有出現性能隨規模下降的現象。這說明For-Value的理論基礎與模型規模具有良好的兼容性。
八、這套方法的局限與未來方向
任何技術都有其邊界,研究團隊在論文中坦誠地討論了For-Value的局限性。
For-Value目前專門針對微調階段的數據評估,不直接適用於預訓練階段的數據篩選。原因在於預訓練階段的模型尚未充分收斂,"無約束特徵假設"可能不成立,模型的表達能力還未充分釋放,此時最後一層的隱藏表示可能無法充分捕捉數據價值的全部信號。
此外,數據價值在訓練過程中會隨模型狀態的變化而演變。For-Value目前使用的是預訓練初始化時刻的模型進行評估,對於長期訓練中數據價值的動態變化沒有直接的處理機制。將For-Value擴展為支持訓練感知的動態數據篩選,或者整合進主動學習框架,是研究團隊指出的未來方向。
歸根結底,For-Value做的事情可以用一句話概括:用最少的計算資源,最準確地回答"這條數據值不值得用來訓練AI"這個問題。
過去,這個問題需要讓AI模型反覆"回憶"每一個訓練步驟,消耗數小時的計算時間,且難以大規模並行。For-Value證明,只要站在預訓練大模型已經積累的豐富"常識"上,只需要一次正向掃描,就能從數據的語義深度和預測困難程度兩個維度,快速而準確地完成這個評估。
對於AI開發者來說,這意味著數據清洗和數據篩選的成本可以大幅降低,也意味著在資源有限的條件下,可以更高效地找到真正有價值的訓練數據,而非依賴"用量彌補質"的粗放策略。對於普通用戶來說,這項技術的長遠影響體現在AI產品回答更準確、偏見更少、對各類知識的掌握更均衡——因為它從源頭上改善了AI學習的"食譜質量"。
有興趣深入了解技術細節的讀者,可以通過arXiv編號2508.10180查閱完整論文,其中包含詳細的數學推導、實驗設置說明和代碼鏈接。
Q&A
Q1:For-Value和傳統數據價值評估方法(如DataInf)最核心的區別是什麼?
A:傳統方法依賴梯度反向傳播計算,需要讓模型"倒著思考"每個訓練步驟對結果的影響,計算成本極高,且無法大批量並行處理。For-Value則完全不做反向計算,只需一次正向推理,利用模型最後一層的隱藏表示和預測誤差就能完成評分。在實際測試中,For-Value比HyperINF快5倍以上,在32B參數模型上節省超過30倍時間,同時準確率持平甚至更優。
Q2:For-Value在噪聲數據場景下為什麼比其他方法表現好那麼多?
A:傳統影響函數方法依賴模型收斂到最優解的假設,而在有40%噪聲的數據集裡這個假設很難成立,導致方法失效。For-Value識別乾淨數據的準確率達84.4%,而HyperINF只有15.1%,DataInf為33.2%。本質原因在於For-Value通過預測誤差權重α聚焦於模型真正感到困難的位置,能有效區分"讓模型學到真知識的數據"和"讓模型學到錯誤模式的噪聲數據"。
Q3:For-Value能用於預訓練階段的數據篩選嗎?
A:目前不能直接用於預訓練階段。For-Value的理論基礎依賴"無約束特徵假設",即模型已經充分預訓練、具備足夠的表達能力。預訓練初期的模型尚未充分收斂,最後一層的表示可能無法捕捉數據價值的完整信號。研究團隊明確指出,將For-Value擴展到預訓練場景是未來的研究方向之一。






