我們教孩子學習時,都知道要循序漸進,先學簡單的加減乘除,再學複雜的方程式。
意外的是,在訓練AI模型時,這個基本常識竟然被忽略了。研究人員通常把所有訓練數據隨機打亂,就像把小學到大學的所有課本混在一起,隨便挑一本讓學生學習。
2025年6月,微軟研究院提出DELT(Data Efficacy in LM Training)方法,通過優化訓練數據使用順序,讓AI性能提升且無需額外計算成本。DELT方法包含數據評分、選擇和排序三步驟,相關論文發表在Arxiv上。
微軟的研究團隊提出了一個全新的概念:「數據效力」(Data Efficacy)。以往的研究主要關注「數據效率」,也就是如何挑選最好的訓練數據,就像在菜市場精挑細選最新鮮的食材。而數據效力則關注如何安排這些數據的使用順序,就像大廚知道什麼時候下什麼料,才能讓菜品達到最佳口感。
為了解決這個問題,研究團隊開發了一套名為DELT的完整方法體系。這套方法就像一本詳細的烹飪指南,包含三個核心步驟:首先給每份數據打分(就像給食材評級),然後選擇使用哪些數據(就像決定今天用哪些食材),最後安排數據的使用順序(就像制定烹飪的先後步驟)。
給數據打分:不只看質量,還要看時機
研究團隊創新性地提出了LQS評分方法,這種方法不僅考慮數據的質量,還考慮數據的可學習性,也就是AI在什麼階段最適合學習這個數據。
可學習性的概念特別有趣。研究人員發現,同一份數據在AI學習的不同階段會產生不同的效果。就像學鋼琴時,簡單的音階練習在初學階段很有用,但對已經有一定基礎的學生來說就顯得過於簡單了。相反,複雜的樂曲對初學者來說太難,但對有基礎的學生來說正好能提升技能。
LQS方法通過觀察AI在學習過程中對每份數據的「反應」來評分。如果一份數據在訓練初期讓AI很吃力,但隨著學習的進行逐漸變得容易消化,那麼這份數據就獲得高分。這種數據通常包含豐富的知識,雖然複雜但很有價值。相反,如果數據從始至終都讓AI無所適從,可能就是噪音數據,應該被過濾掉。
質量評分則關注數據與AI學習目標的一致性。就像做菜時每種調料都應該讓整道菜更美味,每份訓練數據也應該讓AI朝著正確的方向學習。研究團隊通過觀察AI在學習某個數據後,是否朝著預期的方向前進來判斷數據質量。
數據排序:從亂燉到精心編排
解決了數據評分問題後,下一個挑戰就是如何安排數據的使用順序。傳統方法要麼完全隨機打亂數據,要麼簡單地按難易程度排序。研究團隊發現,這兩種方法都有明顯缺陷。
隨機打亂就像做菜時隨便抓調料,雖然省事但效果不佳。而簡單排序雖然遵循了從易到難的原則,但會產生一個嚴重問題:AI學會新知識後,可能會忘記之前學過的內容。這就像學生專心練習高難度曲子時,可能會忘記基礎的指法。
為了解決這個問題,研究團隊提出了「摺疊排序」方法。這種方法的核心思想是讓AI在學習過程中反覆接觸不同難度的數據,而不是一次性從簡單學到複雜。
具體來說,摺疊排序會把所有數據按難度排序後,再巧妙地重新組織。比如原本的順序是1、2、3、4、5、6(從易到難),摺疊排序會變成1、4、2、5、3、6的順序。這樣AI在學習簡單內容(1)後,會接觸一些複雜內容(4),然後回到簡單內容(2),再學習複雜內容(5),如此反覆。
這種方法的好處是顯而易見的。AI既能循序漸進地學習,又不會因為長時間接觸同一難度的內容而產生偏食現象。
實驗驗證:數字說話的時刻
為了驗證DELT方法的有效性,研究團隊進行了大規模的實驗。他們使用了多個不同規模的AI模型和數據集,就像在不同的廚房裡,用不同的設備和食材來驗證同一套烹飪方法。
實驗結果令人振奮。在八個不同的測試任務中,使用DELT方法訓練的AI模型平均性能提升了1.65%。這個數字聽起來可能不大,但在AI領域,即使0.1%的提升都可能需要投入巨大的計算資源。更重要的是,這種提升是在不增加任何額外計算成本的情況下實現的。
研究團隊還發現,DELT方法在不同規模的模型上都有效果。無論是小型的1.6億參數模型,還是大型的10億參數模型,都能從這種方法中受益。這說明數據使用順序的重要性是普遍存在的,不只適用於特定規模的AI系統。
特別值得一提的是,DELT方法還能與傳統的數據篩選方法結合使用。也就是說,你既可以挑選最好的食材(數據效率),又可以安排最佳的烹飪順序(數據效力),兩者相得益彰,效果更佳。實驗顯示,當兩種方法結合使用時,AI的性能提升甚至超過了單獨使用任一方法的效果。
跨領域驗證:不只是紙上談兵
為了證明DELT方法的通用性,研究團隊還在數學和編程兩個專業領域進行了驗證。
在數學領域,他們使用專門的數學數據集訓練AI解決數學問題。結果顯示,使用DELT方法訓練的AI在數學推理任務上的表現明顯更好。這說明即使在需要嚴密邏輯思維的數學領域,學習順序的安排也能產生顯著影響。
在編程領域的實驗同樣令人印象深刻。研究團隊訓練AI學習編寫代碼,結果發現按照DELT方法安排的學習順序能讓AI更好地掌握編程技能。這對於當前蓬勃發展的AI編程助手技術來說,具有重要的實用價值。
這些跨領域的驗證結果說明,DELT方法揭示的可能是人工智慧學習的一個基本規律。無論AI要學習什麼技能,合理安排學習內容的順序都能提升學習效果。
深入機制:為什麼順序如此重要
研究團隊還深入分析了為什麼數據使用順序會如此重要。他們發現,現代AI模型通常只訓練一輪(也就是每份數據只看一次,epoch=1),這與早期需要反覆訓練多輪的模型完全不同(epoch>1)。這種變化使得數據的使用順序變得異常關鍵。
早期的AI模型就像反覆研讀同一本教科書的學生,即使第一遍讀得不太好,後續的多次重複也能彌補。但現代AI模型更像是速讀課程的學生,每本書只讀一遍就要掌握全部內容,這就對閱讀順序提出了極高要求。
研究團隊通過大量實驗發現,如果AI在學習初期就接觸過於複雜的內容,會影響後續的學習效果。相反,如果一直學習簡單內容,又會錯過學習複雜知識的最佳時機。DELT方法恰好在這兩個極端之間找到了平衡點。
他們還發現,摺疊排序方法能有效緩解AI的遺忘問題。傳統的課程學習方法雖然遵循從易到難的原則,但AI在學習後期可能會忘記早期學過的簡單知識。摺疊排序通過在學習過程中適時回顧簡單內容,幫助AI保持對全部知識的掌握。
實際應用:改變AI訓練的遊戲規則
DELT方法的意義遠不止學術研究。在實際應用中,這種方法可能會改變整個AI行業的訓練方式。
首先,這種方法幾乎不需要額外的計算資源。對於那些計算預算有限的研究機構和公司來說,DELT提供了一種免費的性能提升方案。他們只需要重新安排現有數據的使用順序,就能獲得更好的AI模型。
其次,DELT方法特別適合當前的大規模AI訓練趨勢。隨著訓練數據規模越來越大,如何有效利用這些數據成為關鍵挑戰。DELT提供了一種系統性的解決方案,不僅能提升性能,還能提高訓練的穩定性。
對於AI應用開發者來說,DELT方法也帶來了新的思路。他們可以根據具體應用場景的需求,設計個性化的數據排序策略。比如,開發醫療AI時可能需要特別注意數據的專業性遞進;開發教育AI時可能需要更多考慮知識的邏輯順序。
局限性與未來展望:科學研究的誠實態度
研究團隊也坦誠地指出了當前方法的局限性。DELT方法目前主要在語言模型上進行了驗證,在圖像、音頻等其他類型的AI模型上的效果還需要進一步研究。
另外,LQS評分方法需要一個高質量的小規模數據集來計算評分,這在某些應用場景下可能不容易獲得。研究團隊正在探索更簡單、更通用的評分方法。
不過,這些局限性並不影響DELT方法的重要價值。研究團隊已經在計劃將方法擴展到更大規模的模型和更多類型的數據上。他們還希望開發更簡單易用的工具,讓更多研究者和開發者能夠輕鬆使用這種方法。
至頂AI實驗室洞見
模型訓練中數據、算力、算法缺一不可。關於訓練數據,研究人員逐漸總結出的一項重要經驗是」Garbage in, Garbage out」,也就是「垃圾(數據)進(模型),垃圾(回答)出(模型)」。所以數據質量開始受到重視。
訓練數據光有質量不行,還要講究數據的排序方法。
正如人類教育中強調的因材施教、循序漸進,AI訓練也需要精心設計的教學計劃。DELT方法為我們提供了制定這種計劃的科學工具,讓AI能夠更加高效地學習。
未來,數據效力可能會成為AI訓練的一個重要研究方向。就像OpenAI研究員在談論GPT4.5時強調數據效率,如何更好地組織和排序訓練數據可能會吸引越來越多研究者的關注。
論文地址:https://arxiv.org/abs/2506.21545
END
本文來自至頂AI實驗室,一個專注於探索生成式AI前沿技術及其應用的實驗室。致力於推動生成式AI在各個領域的創新與突破,挖掘其潛在的應用場景,為企業和個人提供切實可行的解決方案。
Q&A
Q1:什麼是數據效力?它和數據效率有什麼區別?
A:數據效力關注如何安排訓練數據的使用順序來提升AI性能,而數據效率關注如何選擇最好的訓練數據。打個比方,數據效率是挑選最好的食材,數據效力是安排最佳的烹飪順序。兩者互補,都很重要。
Q2:DELT方法會不會增加AI訓練的成本?
A:不會。DELT方法只是重新安排現有數據的使用順序,不需要額外的計算資源或時間。這就像用同樣的食材和烹飪時間,僅僅改變烹飪順序就能做出更美味的菜,是一種免費的性能提升。
Q3:DELT範式如何提升語言模型訓練效果?
A:DELT通過數據評分(Data Scoring)、數據選擇(Data Selection)和數據排序(Data Ordering)優化訓練數據組織。數據評分根據樣本質量、難度等屬性分配分數;數據選擇基於分數篩選最優子集;數據排序則打破傳統隨機打亂方式,按分數重新組織數據順序(如升序或降序)。這種方法在不增加數據規模或模型參數量的前提下,顯著提升模型性能。