這項由復旦大學數據科學學院與上海數據科學重點實驗室、螞蟻集團聯合開展的研究,以預印本形式於2026年5月8日發布在arXiv上,編號為arXiv:2605.07465。有興趣深入了解的讀者可以通過該編號查詢完整論文。
**一 一個讓AI越來越難被難倒的好主意**
你有沒有注意到,當你用同一套練習題反覆刷題,到了某個節點,你的成績就很難再提高了?這不是因為你變笨了,而是因為那些題目對你來說已經太簡單——你的大腦不再需要努力思考,成績自然就到了天花板。
大型語言模型(也就是ChatGPT、Claude這類聊天AI背後的核心技術)面臨的困境與此驚人地相似。當研究人員想要訓練一個AI更好地"聽懂並執行複雜指令"時,他們發現現有的兩條路各有缺陷:一條路是請人類專家或更強大的AI來出題、評分,這既昂貴又難以持續擴大規模;另一條路是讓AI自己練習,但練習用的題目是固定難度的,AI一旦掌握了這批題目的套路,就又碰到了天花板。
復旦大學的研究團隊提出了一個聽起來簡單卻頗為精妙的解法:讓AI自己給自己出越來越難的題目,並在解題過程中不斷變強。這套方法被命名為SEIF,全稱是"Self-Evolving Reinforcement Learning for Instruction Following",可以理解為"用於指令遵循的自我進化強化學習"。這個名字有點學術味,但核心思想其實就像一個每天早起跑步的人——不是每天跑同樣的距離,而是每次比昨天多跑一點點,逼著自己持續突破。
所謂"指令遵循能力",指的是AI在接到一個帶有各種條件限制的任務時,能夠準確理解並完整滿足每一個條件的能力。舉個例子,如果你要求AI"用三段話、不超過100個字、以第一人稱、必須包含'責任'這個詞來描述氣候變化的影響",一個指令遵循能力強的AI會同時照顧到段數、字數、人稱、關鍵詞這四個要求;而一個能力弱的AI可能寫了洋洋灑灑兩百字,卻忘了分段,或者通篇沒有出現"責任"二字。
這種能力在現實使用中極為關鍵。當AI被部署在真實工作場景里——比如幫你寫合規報告、完成特定格式的商業提案、或者配合特定工具執行多步驟任務——任何一個條件的遺漏都可能造成真實損失。
**二 四個角色,一台永不停歇的自我訓練機器**
SEIF系統的核心設計可以用一個類比來理解:一所特殊的武道學校,裡面有四個角色,分別承擔出題、質檢、練功和評分的職責,而且隨著學員越來越強,出題人也要跟著升級,確保題目永遠對學員保持挑戰性。
第一個角色叫"Instructor",也就是出題人。它的工作是拿一道普通的基礎題(研究者稱之為"種子指令"),在上面附加各種限制條件,把它變成一道更難的題目。比如原題是"介紹一下電動汽車",出題人可能會加上"用三個子彈點、全部小寫、必須包含'可持續性'和'排放'這兩個詞、且每個說話者不超過三句話"這樣一批條件。
第二個角色叫"Filter",也就是質檢員。它的工作是檢查出題人出的題目有沒有自相矛盾的地方。因為有時候加了太多條件,這些條件會產生內在衝突——比如同時要求"全部小寫"和"第二段必須以大寫字母Agreement開頭",這兩個條件根本無法同時滿足。質檢員會把這類邏輯上不可能完成的題目直接過濾掉,避免用無效題目訓練AI。
第三個角色叫"Follower",也就是學員。它接收出題人生成的、經過質檢員審核的複雜指令,然後盡力寫出滿足所有條件的回答。這是整套系統里最核心的"被訓練者",最終要用於實際部署的也是這個角色。
第四個角色叫"Judger",也就是評分員。它的工作是逐條檢查學員的回答是否滿足了指令里的每一個限制條件,然後給出一個0到1之間的滿意度分數——滿足的條件越多,分數越高。這個分數會被反饋回系統,驅動學員的學習。
這四個角色是如何相互配合的呢?整個流程分兩個階段循環進行。第一階段是訓練出題人:質檢員和評分員檢查出題人出的題目是否有效、學員答得了多少,然後用"1減去學員的滿意度分數"來獎勵出題人。這意味著,出題人出的題目越難(學員越答不好),出題人得到的獎勵越高,於是它會越來越傾向於出那些正好卡在學員能力邊界上的難題。第二階段是訓練學員:用更新後的出題人生成一批新的複雜指令,讓學員作答,評分員評分,然後用這個分數來直接獎勵學員答得好的那些回答。學員因此學會了如何更好地滿足複雜條件。
完成這兩個階段後,系統進入下一輪循環:質檢員和評分員會被替換成當前最新版本的學員,確保它們的標準能跟上學員的進步。如此循環往復,出題人和學員在相互博弈中共同進化,這正是"自我進化"這個名字的由來。
**三 訓練背後的數學:讓AI用獎懲來學習**
SEIF使用了一種叫做GRPO(Group Relative Policy Optimization,組相對策略優化)的強化學習算法來驅動出題人和學員的進步。這個名字聽起來很拗口,但原理其實相當直覺化。
當出題人針對同一道種子題生成多個版本的複雜指令時,系統會比較這些版本的獎勵分數,然後通過對比獎勵高低來決定哪種出題方向值得鼓勵、哪種方向應該減弱。這避免了需要專門訓練一個"評判AI好壞"的輔助模型,讓整個流程更加自洽和高效。
出題人獲得獎勵的邏輯很清晰:如果它出的題目被質檢員標記為"有邏輯衝突",直接得零分;如果題目通過了質檢,就讓當前的學員來作答,然後用"1減去學員的滿意度"作為出題人的獎勵。這意味著當學員輕鬆答對時,出題人只能得到接近零的獎勵,而當學員答得一塌糊塗時,出題人可以得到接近滿分的獎勵——這驅動出題人持續產出對當前學員有足夠挑戰性的題目。
學員的獎勵邏輯則相反且直接:對每一道指令里的每個限制條件,評分員分別判斷是否滿足,滿足得1分,不滿足得0分,最終所有條件的平均分就是學員的獎勵。這種"逐條評分"的方式比"全部滿足才得分、只要有一條不滿足就得零分"的方式要寬容得多,也更能引導學員逐步改善,而不是因為偶爾滿足不了某個條件就得不到任何正反饋。
同時,GRPO算法內置了一個"距離參照點不能太遠"的約束機制(即KL散度正則化)。這防止了學員為了得高分而走極端——比如輸出一段亂碼碰巧滿足了所有格式要求,卻完全失去了正常語言模型的能力。這個約束確保了學員在變強的同時,仍然保持了原本作為語言模型的基本素養。
**四 一個關鍵的設計細節:質檢員和評分員隨學員一起成長**
這裡有一個特別值得關注的設計決策,也是SEIF區別於許多其他自我訓練方法的地方。
質檢員和評分員並不是從頭到尾固定不變的。在每一輪循環開始時,系統都會用當前最新版本的學員來重新實例化質檢員和評分員——也就是說,判斷題目是否有衝突、判斷答案是否滿足條件的"標準",會隨著學員的進步而升級。
為什麼這很重要?因為一個能力較弱的評分員可能會對一些模糊的條件滿足情況過於寬鬆,而隨著學員變強,更強的評分員能識別出更細微的條件不滿足情況,從而提供更嚴格的反饋。如果評分員一直停留在初始水平,它可能逐漸無法準確判斷一個越來越強的學員的回答質量,導致獎勵信號失去意義。
研究團隊用實驗驗證了這一設計的價值:當他們把質檢員和評分員固定為最初的基礎模型,不隨學員升級時,系統的最終表現明顯下降。具體來說,在IFEval這個基準測試上,固定評判標準的版本比自適應更新的版本低了1.8分,在CFBench基準上低了1分,在FollowBench基準上低了1.9分。這些數字背後的含義是:讓評判標準和學員同步進化,對於維持有效訓練信號至關重要。
**五 實驗結果:五種模型、六個評測、三輪進化**
研究團隊在五種不同規模和架構的語言模型上測試了SEIF系統,這五種模型分別是:參數量15億的Qwen2.5-1.5B-Instruct、參數量70億的Qwen2.5-7B-Instruct、Meta公司的Llama-3.1-8B-Instruct、參數量140億的Distill-Qwen-14B,以及R1-0528-Qwen3-8B。
評測使用了六個不同角度的指令遵循基準,覆蓋了格式約束滿足(IFEval)、多約束複雜指令(CFBench)、多級細粒度約束(FollowBench)、寫作導向任務(WritingBench)、智能體場景中的指令遵循(AgentIF),以及多輪多語言場景(Multi-IF)。
經過三輪自我進化訓練後,每個模型的表現都出現了可觀的提升。以Qwen2.5-7B為例,IFEval得分從73.9提升到78.6,提高了4.7分;CFBench從47.0提升到51.0,提高了4分;WritingBench從57.2提升到63.8,提高了6.6分。140億參數的Distill-Qwen-14B在IFEval上達到了80.0分,比起點提高了5.1分,這個數字已經超過了許多專門優化過的7B到8B規模的指令遵循模型。
即便是最小的1.5B模型,也從SEIF中獲得了穩定的收益。這個發現意味著自我進化訓練並非大模型的專利,小模型同樣可以通過這種機制突破自身能力邊界,儘管絕對分數依然低於更大的模型。
與當時的頂尖前沿模型相比,SEIF訓練後的7B模型雖然仍然不及Claude-Opus-4.7(IFEval 89.1)或GPT-4o(84.8),但已經超越了多個專門針對指令遵循任務優化的同規模模型,例如SPAR-8B-DPO(82.4)的部分指標,以及Crab-7B-DPO(57.7)、Conifer-7B-DPO(52.3)的絕大多數指標。
**六 與其他方法的橫向比較:動態難度是關鍵變量**
研究團隊還做了一組更直接的橫向對比實驗,將SEIF與多種同樣不依賴外部強大模型或人工標註的自我訓練方法進行了比較。這些方法包括基於指令反向翻譯的Humpback、基於語言反饋進化的SELF、讓模型自己評判答案質量的Self-Rewarding、以及在Self-Rewarding之上再加一層"評判評判"的Meta-Rewarding,還有讓模型循環自我增強的I-SHEEP等。
結果顯示,這些靜態難度的自我訓練方法在IFEval上最多能比基礎模型提升2.7分(Meta-Rewarding達到76.6),但SEIF達到了78.6,超出了2分。更有說服力的是消融實驗:當研究者把SEIF里出題人進化的部分去掉,只保留學員自我練習(相當於把SEIF降級為一種靜態難度的自我訓練方法),IFEval得分從78.6掉回了75.9。這一對比非常清晰地指向了一個結論:不是自我訓練本身帶來了大幅提升,而是"題目難度會隨著學員成長而動態調整"這一設計才是關鍵。
此外,研究者還驗證了SEIF並沒有以犧牲通用能力為代價來換取指令遵循能力的提升。在GPQA-Diamond(研究生級別科學問答)、MMLU-Pro(綜合知識理解)、BBEH(邏輯推理)以及AIME(數學競賽題)這四個通用能力基準上,SEIF訓練後的模型與基礎模型相比,基本保持了原有水平,部分指標甚至有小幅提升。這說明SEIF是在做"加法",而不是"左右手互搏"。
**七 題目是怎麼一步步變難的:從宏觀到細節**
研究團隊用數據可視化的方式展示了訓練過程中題目分布的變化,結果頗為直觀。他們把三輪訓練中使用的所有指令提取成高維向量表示,然後用降維技術將其壓縮到二維平面上進行觀察。
在平面圖上,三輪訓練數據各自形成了一個點群(cluster),三個點群之間既有重疊也有明顯的分離,且各自的"重心"位置逐輪移動。這說明SEIF不只是在反覆使用同一批題目,而是每一輪都真正更新了訓練數據的分布——同時保持了語義連續性,確保新題目和舊題目在主題上有傳承,而不是完全割裂。
從限制條件類型的變化趨勢來看,這種進化更加具體可感。在第一輪訓練中,高頻出現的條件類型集中在"段落數量"(占8.8%)、"句子數量"(8.3%)、"詞數"(10.6%)、"元素限制"(9.3%)這類基礎格式要求上。到了第三輪,這些簡單格式條件的比例大幅下降,而"加亮顯示特定內容"(從2.5%升至12.4%)、"子彈點數量"(從3.2%升至12.0%)、"詞數精確控制"(從10.6%升至17.6%)、"定製格式"(從2.4%升至5.5%)、"基於角色的限制"(從0.4%升至3.1%)以及"面向特定受眾"(從0.5%升至3.0%)這類更複雜、更結構化的條件占比顯著上升。
這種趨勢的內在邏輯是:當學員在第一輪已經學會了如何數段落、控制句子數之後,這類條件對它來說太簡單了,出題人滿足不了得高獎勵的需求,於是被迫"創新",轉向那些學員還沒掌握好的更複雜條件類型。這個自然淘汰和替換的過程,正是系統自我進化的體現。
**八 早期打牢基礎,晚期點到為止:一個實用的訓練策略發現**
研究團隊在分析訓練策略時發現了一個值得關注的規律,這個規律對未來設計類似的自我進化系統具有參考價值。
他們比較了六種不同的訓練輪次分配方案。用"第一輪訓練幾個Epoch(輪次)、第二輪幾個、第三輪幾個"來描述,比如"3-1-1"意味著第一輪訓練3個Epoch,第二輪和第三輪各訓練1個Epoch。對比結果顯示,所有分配方案中,"3-1-1"(早期密集、後期節制)的方案在綜合六個基準上的表現最好,而"1-1-3"(晚期密集)的方案表現明顯更差。
為什麼會這樣?研究團隊通過分析各輪次的獎勵曲線找到了解釋。採用早期密集訓練的策略時,模型在第一輪就建立了紮實的基礎能力,進入第二輪和第三輪時初始獎勵更高,且隨訓練步驟穩步提升。而採用晚期密集訓練的策略時,模型在第二輪的獎勵動態明顯更差,說明沒有打好基礎的學員在面對進化後的更難題目時,學習效率反而更低。
此外,過度訓練後期演化出的指令(即題目已經變得非常複雜、角度非常特殊),可能會讓模型過度適應一種局部的指令風格,反而在更廣泛的測試場景下表現下滑——這是一種過擬合現象。相比之下,在後期保持節制,只做"小火慢燉"式的微調,既能吸收新題目帶來的進階資訊,又不至於把早期打好的通用能力基礎磨損掉。
這一發現用更日常的語言來表達,就是:在自我進化式的學習中,早期打好基礎極為重要;越到後期,每一輪訓練的邊際收益越小,應該減少訓練強度以避免矯枉過正。這和人類學習中"紮實打好地基、後期精進而非死磕"的經驗不謀而合。
**九 質檢員和評分員到底靠不靠譜?**
有一個顯而易見的擔憂:SEIF整個系統里,質檢和評分都是由AI自己來做的,那這套自我評判機制夠不夠可靠?研究團隊專門做了一組實驗來回答這個問題。
他們從公開的VerInstruct數據集中抽取了400個樣本,請三位人工標註員來做獨立判斷——一批用於評估質檢員的過濾效果(人工判斷題目是否有衝突),另一批用於評估評分員的評分效果(人工判斷回答是否滿足各個約束條件)。然後將AI的判斷結果與人工標註進行比對。
結果顯示,質檢員在三輪訓練中的準確率(Accuracy)穩定在0.79到0.80之間,F1分數(衡量準確率與召回率綜合表現的指標)在0.78到0.80之間。評分員的準確率在0.73到0.74之間,F1分數在0.70到0.72之間。兩個模組在三輪中的波動都很小,說明隨著學員進化而更新的質檢員和評分員,並沒有出現"越來越偏離人類判斷"的漂移現象。
評分員的準確率略低於質檢員,這是預期中的——判斷一個條件是否真的被"語義上"滿足,比判斷兩個條件是否存在邏輯衝突要主觀得多,本身就更難做到與人完全一致。研究團隊認為0.73的準確率對於訓練目的而言是可以接受的,因為在強化學習的訓練場景下,重要的是信號的方向性(哪個更好)而非絕對精確度。
研究團隊還進行了一次盲測式的人工偏好評估:從VerInstruct樣本中抽取指令,分別讓基礎模型、SEIF模型、不含出題人進化的版本、Meta-Rewarding方法各生成一個回答,然後讓標註員在不知道哪個回答來自哪個模型的情況下,判斷哪個更好地遵循了指令。結果顯示,SEIF的回答在62.8%的對比中優於基礎模型,僅在19.7%的對比中落後;相比去掉出題人進化的版本,SEIF贏了56.5%;相比Meta-Rewarding,SEIF贏了53.5%。這些人工評估結果與自動基準測試的結論一致,說明SEIF的提升是真實的指令遵循質量改善,而非對自身評分體系偏見的過擬合。
**十 從三輪題目進化看AI如何逼自己成長**
為了讓讀者更直觀地感受SEIF是怎麼讓題目越來越難的,研究論文中提供了多個案例,展示了同一道基礎題在三輪訓練中是如何被逐步加碼的。
以一道"把餐廳關鍵資訊轉換成流暢英文句子"的任務為例,基礎題是把餐廳名稱、菜系、顧客評分、周邊地標這四項資訊寫成一句話。第一輪出題人在上面加了三個限制:所有資訊包含在一句話內、至少20個詞、用Markdown斜體標註餐廳名和周邊地標。這是基礎格式控制要求。到了第二輪,限制條件有了微妙變化:最低詞數提升到25詞,標註格式從斜體換成了粗體,標註對象也從"地標"改成了"周邊餐廳"——這要求模型區分得更精準。進入第三輪,條件數量增加到五個,內容難度大幅躍升:使用具體形容詞描述餐廳氛圍和服務質量(語義要求)、限制在30詞以內(從最低要求變成了上限約束)、以過去時寫作(時態限制)、提到餐廳附近的Café Rouge(詞彙內容要求),以及加入一個關於印度菜系類型的從句(結構複雜性要求)。
從這個案例可以清楚地看到,題目的難度演化有幾個典型模式:條件數量從3個增加到5個,單個條件的精確度要求提高(從"大約20詞"到"不超過30詞"),條件類型從格式擴展到語義、時態、風格,多個條件之間的潛在張力也在增大(既要有描述性形容詞,又要控制在30詞以內)。這種進化方式確保了題目始終比當前學員的舒適區更難,但又不至於完全不可能完成——就像一個好的健身教練,知道該把槓鈴加到什麼重量才能刺激肌肉生長,而不是直接讓你舉超出能力極限的重量造成受傷。
**說到底,這項研究在做什麼**
歸根結底,復旦大學的這個團隊做了一件很有意思的事:他們把"讓AI持續變強"這個問題,轉化成了一個不需要外部幫助的內部循環。出題人和學員像兩個互相較勁的棋友,一個不斷想方設法出對方不會的題,另一個拼命學習解出這些題——兩個人在博弈中共同進步,而不是其中一個始終扮演老師、另一個始終扮演學生。
這種思路對AI領域的長遠發展有一定啟發意義。當AI能力不斷提升,依靠人類專家來持續提供反饋和訓練信號的成本會越來越高,甚至在某些領域會超出人類的判斷能力。如果一套系統能夠在有限的外部輸入基礎上,自己產生越來越具有挑戰性的訓練環境,就為模型的持續改進提供了一條更具可擴展性的路徑。
當然,這項研究也坦誠地承認了一個現有局限:真實世界裡用戶給AI的指令,可能遠比訓練數據里的複雜——動輒上千個單詞,包含多種交織在一起的約束類型,甚至涉及外部文檔的引用和隱含要求的理解。現有的SEIF版本在這些極度複雜的場景下還有成長空間。不過,系統在AgentIF(一個包含平均1723詞、約12個約束條件的高複雜度評測集)上依然取得了改善,說明這條路有實際可行性。
對於想進一步了解技術細節的讀者,完整論文和相關代碼可以通過arXiv編號arXiv:2605.07465查詢,相關代碼和數據也已在GitHub上公開。
Q&A
Q1:SEIF的Instructor(出題人)和Follower(學員)是兩個完全不同的模型嗎?
A:不是。在SEIF系統里,Instructor和Follower都從同一個基礎模型初始化,然後分別經過各自的訓練目標進行優化。它們共享起點,但隨著訓練的推進,各自朝著不同的方向進化——Instructor被訓練得越來越擅長出難題,Follower被訓練得越來越擅長解難題。Filter(質檢員)和Judger(評分員)則在每輪開始時直接複製當前最新的Follower參數,在訓練過程中保持凍結,僅用於推理而不更新權重。
Q2:SEIF訓練後的模型會不會在指令遵循以外的能力上變差?
A:從實驗結果來看,總體上不會出現明顯的能力退化。研究團隊在GPQA-Diamond、MMLU-Pro、BBEH、AIME這四個通用能力評測上驗證了這一點。Distill-Qwen-14B在通用基準上的平均分從59.4微升到60.3,Llama-3.1-8B從24.0小幅提升到24.4。不過,Qwen2.5-7B在GPQA-Diamond上從32.3小幅波動到32.8,屬於正常區間。整體而言,SEIF是在原有能力基礎上增強指令遵循,而非以犧牲其他能力為代價。
Q3:SEIF的三輪訓練中,每輪訓練多少步、用多少數據?
A:研究團隊使用了5120條種子指令作為訓練數據基礎。在GRPO訓練參數上,全局批次大小為96,每次推理採樣5個候選回答(Rollout n=5),Rollout批次大小為384。在訓練步數上,Instructor在每一輪(T1、T2、T3)各訓練13步,而Follower在第一輪訓練39步、第二輪和第三輪各訓練13步——這正是論文中發現的"早期充分訓練、後期節制訓練"策略的體現。整個訓練過程在8塊H200 GPU上運行,另外4塊H200用於vLLM推理服務。






