普林斯頓大學研發的AI「調度員」：讓大模型同時學多件事不再顧此失彼

這項由上海交通大學與普林斯頓大學聯合完成的研究，於2026年6月以預印本形式發布，編號為arXiv:2606.11182，感興趣的讀者可通過該編號查閱完整論文。

贊助商廣告

**當AI助手試圖同時學會所有事情時，會發生什麼？**

假設你雇了一位私人助理，第一天你讓他學著幫你處理法律文書，第二天又讓他去學炒股分析，第三天再去學寫代碼，第四天還得懂醫學診斷。沒過多久，你會發現他越學越亂——學新的東西時，把之前學的內容忘得七七八八，或者把不同領域的經驗混在一起，做出各種離譜的判斷。這個令人頭疼的現象，在人工智慧領域同樣存在，而且可以說是當前AI應用落地時最棘手的障礙之一。

這篇論文提出了一個名為Eevee（讀作"依依"，正是那隻經典的多形態精靈寶可夢）的框架，專門來解決這個問題。這個名字取得頗有意味——就像那只可以進化成多種形態的小精靈，Eevee框架也能根據不同任務"變形"，靈活應對來自各個領域的挑戰。研究團隊來自上海交通大學和普林斯頓大學，核心貢獻者在普林斯頓AI實驗室完成了這項工作。

**一、問題的根源：一個提示詞打天下行不通**

在正式講清楚Eevee是什麼之前，需要先理解它在解決什麼問題。現代大語言模型，比如大家熟悉的各類AI對話助手，在部署上線之後，研究人員還可以通過調整"提示詞"（可以理解為給AI的一段說明書或者使用指南）來讓它的表現越來越好。這個過程不需要重新訓練整個模型，只是在每次提問之前，先附加一段精心設計的說明，告訴AI應該用什麼方式思考問題、給出什麼格式的答案。這種技術被稱為"測試時提示詞學習"，它像是在不更換發動機的情況下，給汽車升級了操作手冊。

這種技術在只針對單一任務時效果很好。比如，專門教AI做數學題，或者專門教AI寫代碼，都能通過不斷優化提示詞取得顯著進步。然而，現實世界中的AI助手不可能只干一件事。用戶一會兒問醫學問題，一會兒讓它寫程序，一會兒又需要它分析金融數據。這就要求同一套提示詞能同時適應多個截然不同的任務領域。

贊助商廣告

問題恰恰出在這裡。當AI同時接收來自不同領域的訓練信號時，為了適應某個領域做出的調整，往往會干擾甚至破壞對另一個領域的適應。研究團隊稱這種現象為"跨數據集干擾"——就像那位什麼都想學的私人助理，學新東西的代價是忘掉舊東西。

論文裡有一組對比數據非常直觀。研究團隊設計了一個漸進式實驗：先讓AI學第一個任務（高中到研究生級別的科學問答），然後加入第二個任務（金融公式計算），再加第三個任務（定理解題），最後加第四個任務（編程）。隨著任務增加，主流方法GEPA和ACE的總體表現分數急劇下滑——加入兩個任務後，GEPA的綜合改善值就跌到了-31.6分，意味著不但沒有進步，反而還不如什麼都不學；到四個任務時，GEPA和ACE都深陷負分區間，分別停在-15.36和-18.58。與此同時，Eevee在整個過程中始終保持正向增長，最終以+41.53分收尾。這個差距，用"天壤之別"來描述毫不誇張。

**二、核心思路：一個調度員，多位專才**

Eevee的設計思路用一句話來概括就是：與其培訓一個什麼都懂但什麼都不精的全能選手，不如培養一批各有專長的專才，再配備一個聰明的調度員。

具體來說，Eevee維護著一組專用提示詞（論文中稱為"提示詞池"），每個提示詞都擅長處理某一類任務。同時，系統中還有一個"路由器"，負責判斷每道進來的問題屬於哪種類型，然後把它分配給最合適的那個提示詞來處理。

這個設計的優雅之處在於，當AI在學習做代碼題時積累的經驗，只會影響專門負責代碼的提示詞，不會污染負責科學問答或金融計算的提示詞。各司其職，互不干擾。

打一個生活中的比方：這就像一家大型律師事務所的運作方式。有專門做刑事案件的律師，有專門做商業合同的律師，有專門處理智慧財產權的律師。當客戶走進大門，前台接待（也就是"路由器"）先判斷客戶的需求，然後把他帶到最合適的律師那裡。這樣每位律師可以專注深耕自己的領域，而不是要求所有人樣樣精通。

贊助商廣告

然而，設計這個調度員本身就是一件難事。一個設計得太死板的調度員，遇到邊界模糊的問題就會手足無措；一個不穩定的調度員，會讓各位專才的訓練亂成一鍋粥。更棘手的是，調度員和專才之間存在"先有雞還是先有蛋"的依賴關係：調度員的好壞取決於專才的水平（只有專才之間的能力差異足夠明顯，調度員才能做出有意義的分配），而專才的訓練質量又取決於調度員（只有被分配到正確任務的訓練樣本，專才才能朝正確方向進步）。

這個相互依賴的難題，正是Eevee最核心的技術貢獻所在。

**三、聯合進化：調度員與專才一起成長**

Eevee解決"先有雞還是先有蛋"問題的方案，叫做"路由器-提示詞協同進化"。與其先訓練好調度員再去訓練專才，或者反過來先把專才培訓好再設計調度員，Eevee讓兩者在交替疊代中相互促進、共同成長。

整個訓練過程被分為兩類交替進行的階段：調度員進化階段和專才進化階段。在調度員進化階段，各位專才保持不動，系統專注於優化調度員的分類判斷能力；在專才進化階段，調度員保持不動，每位專才在被分配給自己的訓練數據上磨練自身的專業能力。如此循環往復，每一輪結束後調度員變得更聰明，專才變得更專業，兩者的進步相輔相成。

在調度員進化階段，系統不會隨機挑選訓練題目來評估調度員的好壞。它只會選那些"至少有一位專才能答對"的題目——因為只有這樣，如果某位專才答錯了，才能合理地認為是調度員的分配失誤，而不是那道題本身太難。這個細節設計避免了把專才能力的不足錯誤歸咎於調度員。

評估一位候選調度員的好壞，Eevee綜合考察三個維度：一是下游準確率，也就是被分配到各專才手中的題目最終答對了多少；二是一致性，衡量調度員的分類是否把相似的題目歸到一起、把不同類型的題目分開；三是均衡性，確保每位專才都有足夠的任務可做，不會出現某個專才被閒置的情況。隨著訓練的推進，評估中準確率的權重會逐漸上升，而一致性和均衡性的權重則慢慢降低——這背後的邏輯是：早期需要保持多樣性以探索更廣的可能性空間，後期則需要鎖定在真正有效的方案上。

贊助商廣告

每當系統產生一個候選調度員，還會進一步觸發一輪"反思"：系統分析那些"被分配的專才答錯但換一位專才能答對"的案例，嘗試總結出更好的分類規則。這就好像律師事務所的前台接待在每次分配失誤後，都認真復盤並更新自己的判斷標準。

在專才進化階段，機制類似但更加簡潔。每位專才的提示詞也會經歷"變異"（產生新的候選提示詞）和"反思"（從答錯的案例中總結改進方向）兩個步驟。優秀的新提示詞才能被保留——判定標準是它在驗證集上的表現必須超過"空白提示詞"（即不給AI任何額外指示時的表現），且必須進入帕累托前沿池（即與已有的優秀提示詞相比各有千秋，能在不同類型的題目上互補覆蓋）。帕累托前沿這個概念來自經濟學，簡單說就是：只有當一個方案"在至少某些方面比其他方案更好，且沒有方面更差"時，才有資格留下來。這樣的機制確保了保留的提示詞集合既多樣又高效。

**四、三階段培訓：從零到專家的成長路徑**

理解了協同進化的機制，還需要知道整個系統是如何從零開始啟動的。Eevee的訓練被設計為三個明確的階段，就像培訓一批新員工的完整流程。

第一階段叫做"初始化"。這個階段的任務是，在還沒有調度員的情況下，先用所有混合任務的訓練數據，為每位候選專才積累一批提示詞，從中篩選出覆蓋不同題型的K個優質提示詞，構成初始專才團隊。篩選方法採用貪心覆蓋算法：依次挑選每次能覆蓋最多"之前方案沒有覆蓋到的題目"的提示詞，直到選滿K個為止。這樣選出來的專才團隊，能夠在不同類型的題目上各顯神通，為後續調度員的學習提供有意義的區分依據。

第二階段叫做"探索"。此時系統進入調度員和專才的交替進化，但每個階段的訓練預算都比較輕量。頻繁切換而不是深度優化，是這個階段的設計邏輯——因為調度員還不穩定時，為某個調度員深度優化專才是在浪費資源；而用還不成熟的專才來深度優化調度員，則容易讓調度員陷入局部最優。輕量級的反覆交替，是在不確定性中高效探索的最佳策略。

贊助商廣告

第三階段叫做"收斂"。當探索階段的交替疊代讓調度員趨於穩定後，系統將調度員固定下來，給每位專才分配更大的訓練預算，讓他們在穩定的分工格局下精益求精。這就像公司組織架構穩定之後，每個部門終於可以心無旁騖地專注於提升自身業務能力。

**五、實驗數據：成績單上的驚人數字**

研究團隊在四個來自不同領域的基準測試上驗證了Eevee的效果，包括GPQA Diamond（涵蓋生物、物理、化學等研究生級別的科學問答）、Formula（基於金融公式的計算題）、TheoremQA（涉及數學定理的推理題）和HumanEval（編程題）。實驗使用了兩個主流大語言模型：Qwen3-4B-Instruct和DeepSeek-V3.2。

以Qwen3-4B-Instruct為基礎模型，在沒有任何提示詞優化的情況下，四個測試的平均分是41.37分。引入GEPA方法後，平均分反而下滑到37.73分；ACE方法下降更多，只有34.92分。而Eevee將平均分提升到了51.75分，比基線高出10.38分。具體來看，編程題的分數從49.46分飛躍到72.63分，金融公式題從45.22提升到54.55，定理推理題從14.79提升到25.27。唯一有小幅下滑的是科學問答題，從56.00降至54.55——這個下滑是有原因的，後文會詳細解釋。

換成更大的DeepSeek-V3.2模型，效果更加顯著。基線平均分39.75，Eevee提升到64.07，增幅高達24.32分。其中編程題從42.82飛升至92.82，接近滿分；金融公式題從30.00提升到60.55，整整翻倍；定理推理題從21.21提升到39.84。

三次獨立運行的結果穩定性也相當好。Qwen3-4B-Instruct下，Eevee的平均分標準差僅為1.62分；DeepSeek-V3.2下更低，只有1.08分。相比之下，GEPA在DeepSeek-V3.2上的標準差高達4.48分，波動明顯更大。

**六、為什麼科學問答反而下降了——一個耐人尋味的發現**

研究團隊專門做了一組診斷性實驗，深入分析了提示詞學習究竟"學到了什麼"。他們比較了在六次完整實驗前後，模型在測試題上的答題變化情況，統計了題目答對變錯（簡稱"R→W"翻轉）和答錯變對（簡稱"W→R"翻轉）的次數。

贊助商廣告

結論非常清晰地呈現出一種與任務性質高度相關的規律。編程題（HumanEval）共有193道題從錯變對，只有16道從對變錯；金融公式題（Formula）從錯變對268道，從對變錯21道；定理推理題（TheoremQA）從錯變對632道，從對變錯166道。而科學問答題（GPQA Diamond）卻是一個例外：從對變錯有89道，從錯變對只有55道，得不償失。

這個反差揭示了一個深刻的規律：提示詞學習在"有章可循"的任務上大放異彩，在"需要獨特知識積累"的任務上卻可能幫倒忙。對於編程題，可以總結出通用規則，比如"不要輸出多餘的注釋"、"確保函數體完整可執行"；對於金融公式題，可以總結出"注意單位換算"、"只輸出數字不加符號"等規則。這些規則一旦被提煉出來，就能像操作手冊一樣穩定地提升答題質量。

然而，科學問答題的本質是"你知不知道這個事實"。提示詞學習可以讓AI的推理過程更加系統化，但它無法憑空給AI注入原本不知道的物理常數或生物分類知識。更糟糕的是，學來的推理模板有時還會干擾正確的直覺判斷。論文中舉了一個具體例子：一道關於系外行星密度的題目，目標是選出密度最大的類地行星。沒有額外提示詞時，模型憑藉"大質量岩石行星因重力自壓縮會更緻密"這一天體物理直覺，正確選出了答案。但加入了強化系統化推理的提示詞後，模型用"密度等於質量除以體積"開始逐步計算，並錯誤地假設"相同成分意味著相同密度"，最終選錯了答案——推理更周密了，結果卻錯了，因為用來推理的前提本身就不對。

這個發現對AI應用有實際指導意義：提示詞學習是磨鍊解題程序的利器，但它補不了知識的空白。

**七、消融實驗：每個零件都有用**

為了驗證Eevee各個核心組件的必要性，研究團隊做了一組拆解實驗，逐一移除不同的關鍵設計，看看成績如何變化。

完整版Eevee在Qwen3-4B-Instruct上的平均分是51.75分。如果把"可學習的調度員"換成一個簡單的默認路由（不做任何分類，隨機或者按固定規則分配），分數降到43.58分，下降了8.17分。如果把調度員換成一次性用GPT-5.4寫好、然後固定不變的手寫調度員（不再學習更新），分數更低，只有37.18分，甚至低於什麼都不學的基線41.37分——這說明一個設計不當的固定分類方案，不但沒有幫助，反而是一種拖累。如果把協同進化去掉，改為先獨立訓練完調度員、再獨立訓練專才的兩階段串行方案，分數是42.88分，也遠低於完整版的51.75分。這些數據清楚地表明：可學習的調度員、以及調度員與專才之間的協同進化，缺一不可，共同構成了Eevee效果的基石。

贊助商廣告

**八、單一任務與多任務：靈活切換的調度員不會拖累專心致志的專才**

一個合理的疑慮是：引入調度員和多專才架構，會不會在只需要做一件事時反而比原本的單一提示詞學習更慢、更差？

實驗給出了令人放心的答案。在只針對單個基準測試的學習場景下，Eevee的表現與GEPA和ACE基本持平，在編程題和金融公式題上還略有領先。這說明額外的調度架構並沒有帶來顯著的額外負擔。在單任務場景下，調度員會把幾乎所有題目分配給同一組提示詞，退化為接近單專才的工作模式，因此不會有明顯損耗。

隨著任務種類增加，兩者的差距才開始凸顯。正如前文提到的，在四個任務全部加入後，Eevee的綜合保留改善值穩定在+41.53，而競爭方法已經淪陷在深度負分區間。多任務場景正是Eevee的主戰場，也是它被設計出來的核心動機所在。

**九、跨模型與跨任務的遷移：學到的經驗是否普適？**

研究團隊還測試了一個更大膽的問題：用一個模型學出來的提示詞，能不能直接用在另一個完全不同的模型上？答案是肯定的，而且效果相當好。

將Qwen3-4B-Instruct上學出的提示詞直接搬到DeepSeek-V3.2上使用，DeepSeek 普林斯頓大學研發的AI調度員讓大模型同時學多件事不再顧此失彼的平均分從39.75提升到54.10，增幅14.35分。其中編程題提升34.22分，金融公式題提升12.28分，定理推理題提升11.68分。雖然這個成績略低於DeepSeek直接自己學習的64.07分，但考慮到完全沒有針對DeepSeek做任何專項訓練，這個遷移效果已經相當可觀。這意味著提示詞中學到的任務規則具有一定普適性，不完全依賴於特定模型的內部機制。

跨任務遷移方面，研究團隊將在四個核心基準上學到的提示詞，用於測試兩個從未出現過的任務：MBPP（另一個編程測試）和MMLU-Pro（覆蓋更廣泛知識領域的綜合問答）。在MBPP上，Eevee將分數從69.29提升到70.42，而GEPA和ACE分別降到68.20和67.47。在MMLU-Pro上，三個方法都有小幅下滑，Eevee下降1.82分，略多於ACE的1.42分但少於GEPA的1.89分。這個結果與前面發現的規律吻合：對於與訓練任務性質相似的編程類題目，經驗可以遷移；對於知識密集型的寬泛問答，提示詞遷移的幫助有限，甚至可能帶來輕微干擾。

贊助商廣告

**十、花銷對比：用最少的錢，辦最多的事**

在實際部署AI系統時，每次調用模型都需要花費計算資源（以"token使用量"衡量，可以理解為AI思考和回答所消耗的字數）。研究團隊統計了在測試階段，每道題平均需要消耗多少token。

Eevee每道題平均用4320個token，其中輸入3000個、輸出1320個。GEPA每道題平均用3470個token，比Eevee少，因為它沒有調度分類的額外步驟。而ACE每道題平均高達21300個token，是Eevee的近五倍。ACE的高消耗來自它的設計方式——它把積累的經驗以追加條目的形式寫入越來越長的"操作手冊"，隨著任務增多手冊越來越長，每次調用都要把整本手冊塞進輸入。Eevee只需要在每道題前加上對應專才的提示詞（通常較短），以及調度員的分類判斷，額外開銷很有限。

換句話說，Eevee在取得最佳綜合成績的同時，花費大約只有ACE的五分之一，和GEPA處於同一數量級。這種"高性價比"特性，對於真實商業部署來說非常重要。

**十一、超參數穩定性：結果不是調參調出來的**

學術界有一個常見質疑：一個方法的好成績，是否是靠精心調整超參數"調"出來的，換了參數就會崩？為了回應這一疑慮，研究團隊測試了八種不同的超參數配置，涵蓋了調度員評分的退火策略、一致性與均衡性的權重比例、提示詞搜索的預算與批次大小等多個維度。

八種配置下的平均分分布在45.05到50.97之間，跨度5.92分，樣本標準差1.73分。更重要的是，所有八種配置都在最終平均分上超越了什麼都不學的基線，沒有任何一種配置出現"崩塌"的情況。這表明Eevee的整體框架具有穩健性，其優勢不依賴於某一組特定的超參數設置。

說到底，Eevee解決了一個AI部署領域長期存在的現實痛點：當需要AI同時處理多種不同類型的任務時，如何防止"學了新的忘了舊的"這一惡性循環。它的答案是用一個聰明的調度員加上一批專業的專才，而且調度員和專才必須一起成長，而非先後分開培養。這個思路看似簡單，但在工程實現上有相當多值得借鑑的細節。

贊助商廣告

當然，這項研究也誠實地點出了自身的局限：由於搜索過程帶有隨機性，每次運行得到的調度員和提示詞文本可能不完全一樣，無法保證逐字復現；整個系統仍然依賴真實的答案標籤來提供學習信號，還不能在完全沒有正確答案的場景下自主運轉；如果用來訓練的樣本數據噪聲很大或者與實際應用場景存在明顯差異，學出來的提示詞也可能適得其反。這些局限劃定了Eevee當前階段的適用邊界，也指出了後續研究值得繼續深入的方向。

歸根結底，這篇論文帶給我們一個有趣的思考：也許通往"樣樣精通"的路，不是讓一個人（或一個AI）死命學所有東西，而是建立一套好的分工協作機制，讓各有專長的成員在一個聰明調度者的統籌下各司其職，共同應對多樣化的挑戰。有興趣深入研究細節的讀者，可以通過arXiv編號2606.11182獲取完整論文。

Q&A

Q1：Eevee框架中的"路由器"是什麼，有什麼用？

A：路由器相當於一個智能調度員，負責判斷每道進來的問題屬於哪種類型，然後把它分配給最合適的專用提示詞來處理。比如編程題分配給擅長代碼的提示詞，金融計算題分配給擅長數字運算的提示詞。這樣做的好處是，不同任務的學習互不干擾，避免了"學了新知識忘了舊知識"的問題。路由器本身也會不斷學習優化，通過分析分配失誤的案例來改進分類判斷能力。

Q2：Eevee在科學問答題上為什麼會下降？

A：科學問答題（GPQA Diamond）的核心是"你是否掌握特定的專業知識"，而提示詞學習擅長的是總結通用規則和解題程序，並不能憑空給模型補充它原本不知道的物理常數或生物事實。更棘手的是，學來的強化推理模板有時反而會干擾正確的直覺判斷，讓模型用錯誤的前提做出看似嚴謹卻答錯的推斷。這說明提示詞學習對"知識密集型"任務的幫助有限。

Q3：Eevee和GEPA、ACE相比，在token消耗方面有什麼區別？

贊助商廣告

A：Eevee每道題平均消耗約4320個token，與GEPA的3470個token相近。而ACE每道題高達21300個token，是Eevee的將近五倍。ACE消耗高的原因是它把經驗以追加條目的方式寫入越來越長的操作手冊，隨任務增多手冊越來越長，每次調用都要把整本手冊輸入。Eevee只需加上簡短的專用提示詞和調度分類，額外開銷很小，在取得最佳綜合成績的同時，成本與GEPA處於同一水平。