阿里巴巴研究院讓AI學會「舉一反三」：訓練大模型像老員工一樣越干越熟練

這項研究由阿里巴巴集團的研究人員完成，論文於2026年6月發表在預印本平台arXiv上，編號為arXiv:2606.20002v1，有興趣深入了解的讀者可以通過該編號查詢完整論文。

贊助商廣告

**一切從一個日常困境說起**

你有沒有遇到過這樣的情況：每次換了一個新工作環境，就得從零開始摸索規律。哪條路上班最快、哪個同事負責什麼、哪台印表機容易卡紙……這些經驗日積月累，才能讓你真正"得心應手"。但如果每天上班你的記憶都會清零，那不管幹多久，你永遠都像第一天入職的新人。

當前的大語言模型（也就是ChatGPT、通義千問這類AI助手的核心技術），面對的正是這種尷尬處境。它們每次接到一個新任務，都像一個沒有工作記憶的新員工——不管之前跟同樣的環境打過多少交道，它都得重新摸索。阿里巴巴集團的這支研究團隊認為，這個問題必須被正面解決。於是，他們提出了一個名叫"連點成線"（CoD，Connect the Dots）的訓練框架，目標是讓AI學會在長期工作中積累經驗、更新認知，並把這些經驗真正用到下一個任務里。

**一、AI的"新員工困境"：為什麼現在的模型總是記不住東西**

以一個老練的偵探破案來理解這件事。一個經驗豐富的偵探走進一個新城市，第一個案子可能摸不准門道，但破了幾個案子之後，他對這座城市的街道、居民習慣、犯罪規律都有了感覺，接下來的案子自然越破越快、越破越准。

現在的AI模型更像是一批偵探新人——每次接到新案子，都是從零出發，完全不記得上一個案子裡學到的東西。研究團隊指出，現有的強化學習訓練方式（讓模型反覆做題、不斷糾錯）的核心問題恰恰在這裡：它訓練的是"每道題獨立作答"的能力，而不是"跨越多道題積累經驗"的能力。這就好比一個學生每次考試前記憶都會重置，不管考了多少次，他永遠都在從頭複習。

研究團隊因此提出一個清晰的區分：**長周期部署**（CoD-Deploy）與**標準任務訓練**（Standard RL）是兩種根本不同的場景。前者要求AI在同一個環境裡連續處理一系列相關任務，不斷更新自己對環境的認知；後者只要求AI把每道題答對。這兩種目標，在設計上是錯位的。

贊助商廣告

**二、"連點成線"框架：像老員工一樣積累經驗**

研究團隊的核心提案，可以用一個偵探事務所的運作來描述。

事務所接了一批案子，都發生在同一座城市。新來的偵探（AI）接到第一個案子，開始調查、收集線索，最終無論成敗，都把這次調查的心得——比如"A街的監控有盲區"、"B區的居民不配合問詢"——記錄下來，整理成一份簡短的"城市筆記"。接下來的案子開始前，偵探先翻翻這份筆記，帶著更多先驗知識出發，自然能更快鎖定嫌疑人。隨著案子越破越多，筆記越來越豐富，偵探對這座城市的掌握也越來越深。

CoD框架的設計完全遵循這個邏輯。整個過程由兩種類型的工作交替進行：一是"解題回合"（solve-task episode），AI負責嘗試完成當前任務；二是"更新認知回合"（update-context episode），AI回顧剛才的表現，提煉出有價值的發現，寫入"環境筆記"（context/hint）。這份筆記會在下一個任務開始時作為額外線索提供給AI，幫助它少走彎路。

值得注意的是，這套框架在訓練階段（CoD-Train）和實際部署階段（CoD-Deploy）採用完全一樣的運作模式。訓練時AI在多個不同環境裡練習這種"做任務→總結→再做任務"的循環，部署時則在新環境裡照樣運轉。研究團隊認為，訓練方式和部署方式的對齊，是讓模型真正學到"跨任務積累經驗"能力的關鍵。

**三、強化學習的改造：如何給AI一個"長遠眼光"的激勵機制**

普通的強化學習訓練，就像一個只按單次考試成績發獎金的老闆：你這道題答對了，給獎勵；答錯了，扣分。AI因此只關心眼前這道題，完全沒有動力去考慮"我現在多探索一步，對下一道題有沒有幫助"。

CoD框架要求AI在每一步都考慮長遠收益。研究團隊引入了動態規劃的經典思想——每一回合的"回報"不只是當前任務的得分，而是當前任務加上未來所有任務得分的平均值。具體來說，AI在第j個位置完成的任務，其"回報"被定義為從第j個任務到最後一個任務的平均獎勵。這意味著，一次好的"總結回合"如果真的幫助了後續任務，AI就能從中獲得實質性的獎勵信號，反之亦然。這把AI的動機從"把眼前這道題答對"推升到"讓整個任務序列儘可能順利"。

贊助商廣告

在具體算法實現上，研究團隊採用了GRPO風格的訓練方案（一種不需要額外"裁判模型"的強化學習算法）。為了讓它適應CoD場景，他們做了一個關鍵改造：在同一個任務序列中，同一位置的多個軌跡被視為一組，用這一組軌跡的平均回報作為基準，算出每條軌跡相對於平均水平的優劣，再據此更新模型參數。

然而，早期實驗發現，當模型在某些環境下訓練時，訓練過程會出現不穩定的情況——獎勵曲線大幅波動，模型表現忽好忽壞。研究團隊深入分析後發現，問題出在"平均優勢值"持續偏負，導致正向梯度和負向梯度嚴重失衡。為此，他們引入了一個自適應的重新加權機制：當一批訓練樣本的平均優勢為負時，對每個樣本的權重做指數調整，使正負梯度重新達到平衡。這個機制類似於一個有經驗的教練在學生狀態低迷時調整訓練強度，防止學生因負反饋過多而喪失信心。實驗證明，這個改動顯著提升了訓練穩定性。

**四、專門為CoD設計的訓練場：三個精心構造的環境**

要訓練AI的"跨任務積累經驗"能力，就不能隨便找一堆普通題目來練。如果每道題都能獨立解決，AI就沒有理由去積累和傳遞經驗，訓練自然退化成普通的強化學習。研究團隊因此專門設計了三類訓練環境，每一類都有其獨特的設計邏輯。

第一類叫做**FrozenLake-Obscure**（迷霧冰湖）。它的靈感來自一款經典的網格遊戲：AI在一張網格地圖上行走，目標是從起點走到終點，途中要繞開冰洞。這本來是一道普通的尋路題，但研究團隊加了一個關鍵扭曲：AI可以使用的四個方向指令被替換成了A、B、C、D四個抽象符號，而這四個符號對應上下左右哪個方向，在每個新環境裡都是隨機打亂的，且事先未知。

這個設定的妙處在於，如果AI不知道A等於"向右"、B等於"向上"，它在第一道題里撞幾次牆是完全正常的——資訊層面就是不可能百分之百成功。但一旦AI在前幾道題里摸索出了這個對應關係，並且把它記錄在"環境筆記"里，後續的題目就會變得容易很多。這就逼著AI必須學會：在解題過程中主動探索、識別規律，並在總結回合里把這些規律提煉出來、傳遞下去。

贊助商廣告

第二類叫做**Alchemy-Random**（隨機鍊金術）。每個環境裡有一套隨機生成的"配方"——哪兩種元素組合能合成第三種元素。AI的任務是在不知道任何配方的情況下，通過實驗逐步發現規律，並最終合成目標元素。與迷霧冰湖相比，這類環境的元素種類更多、任務變化更豐富，難度範圍也更寬，適合更進階的訓練。一份好的"環境筆記"應該記錄下已驗證的配方和已知的失敗組合，讓AI在新任務里不必重複無效嘗試。

第三類叫做**TerminalSimulator**（終端模擬器）。這個環境模擬了真實的電腦終端操作，AI需要完成文件操作、傳輸等日常任務。不同的作業系統、不同的文件大小，可能需要截然不同的操作策略。這個環境主要被用作跨域評估，檢驗AI在完全沒有訓練過的場景里，能否把在其他環境裡學到的"積累經驗"能力遷移過來。

**五、實驗結果：從"一問三不知"到"越做越順手"**

研究團隊做了兩組主要實驗，都以阿里巴巴自家的Qwen3-8B-Instruct模型作為起點進行訓練。

第一組實驗只在迷霧冰湖環境裡訓練。訓練結束後，效果非常直觀：AI在沒有任何背景知識的情況下解第一道題，成功率從18%提升到了45%——這個上限主要受資訊論約束，因為不知道方向對應關係，純靠猜測能達到的上限本就有限。但真正令人注目的是，AI在解同一個環境裡的第四道題時，成功率從訓練前的28%大幅躍升到76%。這說明AI確實學會了：在前幾道題里主動摸清規律、寫好筆記，到第四道題時已經胸有成竹。

更重要的是，這種能力不只在訓練過的場景里奏效。研究團隊把訓練好的模型放到更難的迷霧冰湖變體（地圖更大、任務序列更長）上測試，它依然展現出越做越好的趨勢，證明這種能力可以泛化到同類更難的環境。隨後，他們又把這個模型直接扔進完全沒見過的鍊金術環境和終端模擬器環境，結果發現，在這些跨域場景下，AI同樣表現出了隨任務序列推進而逐步提升的能力，儘管幅度相對較小。

贊助商廣告

第二組實驗同時在迷霧冰湖和鍊金術兩個環境的混合數據上訓練。總體趨勢與第一組類似，但鍊金術環境的訓練曲線相對波動較大，研究團隊認為這與混合訓練時不同域數據交替出現、梯度方向互相干擾有關，並在附錄中討論了不同算法對訓練穩定性的影響。

還有一個值得單獨提出的發現。研究團隊還測試了"拉爾夫循環"（Ralph-loop）場景——即AI反覆嘗試解決同一道題，每次嘗試後更新筆記再重試。在終端模擬器的這種設定下，AI的表現隨著嘗試次數的增加確實在穩步提升。這說明CoD訓練出來的能力，同樣適用於"反覆打磨同一任務"這種場景，而不僅僅是"依次處理不同任務"。

**六、AI的筆記長什麼樣：三類環境裡的真實"經驗總結"**

論文的附錄里展示了幾個真實的AI生成筆記，讀來頗為有趣，也很直觀地說明了這套機制在實踐中是怎麼運作的。

在迷霧冰湖環境裡，AI的筆記寫道："方向1等於向右，方向2等於向上，方向3等於向下，方向4等於向左。"這四行字，就是AI在之前的任務里通過觀察自己的移動結果推斷出來的核心情報。有了這份筆記，下一道題就可以直接照著已知的方向對應關係規劃路徑，而不必再浪費步驟去摸索。

在鍊金術環境裡，筆記的內容更豐富：AI不僅記錄了已經驗證的配方（比如"元素lqlrr加上gwzzz能合成hjklt"），還記錄了分層策略（先合成低層元素、再組合出高層元素），以及整條合成目標元素的完整路徑。這份筆記幾乎相當於一個完整的攻略手冊，讓AI在新任務里可以直接按圖索驥。

在終端模擬器里，筆記的風格則更像操作規程：AI寫道，"用scp命令把文件從遠程伺服器拷貝到本地，然後用unzip命令解壓到指定目錄，解壓前先用cd命令切換到目標目錄。"這些經過實戰驗證的命令序列，被提煉成可復用的操作知識傳遞下去。

**七、與已有研究的聯繫和區別：CoD站在哪個肩膀上**

贊助商廣告

研究團隊在論文中專門梳理了CoD框架與幾條已有研究脈絡的關係。

從概念上看，CoD與"元強化學習"（Meta-RL）關係最近，尤其是RL?這個經典範式——讓AI通過循環神經網路的隱藏狀態在多個回合之間傳遞上下文資訊。CoD的關鍵不同在於，它用的是大語言模型而非循環網路，這意味著"上下文筆記"可以是可讀的自然語言文字，長度和內容都更加靈活，而且大模型本身具備的語言泛化能力為跨域遷移提供了更強的基礎。

近期也有幾項相關工作嘗試把類似思路應用到大模型上，包括LaMer、MAGE和Orbit等。CoD與它們的主要區別在於場景設定和算法設計。這些工作通常假設AI在同一道題上反覆嘗試直到成功，而CoD的場景是AI持續面對一系列不同但相關的新任務，必須在整個序列里保持長期積累。此外，在信用分配（也就是"哪些行為應該得獎勵、哪些應該被懲罰"）的處理上，Orbit採用了粗粒度的方案——把整個序列的總獎勵作為單一信號，這在序列較長時會大幅削弱訓練效果；而CoD採用了細粒度的位置分組方案，使得即使序列很長，訓練信號也能精確地傳達到每一步。

CoD與"測試時計算擴展"（inference scaling）也有關聯——把AI反覆嘗試同一任務的"拉爾夫循環"可以視為CoD的一個特例。但普通的推理擴展方法只是在推理階段多用計算資源，並不真正訓練模型學會積累經驗；而CoD是把這種積累經驗的能力直接訓練進模型權重里。

**八、還有多少路要走：未完成的研究與開放問題**

研究團隊對這項工作的局限性保持相當清醒的認識。論文明確指出，當前的算法在某些設定下仍存在不穩定性，現有的自適應重加權機制是一種工程性的啟發式修補，還缺乏更嚴格的理論支撐。

在環境設計上，目前只有迷霧冰湖和鍊金術兩類主要訓練環境，覆蓋的場景範圍還相當有限。研究團隊預期，隨著訓練環境的種類和數量擴大，模型的跨域泛化能力有望進一步提升。

贊助商廣告

在上下文管理機制上，當前的"環境筆記"只是一段文字，以追加到系統提示詞的方式傳入下一個任務。這種方式簡單有效，但在面對更複雜的場景時可能不夠用——例如，當任務序列非常長、環境裡的知識點非常多時，一段簡短的文字筆記很可能無法裝下所有有價值的資訊。研究團隊提出，未來可以引入持久化記憶庫、結構化知識圖譜，或者類似Anthropic"智能體技能"系統的機制，讓AI的經驗積累更加有條理、更易檢索。

此外，研究團隊也明確了CoD與現有標準強化學習訓練的定位關係：兩者並不互斥，而更像是相輔相成。標準的任務級強化學習擅長打磨特定領域的專業能力（比如數學推理、代碼生成），而CoD訓練的是跨任務的元能力——學會在新環境裡快速適應和積累。把CoD作為額外的訓練階段加入現有的訓練流程，或者訓練一個CoD"教師模型"再用蒸餾的方式遷移給其他模型，都是值得探索的方向。

歸根結底，這項研究想解決的問題其實非常樸素：我們花了大量資源訓練出來的AI，憑什麼每次進入一個新環境都要從零摸索？如果一個真正的專業人士在同一個項目里工作了一段時間，他對這個環境的理解是會隨著時間不斷加深的。讓AI也擁有這種能力，或許才是讓它真正"像個人"一樣工作的關鍵一步。

現在CoD框架給出的是一個概念驗證級別的答案：可行，有效，但離真正的規模化應用還有距離。至於這段距離有多長，大概只有繼續做下去才知道。有興趣深入鑽研的讀者，可以在arXiv上通過編號2606.20002查到完整論文，研究團隊也已經在GitHub上開放了完整的代碼實現。

---

Q&A

Q1：CoD框架和普通的強化學習訓練有什麼本質區別？

A：普通的強化學習訓練讓AI針對每道題單獨學習，每道題之間沒有資訊傳遞，相當於每次都從零開始。CoD框架的核心區別在於，它訓練AI在解完一道題後主動總結經驗、更新"環境筆記"，並在下一道題開始時把這份筆記帶上。訓練時的激勵機制也不只看當前這道題的得分，而是把未來所有任務的平均得分都算進來，讓AI有動力去做那些對以後有幫助但眼前得分不高的探索行為。

贊助商廣告

Q2：FrozenLake-Obscure環境為什麼要把方向替換成A、B、C、D？

A：這個設計是為了製造一個資訊不對稱的障礙，強迫AI必須學會積累和傳遞經驗。如果方向指令是正常的上下左右，AI每道題都能獨立解決，就沒有理由總結和傳遞經驗了。把方向換成未知符號後，AI在第一道題里不可能百分之百成功，因為它根本不知道A對應哪個方向。只有通過觀察自己的移動結果、推斷出對應關係、寫進筆記、帶到下一道題，成功率才能真正提升。這個設定在結構上保證了"積累經驗"是有實質價值的。

Q3：CoD訓練出來的能力能用在真實場景里嗎？

A：研究目前還處於概念驗證階段，主要在遊戲類和模擬類環境裡驗證。不過實驗結果顯示，訓練出來的能力可以泛化到沒有見過的環境（比如從冰湖遊戲遷移到鍊金術，再遷移到終端模擬器），這說明AI學到的不只是某個具體環境的技巧，而是一種更通用的"進入新環境後如何積累和利用經驗"的能力。研究團隊認為，未來這套框架有潛力應用在個人助手、編程助手等需要長期了解用戶習慣和工作環境的場景，但目前距離實際落地還需要進一步的研究和規模化驗證。