馬里蘭大學等聯合研究：當AI遊戲玩家學會「總結經驗」，小模型也能打敗大模型

這項由馬里蘭大學、南加州大學、Good Start Labs以及穆罕默德·本·扎耶德人工智慧大學聯合開展的研究，以預印本形式發布於2026年4月，論文編號為arXiv:2604.20987，感興趣的讀者可以通過該編號查詢完整原文。

贊助商廣告

一、一個關於"經驗積累"的古老難題

每個玩過電子遊戲的人大概都有過這樣的體驗：第一次玩某款策略遊戲時，你會頻繁犯錯，踩坑，然後重來；但玩了幾十小時之後，你開始"有感覺"了——你知道什麼時候該進攻，什麼時候該防守，什麼時候該先探路再做決定。這種感覺不是靠死記硬背得來的，而是從無數次失敗和成功中慢慢沉澱出來的可復用經驗。

現在，研究人員面臨的問題是：能不能讓AI也擁有這種"經驗沉澱"的能力？

大型語言模型（簡單說就是像ChatGPT這類能讀能寫的AI）在很多任務上表現出色，但有一個致命弱點：它們在玩需要長時間規劃的遊戲時往往表現糟糕。原因很簡單——它們沒有一套機制來把每次遊戲中學到的東西留下來，整理好，下次再用上。每次開局都像是全新的開始，之前的經驗付之一炬。

研究團隊提出了一個叫做COS-PLAY（Co-evolving LLM Decision and Skill Bank Agents，即協同進化決策與技能庫代理）的框架，核心思路可以用一個烹飪比喻來理解：一個普通廚師每次做菜時靠即興發揮，做完就忘；而一個優秀廚師會把成功的菜譜記錄下來，不斷改進，下次直接查菜譜再做——COS-PLAY就是在給AI建立這樣一本不斷更新疊代的"菜譜庫"，同時訓練AI更好地查菜譜、用菜譜。

二、系統是怎麼運轉的：兩個角色，一個循環

COS-PLAY框架的核心由兩個相互依存的"角色"構成，它們共同協作，形成一個自我強化的閉環。

第一個角色是決策代理，負責實際玩遊戲。它就像那個拿著菜譜下廚的廚師。在每一個遊戲時刻，它會先查看當前的遊戲狀態，然後去技能庫里找一個合適的"技能"（相當於找到一份合適的菜譜），接著根據自己當前的目標和技能指導來決定下一步該做什麼具體操作。技能在這裡是一種結構化的行為協議，包含了"這個技能的目的是什麼"、"什麼情況下該用它"、"具體怎麼執行"、"什麼時候算成功或者該放棄"，以及"執行完之後會發生什麼變化"這幾個維度的資訊。決策代理不是機械地照搬技能，而是把技能當作高層次指引，自己再做具體的操作決定。

贊助商廣告

第二個角色是技能庫代理，負責從遊戲經歷中提煉和維護技能。它就像一位專門整理菜譜的助理，不下廚，但每次廚師做完菜，它都會認真分析這次做菜的過程，找出哪些步驟是有效的、可重複的，然後把它們整理成新菜譜或者改進舊菜譜。

關鍵在於這兩個角色之間的循環：決策代理玩遊戲，產生大量軌跡數據；技能庫代理分析這些數據，提煉新技能，優化舊技能；更好的技能庫幫助決策代理做出更好的決策；更好的決策產生更有價值的軌跡數據；如此反覆。這就是"協同進化"的含義——兩者互相促進，共同成長，而不是各自為政。

三、技能是如何從零開始煉成的

技能庫代理提煉技能的過程分為四個步驟，這個過程類似於一位歷史學家從一堆日記中總結歷史規律的工作。

第一步叫做"邊界提案"。歷史學家拿到一本厚厚的日記時，會先快速瀏覽，在重要事件發生的地方做上記號——比如"這裡作者換了工作"、"這裡作者搬了家"。技能庫代理做的是類似的事：它會掃描遊戲軌跡，計算每個時間點發生技能切換的可能性有多大。判斷依據包括：遊戲狀態發生了明顯變化、AI的行動意圖發生了轉變、獲得了一個突出的獎勵或事件、或者上一個技能已經執行完畢。得分高的時間點被保留下來，作為技能邊界的候選位置。

第二步叫做"推斷分割"。確定候選邊界之後，系統需要決定每一段軌跡對應的是哪個技能。它會把每一段遊戲行為和技能庫里已有的技能進行比對——這個段落的行為效果是否和某個技能的"效果合同"吻合？如果吻合度高，就打上對應技能的標籤；如果沒有任何技能能匹配，就標註為"新技能"，留待後續處理。

第三步叫做"合同學習"。每個技能都有一份"效果合同"，記錄這個技能執行成功後通常會帶來哪些變化。技能庫代理會把同一個技能在多次遊戲中產生的效果匯總起來，保留那些穩定出現的效果，剔除偶發的噪聲。比如一個"探索"技能，在28次遊戲中有26次成功讓AI獲得了對鄰居國家意圖的了解，那這個效果就被寫入合同；但某次偶然把艦隊移到亞得里亞海的效果，因為只出現了5次，就被當作噪聲丟棄。

贊助商廣告

第四步叫做"技能庫維護"。這是最動態的部分，類似於一個圖書館管理員不斷整理書架。具體操作包括五種：當一個新技能積累了足夠多的實例證據時，把它"物化"為正式的技能庫條目；當兩個技能高度相似時，把它們"合併"為一個；當一個技能涵蓋範圍太廣、邊界模糊時，把它"拆分"為更精準的子技能；當一個技能不斷被新證據支持時，"精煉"它的合同描述；當一個技能長期無人使用時，"退役"它，保持技能庫的精簡高效。整個技能庫因此始終處於動態更新的狀態，既不會無限膨脹，也不會過時僵化。

四、兩個代理如何一起"上課"

COS-PLAY中的兩個代理都需要從遊戲經驗中學習，研究團隊採用了一種叫做GRPO（組相對策略優化）的強化學習方法來訓練它們。強化學習的核心思路很直觀：做得好就給獎勵，做得差就給懲罰，模型慢慢學會往獎勵多的方向走。

為了讓不同功能的學習互不干擾，研究團隊給每個功能模組配了獨立的LoRA適配器。LoRA是一種輕量級的模型微調技術，可以理解為在大模型上面貼一層"專用插件"，不同插件負責不同的功能，互相之間不會亂。決策代理配了兩個插件：一個專門學"該選哪個技能"，另一個專門學"在使用這個技能時該做什麼具體操作"。技能庫代理配了三個插件：一個學如何切割軌跡識別技能邊界，一個學如何從軌跡中提煉技能合同，一個學如何管理技能庫的新增、合併、拆分和退役。研究團隊用實驗證明，如果把這五個插件合併成兩個大插件，性能會明顯下降——不同功能的學習目標之間存在衝突，分開訓練才能讓每個功能都學得專注、乾淨。

決策代理的"選技能"插件採用延遲獎勵：當一個技能執行完畢、發生切換時，才回頭評估這個技能在整個執行期間帶來了多少環境獎勵、執行是否高效、合同中規定的效果是否達成，以及是否出現了"亂用技能"（前提條件不滿足就強行使用）的情況。"做操作"插件則是每一步都有即時獎勵：環境給了什麼獎勵就接收什麼，同時還有一個輔助獎勵用來鼓勵AI按照當前技能的合同推進（滿足合同里的一個條件給小獎勵，滿足所有條件給大獎勵），以及一個懲罰項用來抑制無謂的技能切換（因為頻繁切換技能而不專注執行是早期訓練中常見的問題）。

贊助商廣告

五、六個遊戲場景，一次全面檢驗

研究團隊在六個不同的遊戲環境中測試了COS-PLAY，這些遊戲覆蓋了從簡單邏輯謎題到複雜多人社交博弈的廣泛範圍。

單人遊戲方面，測試涉及了四個經典遊戲。2048是一個在4×4格子上滑動合併數字方塊的益智遊戲，每次只能上下左右移動一格，目標是在格子填滿之前合併出儘可能大的數字，每局最多200步。糖果傳奇（Candy Crush）是經典消消樂，在8×8棋盤上交換相鄰糖果來製造三連消，每局最多50步，規則在於如何製造連鎖反應。俄羅斯方塊在10×20的棋盤上落塊，有7種標準形狀，預覽接下來4個方塊，目標是消行得分，每局最多200步。超級瑪利歐兄弟是橫版過關遊戲，瑪利歐需要向右推進、躲避障礙和敵人，到達終點旗杆，有7種操作按鍵，每局最多200步，獎勵結合了推進距離、金幣和時間獎勵。

多人遊戲方面，測試了兩個社交推理遊戲。阿瓦隆是一個5人隱藏身份遊戲，玩家分為善方（梅林、兩名僕從）和惡方（一名爪牙、一名刺客），通過隊伍提案、投票、任務執行和最後的刺客猜測階段來決定勝負。善方面臨的挑戰在於要從稀疏的線索中推斷出誰是敵人，而惡方從一開始就知道所有人的身份，具有巨大的資訊優勢。外交（Diplomacy）是7人大戰略棋盤遊戲，在經典歐洲地圖上進行，七大強國（奧地利、英國、法國、德國、義大利、俄國、土耳其）輪流進行移動、撤退和補給調整等多個階段，需要長時間的談判、結盟和多回合規劃，最多進行20個階段，以控制的補給中心數量為評判標準。

在所有遊戲中，遊戲畫面和狀態都被轉換成文字描述，AI通過輸出文字指令來操控遊戲，使用統一的接口，保證了比較的公平性。

訓練開始前，研究團隊用GPT-5.4（一個強力的商業大模型）作為"老師"，為每款遊戲生成了60條示範軌跡，再用這些軌跡對Qwen3-8B（一個80億參數的開源模型）進行監督微調，得到兩個代理共用的初始模型。之後，兩個代理進入協同進化的正式訓練循環。

贊助商廣告

六、實驗結果：小模型的逆襲

研究團隊把COS-PLAY與四個業界頂尖的大型語言模型進行了對比：GPT-5.4、Gemini-3.1-Pro、Claude-4.6-Sonnet和GPT-OSS-120B（一個1200億參數的開源模型）。每款單人遊戲評估16局，每款多人遊戲每個玩家評估10局，所有結果都帶有95%置信區間。

在四款單人遊戲上，COS-PLAY的表現相當亮眼。以2048為例，COS-PLAY平均得分達到1589分，而GPT-5.4隻有1127分，Claude-4.6-Sonnet為945分，Gemini-3.1-Pro最低只有813分；俄羅斯方塊上，COS-PLAY平均511分，GPT-5.4為458分，大幅領先其他模型；糖果傳奇中，COS-PLAY平均649分，GPT-5.4為533分；超級瑪利歐兄弟上，COS-PLAY平均949分，GPT-OSS-120B有969分略有優勢，但其他模型均遜色許多。四款單人遊戲綜合平均，COS-PLAY的得分比GPT-5.4高出25.1%，這是一個相當顯著的提升——畢竟COS-PLAY的基礎模型只有80億參數，而GPT-5.4的規模遠不止於此。

更難得的是，COS-PLAY在訓練速度上也表現出色。每款遊戲最多只需25輪協同進化訓練就能達到這種水平，而傳統的強化學習遊戲代理往往需要數百輪訓練。這說明COS-PLAY的技能庫機制提供了極為有效的先驗知識，讓AI的學習效率大幅提升。

在多人社交遊戲上，情況稍有不同。這類遊戲本質上是在與GPT-5.4扮演的對手對博，難度極高，大多數中小模型在這裡表現欠佳。COS-PLAY在阿瓦隆的綜合勝率為39%，而Gemini-3.1-Pro為42%、GPT-OSS-120B為40%，差距只有1到3個百分點，基本處於競爭水平。在外交遊戲中，COS-PLAY的平均供應中心數為2.96個，Gemini-3.1-Pro為2.72個，COS-PLAY反而領先了8.8%。GPT-5.4在自我對戰（每位參與者都是GPT-5.4）時平均供應中心為4.70個，展示了它作為對手的強大實力。

七、逐層拆解：哪個部件真正關鍵

為了弄清楚COS-PLAY的性能到底來自哪裡，研究團隊做了一系列"拆零件"實驗，逐個去掉某個組件，觀察性能變化。

基礎的Qwen3-8B模型在四款單人遊戲的平均得分為380分，性能參差不齊——在糖果傳奇和超級瑪利歐兄弟上表現尚可（520和836分），但在2048和俄羅斯方塊上幾乎完全失敗（131和32分）。

贊助商廣告

只做監督微調但不使用技能庫的版本（SFT W/O SKILL）平均得分410分，確實能改善動作格式，讓AI學會了如何規範地給出指令，但因為缺乏可復用的行為結構，在需要長期規劃的環節上依然脆弱。

僅用第一輪協同進化產生的初始技能庫、不進行後續更新的版本（SFT + 1ST SKILL）平均得分466分，有所提升，但技能庫與決策代理各自獨立優化，策略不一致帶來了問題——技能庫是針對早期的行為特徵設計的，但決策代理隨著訓練發生了變化，導致技能的適用性下降。

用最終經過完整協同進化的技能庫、但不進行GRPO強化學習訓練的版本（SFT + FINAL SKILL）平均得分只有360分，甚至低於基礎模型。這個結果尤為說明問題：即使有一個好的技能庫，如果決策代理的檢索和使用技能的能力沒有經過針對性訓練，好技能也用不好，甚至會起反作用，因為技能庫的設計假設和決策代理實際的行為模式之間出現了錯配。

只做GRPO強化學習訓練但不使用技能庫的版本（GRPO W/O SKILL）平均得分360分，強化學習確實能提升決策質量，但在獎勵稀疏的遊戲中容易陷入不穩定——沒有技能庫提供的結構性指引，AI很容易在大量可能的操作中迷失方向。

僅使用初始技能庫結合GRPO訓練的版本（GRPO + 1ST SKILL）平均得分只有305分，比單純GRPO訓練還差。道理和前面類似：技能庫和決策代理如果針對不同階段的狀態分布優化，配合使用反而會互相拖累。

而完整的COS-PLAY，通過兩個代理的完整協同進化，平均得分達到924分，大幅領先所有變體。這套實驗清晰地說明了一件事：核心優勢不來自技能庫本身，也不來自強化學習本身，而是來自二者在同一個閉環里共同優化、相互對齊這件事。

八、技能庫里長出了什麼

研究團隊還專門分析了技能的可復用性——一個好的技能不僅要幫助當下的決策，還要在未來不同的情境下反覆被用到，這才說明它是真正有價值的、穩定的行為模式，而不只是某次特殊軌跡的記憶。

贊助商廣告

以外交遊戲為例，整個訓練過程中共發現了121個技能，但技能庫始終保持在55到70個的活躍規模，其餘53個經過合併或拆分被消化吸收。這說明系統確實在主動維護技能庫的精簡性，而非無限堆積。最多被復用的技能在28局遊戲中出現了45次，平均每個技能在12.7局遊戲中被用到，表明技能具有實質性的跨局復用能力。

從技能類型的演變來看，外交遊戲的技能庫從最初以領土維持和防禦類技能為主，逐步擴充出更多相變轉換類（如何在不同戰略階段之間切換）和領土失守應對類技能，戰略覆蓋範圍明顯擴大了。與此同時，AI的意圖分布也從初期較為單一，逐漸變得更加多元且目標導向性更強，技能切換更加精準而非隨機。

超級瑪利歐兄弟的技能庫最為豐富，發現了20個技能，涵蓋9個類別，平均每個技能在14.1局中被使用，說明橫版過關遊戲對多樣化的行為策略有較高需求。2048的技能庫則相對集中，13個技能中最頻繁的那個在236次子遊戲片段中被識別到，平均每個技能使用45.6次，體現了這類益智遊戲中少數幾個核心策略被反覆應用的特點。

九、通俗性與專業性的雙重測試

一個合理的擔憂是：AI在遊戲上強化訓練之後，會不會把原本擅長的數學推理、知識問答等通用能力給"遺忘"掉？研究團隊專門用兩個經典的AI推理基準測試來檢驗這一點：Math-500（數學推理題集）和MMLU-Pro（跨領域知識和推理能力測試）。

結果顯示，COS-PLAY在Math-500上的得分為44.6%，原始Qwen3-8B為46.4%，下降了1.8個百分點；在MMLU-Pro上，COS-PLAY為61.15%，Qwen3-8B為61.99%，下降了0.84個百分點。這種程度的性能損失是相當小的，說明針對遊戲環境的協同進化訓練並沒有大幅破壞模型在其他任務上的通用能力，兩者之間的平衡保持得相對合理。

十、從糖果消消樂到外交戰爭：細節里的故事

研究團隊提供了兩個詳細的步驟級比較案例，讓人可以直觀感受到COS-PLAY與GPT-5.4在策略質量上的具體差距。

贊助商廣告

在糖果傳奇遊戲中，COS-PLAY最終得分806分，而GPT-5.4最高只達到547分，差距達47%。COS-PLAY的技能庫提煉出了兩個核心技能：OPTIMIZE（優化準備）和CLEAR（收割清除）。OPTIMIZE負責調整棋盤結構，製造連鎖消除的條件；CLEAR則在棋盤準備好之後，執行效益最高的消除操作。這兩個技能之間有嚴格的時序邏輯：先OPTIMIZE，再CLEAR，循環往復。

相比之下，GPT-5.4的行為標籤混亂，CLEAR、ATTACK、EXECUTE高度重疊，沒有清晰的階段劃分，在整局遊戲中幾乎都停留在"有什麼就消什麼"的即時反應模式，平均每次技能持續3.1步就切換，一局切換14次之多。COS-PLAY則平均每次技能持續6.6步，一局只切換7.6次，更能積累準備階段的成效。最典型的對比出現在第28步：COS-PLAY經過前5步的OPTIMIZE積累，觸發了一次62分的連鎖大爆，而GPT-5.4在同一步只消了一個角落的小組合，得了3分，差了整整20倍。

在外交遊戲的奧地利視角案例中，COS-PLAY形成了一個清晰的時序策略管道：前4步（EXPLORE階段）保持耐心，偵察邊境，確定哪個鄰居是潛在盟友、哪個是威脅；第5步開始切入SETUP階段，穩步擴張供應中心；拿到足夠多的中心後切入DEFEND階段，鞏固已有成果，防止反撲；末局再切回SETUP進行調整。這個三段管道在28局遊戲中的每次EXPLORE轉SETUP發生時間點非常穩定，均在第5步（標準差為零），說明AI真正學會了"觀察5步、然後開始行動"的節奏規律。

GPT-5.4的做法則完全不同：第0步就直接全力搶占塞爾維亞和加利西亞，第2步就攀升到5個供應中心，看起來效率很高；但隨後因為戰略鋪開太廣、應變能力有限，陷入了長達13個階段的停滯，供應中心數量紋絲不動。最終在後期靠土耳其主動崩潰才僥倖爬到7個，而不是自身策略的勝利。COS-PLAY雖然前期擴張稍慢，但穩步推進，最終同樣到達7個供應中心，且全程從未丟失任何初始中心，防禦下限（最低中心數為3）遠優於GPT-5.4（最低曾跌至1）。

贊助商廣告

研究團隊也誠實地記錄了COS-PLAY的失敗案例。在外交遊戲中，約18%的遊戲局（28局中有5局）以卡在3個供應中心無法成長而告終，根本原因是AI存在嚴重的"動作偏好"：85%的時間都會選擇排名第一的動作，而第一個動作通常是支援（SUPPORT）指令，導致某些遊戲局裡AI反覆支援同一個單位，無法突破僵局。技能切換依然正常發生，但動作適配器的行為不夠多樣化，無法打破支援循環。

GPT-5.4的失敗模式則截然不同：它會在27%的遊戲局中（60局中有16局）發生崩潰，從4到5個供應中心直接一路滑落至1到2個，原因是防守技能一旦激活，就會在12到15步內反覆執行撤退和解散操作，沒有任何恢復性技能來應對已經失控的局面，最終加速崩潰。由此可以得出一個有趣的觀察：COS-PLAY的失敗模式是"卡住不動"，GPT-5.4的失敗模式是"主動崩潰"——前者雖然沒有成長，但至少守住了基本盤；後者則可能從相當好的位置迅速全面瓦解。

歸根結底，COS-PLAY給AI帶來的核心能力，是讓它不再依賴每次遊戲時的"即興發揮"，而是擁有一套可以積累、整理、更新和調用的結構性經驗庫，並在實際遊戲中真正學會何時該用哪種策略、如何執行、何時切換。這套機制讓一個只有80億參數的小模型，在多種遊戲場景中超越了參數規模遠超它的大模型，同時幾乎不損失其在數學推理和知識問答上的原有能力。

當然，這套系統目前還有明顯的局限：它依賴純文字狀態描述，無法處理原始圖像或影片畫面，在一些視覺細節至關重要的遊戲中會遺漏關鍵資訊；在超長軌跡中，多次狀態總結可能累積誤差，降低技能的準確性。研究團隊表示下一步希望把這套框架擴展到多模態環境中，讓技能庫能同時處理視覺和文字資訊，也希望進一步探索跨遊戲的技能遷移，讓在某款遊戲中學到的策略經驗能夠被移植到全新的遊戲場景中。

贊助商廣告

這項研究或許還預示著一種AI開發的新思路：與其一味追求更大的基礎模型，不如認真研究如何讓模型有效積累和利用結構化經驗——有時候，一本精心維護的菜譜，比先天的聰明才智更重要。

Q&A

Q1：COS-PLAY框架與普通大語言模型玩遊戲有什麼本質區別？

A：普通大語言模型玩遊戲時沒有經驗積累機制，每局開始都從零出發，靠即興判斷。COS-PLAY則給AI配備了一個持續更新的"技能庫"，記錄從歷次遊戲中提煉出的可復用行為策略（比如"先探路再進攻"的完整步驟和適用條件），並訓練AI學會何時檢索哪個技能、如何按技能指引行動。兩者協同進化，形成自我強化的學習閉環。

Q2：COS-PLAY使用的Qwen3-8B基礎模型參數量比GPT-5.4小很多，為什麼能超過它？

A：參數量大不等於策略質量高。GPT-5.4在面對需要長期規劃的遊戲時，缺乏結構化的行為記憶，容易陷入即時反應的循環，比如在外交遊戲中反覆執行防守/進攻的來回切換，或者在消消樂中始終處於"看到什麼消什麼"的模式。COS-PLAY通過技能庫提供了清晰的階段性行為規範，加上強化學習訓練讓AI精準掌握技能檢索和執行，彌補了參數規模上的差距，在需要多步規劃的場景中實現了逆襲。

Q3：COS-PLAY學到的技能會干擾AI原有的數學推理和知識回答能力嗎？

A：影響非常小。研究團隊用Math-500數學題集和MMLU-Pro跨領域知識測試進行了驗證，COS-PLAY訓練後的模型在Math-500上得分下降1.8個百分點，在MMLU-Pro上下降約0.84個百分點，與原始Qwen3-8B相比差距極小。這說明針對遊戲環境的協同進化訓練基本不會破壞模型在其他通用任務上的能力。