香港大學與哈工大聯手：讓AI通過"玩遊戲"學會真正能舉一反三的推理能力

這項由香港大學與哈爾濱工業大學（含哈工大深圳校區）聯合開展的研究，於2026年4月發表，論文編號為arXiv:2604.17696，有興趣深入鑽研的讀者可以通過該編號查詢完整論文。

贊助商廣告

**研究概要：一個會玩遊戲的AI，能學會做數學題嗎？**

教一個孩子下棋，他學到的不只是棋譜，而是"如何在資訊不完整時做出最優決策"這種可以應用在談判桌、考場甚至日常生活中的通用能力。人工智慧研究者一直夢想著用同樣的邏輯來訓練AI——讓它在遊戲中磨礪出真正的"智慧"，而不只是一堆只適用於棋盤的操作技巧。

然而，現實往往令人沮喪。過去的研究嘗試讓AI通過玩遊戲來提升推理能力，結果發現AI學到的大多是"王牌壓過皇后牌"這類只在撲克牌桌上有用的把戲，換個場景就完全失靈。這就像一個人學了一輩子的圍棋戰術，卻完全不知道怎麼在工作中做決策——技能沒有真正遷移。

這項研究的目標，就是打破這道障礙。來自香港大學與哈爾濱工業大學的研究團隊提出了一個名為STRATAGEM的訓練框架，核心思路是：不只讓AI學會"贏"，而是讓它學會用那種換了場景依然管用的方式去思考和推理。團隊在三種文字類遊戲上訓練AI，然後直接去測數學競賽題、科學題和編程題，結果顯示AI的推理能力得到了全面提升，在難度最高的數學競賽題目上提升尤其驚人。

**一、老問題：為什麼遊戲教出來的AI"不會舉一反三"**

要理解這項研究解決了什麼問題，先得明白舊方法哪裡出了岔子。

在這之前，有一個叫SPIRAL的研究框架已經做了類似的嘗試——讓AI自己跟自己玩零和遊戲（就是一方贏、另一方必輸的那種），通過不斷的自我對弈來提升。這種方法有個很聰明的地方：AI不需要人類提供標準答案，勝負本身就是最直接的反饋信號。就像兩個象棋高手互相對弈，不需要老師在旁邊打分，贏了就是贏了。

但SPIRAL有一個根本性的局限：它只告訴AI"這場遊戲你贏了還是輸了"，卻完全不區分"你是用了好的方式贏的，還是用了投機取巧的方式贏的"。結果就是，AI可能學會了"對手下注通常意味著他牌大，所以我要棄牌"這類只在撲克牌里有意義的經驗，而真正有價值的推理邏輯——比如"把所有可能的情況列舉出來，分別計算期望收益，選擇最優方案"——反而沒有得到專門的強化。

贊助商廣告

研究團隊把這個問題歸納為兩個核心障礙。第一個叫"領域特異性"，指的是遊戲裡學到的推理模式被牢牢鎖在遊戲的語境裡，像是穿了一件只能在特定場合穿的戲服，脫下來就什麼都不是了。第二個叫"語境靜止性"，指的是遊戲的規則和背景從頭到尾不會變，AI只需要面對一個固定的局面，不需要培養那種"隨著問題不斷演變而不斷調整思路"的能力——而這恰恰是做數學題、寫代碼時最需要的能力。

**二、STRATAGEM的核心思路：不只獎勵贏，更獎勵"贏得漂亮"**

STRATAGEM這個名字本身就是一個縮寫，展開來是"通過軌跡優勢激活的自我博弈遊戲學習"。但拋開這個繞口的全稱，它的核心邏輯可以用一個簡單的比喻來理解：一位嚴格的教練不只看學生比賽贏沒贏，還要看贏的方式是否規範、是否展現了可以遷移到其他運動項目中的運動質素。

在技術層面，STRATAGEM在原有的勝負獎勵基礎上，加入了兩個額外的評判信號，用來調整每一段對弈記錄對AI訓練的影響權重。如果某段對弈展示了高質量的、可遷移的推理過程，這段記錄就會獲得更大的"話語權"，對AI的訓練產生更強的引導作用；反之，如果某段對弈雖然贏了，但推理過程全是遊戲特有的小技巧，它的影響就會被削弱。

這兩個額外信號，一個叫"推理可遷移係數"，專門衡量推理內容的抽象程度；另一個叫"推理演化獎勵"，專門衡量推理過程有沒有在多輪對話中不斷深化和進步。兩者合力，確保AI學到的不只是怎麼贏，而是怎麼用舉一反三的方式去思考。

**三、第一把鑰匙：推理可遷移係數——這段推理換個場景還管用嗎？**

推理可遷移係數（研究中用希臘字母φ表示）要回答的問題是：如果把這段推理過程里的遊戲詞彙全部替換成抽象變量，邏輯還成立嗎？

研究團隊從三個維度來評判這個問題。第一個維度是"抽象程度"，也就是推理用的是像"期望值""概率分布"這樣的通用概念，還是像"國王打敗皇后"這樣只在特定遊戲裡有意義的表述。第二個維度是"結構清晰度"，就是推理有沒有用到可復用的框架，比如逐一列舉所有情況、搭建"如果……那麼……"的邏輯鏈、系統性地窮舉所有可能性。第三個維度是"原則導向性"，即推理有沒有引用像"貝葉斯定理"或"最大化期望效用"這樣的普適原則，而不是憑藉"我以前見過這種局面"這類經驗式直覺。

贊助商廣告

舉個對比來理解：同樣面對一手小牌對方卻下了重注的局面，一段"遊戲特化"的推理會說"我的牌最小，對手下注通常表示他牌大，所以我應該棄牌"；而一段"高度可遷移"的推理則會說"列舉所有可能情況：情況一，對手是強牌，我跟注的期望收益為負2乘以0.5等於負1；情況二，對手在虛張聲勢，期望收益為正2乘以0.5等於正1；綜合來看，選擇期望效用最高的方案"。第二段推理的邏輯框架可以直接搬到任何需要在不確定條件下做決策的場景里——無論是數學題還是商業談判。

每個維度都被評分為低、中、高三檔，然後按照一定的權重加總成最終的可遷移係數。這個係數會直接乘到遊戲勝負信號上，高可遷移的推理記錄獲得充分強化，低可遷移的即便贏了也會被"打折扣"。

**四、第二把鑰匙：推理演化獎勵——思維有沒有在過程中成長？**

推理演化獎勵（用ψ表示）解決的是另一個問題：AI的思維過程有沒有在多輪對話中不斷深化，而不是每一輪都像剛睡醒一樣從零開始？

做數學題時，一個好的推理過程應該是這樣的：先拆解問題，發現子問題，解決子問題，用子問題的結論推進下一步，不斷調整對整體解題路徑的判斷……每一步都在之前的基礎上繼續往前走。而研究團隊觀察到，沒有經過專門訓練的AI在玩遊戲時往往會陷入一種"重置症"——每一輪都說"這是我的第一步，我應該走中間位置來獲得最大控制權"，完全無視之前已經發生了什麼。這就是典型的語境靜止性問題。

為了對抗這個問題，推理演化獎勵從三個角度評判每段對弈記錄。第一個角度是"推理深化"，即推理有沒有隨著輪次推進從簡單的表面觀察走向更複雜的深層分析，就像數學證明一樣層層遞進。第二個角度是"策略適應"，即推理有沒有根據對手的新行動和局面的新變化調整自己的判斷，而不是機械地執行預設方案。第三個角度是"邏輯連貫"，即後面的推理有沒有建立在前面的結論之上，形成一條貫穿始終的邏輯主線。

贊助商廣告

這個獎勵信號的評分區間是負一到正一。正一代表推理在三個方面都有明顯進步，負一代表推理出現了退化——比如一開始分析得頭頭是道，後來突然變成"隨便走一步"。設計成可以為負值是有用意的：這樣不僅能鼓勵好的推理進化，還能主動懲罰那些表面上贏了、但推理過程越來越懶散的對弈記錄，即便那些對弈結果對AI有利。

**五、兩把鑰匙如何合力工作**

整個STRATAGEM的訓練流程可以這樣理解：每一局遊戲結束後，系統會計算三個東西。其一是遊戲本身的勝負結果，這是最基礎的反饋，告訴AI"這個策略有沒有奏效"。其二是推理可遷移係數，這是一個乘數，用來決定這局遊戲的勝負結果"說話的音量有多大"——高可遷移的推理讓遊戲結果的聲音變大，低可遷移的讓聲音變小。其三是推理演化獎勵，這是一個加法項，額外獎勵或懲罰推理過程本身的進化質量，不管遊戲最終輸贏如何。

三者組合成一個調製過的綜合信號，引導AI的學習方向。關鍵在於，只有那些既贏得了遊戲、又展現了高度可遷移的推理、且推理過程在多輪中不斷深化的對弈記錄，才能獲得最強的強化信號。這就像在體育訓練中，一個運動員要同時滿足"贏得比賽""動作規範""體能持續進步"三個條件才能獲得最高評價，而不只是衝著金牌就行。

評估這兩個信號的工作由GPT-4擔任，研究團隊還專門設計了詳細的評分提示詞，讓評估儘可能客觀。為了控制成本，並非每一局對弈都進行完整評估，只是對其中一部分抽樣評估，其餘的用平均值填充。整個額外評估的成本大約是每次訓練一百美元，相比訓練本身消耗的三十小時GPU時間來說相當微小。

**六、實驗設置：三種遊戲，九個測試場景**

訓練階段，研究團隊選用了三種文字類零和遊戲。井字棋（即Tic-Tac-Toe，在三乘三的格子上連成一線的遊戲）用於培養空間推理能力，因為它是完全資訊的確定性遊戲，可以把戰略推理和不確定性管理隔離開來單獨訓練。庫恩撲克（只有三張牌的簡化版撲克）用於培養概率推理能力，玩家需要在不完整資訊下做出下注決策。簡單談判遊戲用於培養策略優化能力，兩名玩家交換木材和黃金資源，雙方的效用函數相反，需要推斷對方的偏好並進行多步驟的策略性提議。

贊助商廣告

這三種遊戲的組合覆蓋了核心推理能力的三個主要維度，同時獎勵信號完全由遊戲結果自然給出，不需要人工標註。

測試階段覆蓋了三個大類共九個基準測試。數學推理類包括MATH500（五百道競賽數學題）、OlympiadBench（奧林匹克級別題目）、Minerva Math、AIME 2024、AIME 2025和AMC 2023；綜合推理類包括GPQA（研究生級別的科學題）和MMLU-Pro；代碼生成類包括HumanEval。所有測試均採用零樣本方式，即AI沒有接觸過任何測試題的例題或提示，直接作答。

**七、實驗結果：競賽數學題的成績翻了好幾倍**

測試結果相當直觀。基礎模型Qwen3-4B-Base在AIME 2024上的正確率只有10%，SPIRAL訓練後依然是10%，而經過STRATAGEM訓練後直接跳到了20%，翻了一倍。AIME 2025的情況更加戲劇性，基礎模型的成績僅有3.3%，SPIRAL訓練後提升到6.7%，STRATAGEM訓練後達到13.3%，相當於基礎版的四倍。AMC 2023題目上，SPIRAL訓練後的成績為45%，STRATAGEM達到60%，領先15個百分點。

這些提升之所以格外顯眼，是因為AIME和AMC是面向高中生的美國數學邀請賽，題目需要多步驟的連續推理，恰恰是檢驗推理遷移能力最好的場景。如果AI只學到了遊戲中的表面技巧，面對這些題目時根本無從下手。

在綜合推理方面，GPQA從基礎模型的30.6%提升到38.23%，MMLU-Pro從47.2%提升到57.83%。代碼生成方面，HumanEval從67.93%提升到77.93%，提升了整整10個百分點。唯一出現小幅退步的是Minerva Math（下降了0.8個百分點），但這個例外反而讓整體結果更加可信——完全一邊倒的數據反而容易讓人生疑。

**八、消融實驗：兩把鑰匙缺一不可**

研究團隊做了一組關鍵測試：把推理演化獎勵（ψ）去掉，只保留推理可遷移係數（φ），看看成績會怎麼變化。結果證明，ψ的貢獻是實質性的。去掉ψ之後，AIME 2024的成績從20%跌回13.3%，AMC 2023從60%跌回52.5%，這兩個下降幅度都相當顯著。AIME 2025也下跌了3.3個百分點，MATH500下跌了1.4個百分點。在九個測試中，ψ的存在讓其中八個有所提升。

贊助商廣告

這個結果說明，單靠"推理必須抽象"是不夠的，同時還需要"推理必須隨著問題進展不斷演化"這個約束，二者缺一不可。這也符合直覺：一個只會用抽象框架但每次都從頭開始的人，和一個能把之前的思考成果不斷積累並往前推進的人，在解決複雜問題時的表現會有本質差別。

**九、參數敏感性：β值設在0.20是最佳平衡點**

研究團隊還測試了控制推理演化獎勵貢獻大小的參數β取不同值時的表現。從0.01、0.05、0.10、0.20到0.30，測試了五個檔位。

β太小（0.01時）相當於推理演化獎勵幾乎不發聲，效果接近去掉ψ的消融版本。β太大（0.30時）則導致訓練不穩定，MATH500成績從76%驟降到71.6%，AMC 2023更是從60%跌回47.5%，說明過分強調推理演化反而干擾了遊戲本身的學習信號。最優點落在0.20，在大多數基準測試上都達到峰值。有一個細微的規律值得注意：越難的題目（如AIME 2024）對較大的β更寬容甚至更有利，而偏重知識的題目（如Minerva Math）則傾向於更小的β值，說明不同類型的任務可能天然偏好不同的推理深化強度。

**十、人類專家的評分：AI確實學到了更抽象、更有層次的思維**

為了防止數字成績只是測試集上的巧合，研究團隊請了五位擁有自然語言處理和機器學習背景的博士生，對四種模型（基礎模型、SPIRAL、去掉ψ的STRATAGEM、完整STRATAGEM）生成的遊戲對弈記錄進行盲評。評分者不知道每段記錄來自哪個模型，並從兩個維度打分：推理的抽象程度（對應φ），以及推理的層次遞進程度（對應ψ），每個維度滿分5分。

完整STRATAGEM在抽象度上拿到4.06分，在層次遞進度上拿到4.18分，兩個維度都是四個模型里最高的。基礎模型的兩個維度分別只有2.48和2.32。去掉ψ的版本抽象度為3.82，接近完整版，但層次遞進度只有3.36，明顯低於完整版的4.18，精準地印證了ψ專門負責推理進化這一設計意圖。評分者之間的一致性也很高，Krippendorff's α係數約為0.75，屬於強一致性區間。

贊助商廣告

研究團隊還用Claude 3.5 Sonnet和Gemini 2.0 Flash對約兩百段對弈記錄進行了重新評分，驗證這套評分體系有沒有偏向GPT-4的特定口味。結果顯示，三個模型之間的一致性Cohen's κ值均超過0.60，Spearman相關係數均超過0.70，說明評分反映的是對弈記錄本身的客觀屬性，而非某個特定評分模型的偏好。

**十一、訓練過程的動態變化：推理質量隨時間穩步提升**

研究團隊還記錄了訓練過程中φ和ψ這兩個指標的變化曲線。訓練剛開始時，推理可遷移係數φ很低，說明AI最初依賴的大量都是遊戲特有的表述和技巧。隨著訓練推進，φ穩定上升，在後期穩定在0.7到0.8的區間。推理演化獎勵ψ的變化也類似：剛開始時甚至為負值，意味著早期的推理過程是碎片化的、前後不連貫的；隨著訓練繼續，ψ逐漸爬升到正值區間，反映出推理過程越來越具有連貫性和層次感。兩條曲線的變化趨勢與研究團隊的理論預期完全吻合，也說明這套機制確實在朝著預期方向引導AI的學習過程。

**十二、推廣到陌生遊戲：在從未見過的遊戲裡也表現更好**

為了檢驗AI有沒有學到真正通用的推理能力而不只是在訓練遊戲上過擬合，研究團隊讓兩個模型（SPIRAL和STRATAGEM）去玩三種完全沒有在訓練中出現過的遊戲，並以Gemini 2.0 Flash作為對手進行測試。

蛇形遊戲是動態空間推理遊戲，兩名玩家控制蛇在格子上競爭。這測試的是井字棋里的空間推理能否遷移到動態環境中的路徑規劃。豬骰子遊戲是風險決策遊戲，玩家不斷擲骰子積累分數，但擲出一點就會失去本輪所有積分，需要決定何時"存檔"。這測試的是撲克里的概率推理能否遷移到連續風險評估場景。真相與欺騙遊戲是資訊不對稱遊戲，一方知道真相另一方通過提問猜測，測試談判遊戲中的策略溝通能力能否遷移到純粹的資訊博弈。

在三種陌生遊戲中，STRATAGEM的勝率均高於SPIRAL。蛇形遊戲和豬骰子遊戲各領先0.20，真相與欺騙遊戲領先0.08。這組數據進一步支持了STRATAGEM學到的是可遷移的推理模式這一核心論點。

贊助商廣告

**十三、多種遊戲組合訓練比單一遊戲更有效**

研究團隊還比較了單獨用一種遊戲訓練和混合三種遊戲訓練的效果。結果顯示，混合訓練在九個基準測試中有六個達到最佳成績，在競賽數學上優勢尤為顯著——AIME 2024比單遊戲最佳成績還高6.7個百分點，AMC 2023高2.5個百分點。有趣的是，單獨用某一種遊戲訓練有時在特定測試上表現更好，這或許因為某些遊戲的推理特性與某類測試更為契合。但整體來看，多種遊戲帶來的推理模式多樣性對綜合遷移能力是有益的。

**十四、換一個更強的起點模型，效果依然成立**

最後一組實驗檢驗了這套方法有沒有依賴特定的基礎模型。研究團隊把同樣的訓練流程用到了Qwen3-4B-Instruct上——這是已經經過指令微調的版本，具備更成熟的語言理解和遵循指令的能力，起點比基礎版更高。

結果顯示，STRATAGEM在五個測試上均優於SPIRAL：MATH500提升2.8個百分點，AIME 2024提升6.6個百分點，AMC 2023提升7.5個百分點，GPQA提升1.56個百分點，HumanEval提升0.3個百分點。絕對提升幅度比基礎模型版本略小，這是因為起點更高之後剩餘的提升空間自然縮小，而不是說方法效果變弱了。這組結果說明，STRATAGEM的軌跡優勢調製機製作用於獎勵信號層面，與模型架構和初始化狀態無關，具有一定的通用性。

**十五、案例對比：兩個模型在遊戲中"腦子裡想什麼"**

研究團隊展示了幾個具體的推理過程對比，讓人直觀感受到兩種訓練方式的差別。

在井字棋第二輪中，基礎版模型說的是"在我的第一步中……我應該走中間位置來獲得最大控制權"，完全無視第一輪已經走過棋這一事實，仿佛每一輪都是全新的開始。STRATAGEM訓練的模型則說"玩家0已經占據了中心位置，威脅最小化策略：走1號位可以限制對手的選項並為後續威脅做鋪墊"，不僅意識到了當前局面的狀態，還使用了"威脅最小化"這類可以在任何對弈場景（甚至商業決策場景）中通用的概念框架。

贊助商廣告

在庫恩撲克中，基礎模型的第一輪竟然錯誤地把J（最小的牌）識別為K（最大的牌），從一開始就建立在錯誤的前提上，後續推理自然也失去意義。STRATAGEM版本則在第五輪寫道"期望值分析：棄牌的期望損失為0；跟注的風險是兩籌碼……"，直接運用了期望值計算框架，這種框架和數學競賽題里解決概率決策問題的思路如出一轍。

談判遊戲的對比也很鮮明。基礎模型把談判當算術題做，直接寫"木材：10，價值：5；黃金：10，價值：15；總計：5+15=20"，然後貪婪地追求最優分配，完全不考慮對方的意圖。STRATAGEM版本則從第一輪就開始建模對方的策略意圖，在第三輪將"對方的初始報價"和"當前的要求"進行系統對比，在第五輪戰略性地重申自己的立場，整個過程體現出連續追蹤談判進程和動態調整策略的能力。

歸根結底，這項研究的核心貢獻是指明了一條讓AI在遊戲中學到"真本事"的路徑：不只看贏沒贏，還要看贏得是不是靠真正值得學習的推理方式，以及推理過程有沒有隨著對話推進而不斷成長。這兩個細節的加入，讓遊戲訓練的效果從"可能有點用"變成了"在最難的推理任務上有顯著收益"。

當然，這項工作也有它還沒解決的問題。訓練遊戲只有三種，都相對簡單；測試的模型規模也只到四億參數級別；評估φ和ψ還需要依賴GPT-4這個外部接口，增加了對第三方服務的依賴。研究團隊在論文中坦承，把評估器替換成一個輕量的本地獎勵模型是下一步的自然方向，更多種類、更複雜的遊戲環境也值得探索。不過，這些都是在已經紮實的基礎上繼續拓展的問題，而不是基礎邏輯本身的缺陷。

有興趣深入了解完整技術細節的讀者，可以通過論文編號arXiv:2604.17696查閱原文，這篇論文的附錄部分包含了所有評估提示詞的完整版本，具備足夠的可復現性。

---

Q&A

Q1：STRATAGEM訓練AI的遊戲和最終測試的數學題、編程題有什麼關係？

贊助商廣告

A：STRATAGEM訓練用的是文字類零和遊戲，比如井字棋和撲克，測試用的是完全不同的數學競賽題和編程題。兩者的聯繫在於推理方式：遊戲裡用到的"列舉所有情況、計算期望值、逐步深化分析"等思維框架，和解數學題時需要的邏輯結構是相通的。STRATAGEM通過專門獎勵這類抽象推理方式，讓AI在遊戲中練出了能遷移到其他領域的推理能力。

Q2：推理可遷移係數和推理演化獎勵這兩個指標是怎麼打分的？

A：兩個指標都由GPT-4來評估，研究團隊為此設計了詳細的評分提示詞。推理可遷移係數從"抽象程度""結構清晰度""原則導向性"三個維度打分，每個維度0到1分；推理演化獎勵從"推理深化""策略適應""邏輯連貫"三個維度打分，每個維度負1到正1分。研究團隊還用Claude和Gemini交叉驗證了評分一致性，確認結果不是GPT-4的特定偏好。

Q3：STRATAGEM在AIME數學競賽題上的成績為什麼比其他題目提升更明顯？

A：AIME競賽題需要多步驟連續推理，每一步的結論都要被後續步驟引用，整個解題過程是一個不斷演化的邏輯鏈。這恰好對應了STRATAGEM重點強化的"推理演化"能力——要求AI的思路隨著問題推進而不斷深化，而不是每輪都從頭開始。相比之下，偏重知識記憶的題目對這種能力的需求沒那麼強，所以提升幅度相對較小。