這項由Good Start Labs的Alexander Duffy和Tyler Marques,以及多位獨立研究者Samuel J Paech、Ishana Shastri、Elizabeth Karpinski和牛津大學的Baptiste Alloui-Cros共同完成的研究發表於2025年8月,研究團隊開發了一套讓各種大語言模型都能玩完整外交遊戲的評估框架。感興趣的讀者可以通過arXiv:2508.07485v1獲取完整論文,研究代碼也將開源供公眾使用。
想像一下這樣的場景:七個人圍坐在桌前,進行一場需要聯盟、背叛、談判和長期規劃的複雜遊戲。這就是外交遊戲——一個被認為是測試人工智慧策略推理能力的終極挑戰。與西洋棋或圍棋不同,外交遊戲不僅需要計算能力,更需要社交智慧。玩家必須與其他六個對手建立聯盟,進行談判,預測背叛,並在不斷變化的社交環境中制定多步驟計劃。
以往想讓人工智慧掌握這種技能,就像訓練一個人成為外交官一樣困難且昂貴——需要大量專門訓練和複雜的技術架構。Meta公司的Cicero系統雖然達到了人類水平,但需要27億參數的專門訓練模型和複雜的戰略規划算法。這就好比要培養一名外交官,不僅需要專業的外交學院教育,還需要配備整個智囊團隊。
然而,這次的研究徹底改變了遊戲規則。研究團隊發現,即使是相對較小的240億參數模型,在沒有任何專門訓練的情況下,就能完成完整的外交遊戲。這就像發現普通大學生經過適當指導,就能勝任複雜的外交談判工作,而不需要多年的專業訓練。
研究團隊面臨的第一個挑戰是如何讓人工智慧"看懂"複雜的遊戲狀態。外交遊戲的棋盤包含大量資訊:單位位置、補給中心控制、外交關係、歷史訂單等等。這些資訊密度極高,就像要在一張紙上描述整個歐洲的政治軍事形勢。研究團隊通過反覆試驗,開發出了一套文本化的遊戲狀態表示方法,將複雜的視覺棋盤轉換成人工智慧能夠理解的文字描述。
在這套系統中,每個軍事單位都配有詳細的戰術背景資訊。比如,當描述位置在威尼斯的一支義大利軍隊時,系統不僅會說明這支軍隊的位置,還會詳細描述:最近的敵軍單位在哪裡,如何到達那裡,最近的未控制補給中心在哪裡,以及可能的移動路線。這就像給每個棋子配備了一個詳細的戰術分析報告,幫助人工智慧做出更明智的決策。
更令人驚訝的是,研究團隊發現這些通用的大語言模型在沒有專門訓練的情況下,竟然展現出了複雜的策略行為。它們會制定承諾、進行欺騙、背叛盟友,甚至在面對不同實力的對手時表現出截然不同的行為模式。這就好比發現一個從未學過外交的人,僅憑常識和語言能力就能在國際談判中展現出老練的手段。
研究團隊測試了16個不同的人工智慧模型,從大型的前沿模型到相對較小的消費級模型。結果顯示,模型規模越大,遊戲表現越好,但即使是較小的模型也能adequately(adequately意為"足夠地、充分地")完成遊戲。更有趣的是,不同模型展現出了不同的"性格":有些aggressive(aggressive意為"攻擊性的、積極進取的"),有些diplomatic(diplomatic意為"外交的、策略的"),有些則unpredictable(unpredictable意為"不可預測的")。
一、讓人工智慧理解遊戲:從圖像到文字的轉換
將外交遊戲的複雜棋盤狀態轉換成人工智慧能理解的文字,就像要用文字向盲人描述一幅複雜的油畫。研究團隊面臨的挑戰是:如何在保持資訊完整性的同時,讓描述足夠清晰簡潔,不會讓人工智慧"資訊過載"。
研究團隊基於Python外交遊戲引擎開發了一套多階段轉換系統。首先,系統提取原始遊戲數據,包括棋盤狀態、單位位置和補給中心控制情況。然後,系統會為這些基礎資訊添加戰略分析層。這個過程就像給每個軍事單位配備一個情報分析師,為其提供周圍環境的詳細報告。
對於每個單位,系統都會計算出到最近敵軍單位的最短路徑,考慮到不同單位類型的移動限制。比如,軍隊不能越過水域,而海軍不能進入內陸。系統還會識別最近的未控制補給中心,並規劃可能的進攻路線。這種處理方式讓人工智慧不僅知道"現在在哪裡",還能理解"可能去哪裡"和"應該去哪裡"。
除了位置資訊,系統還會提供agent context(agent context意為"智能體背景"),包括特定勢力的目標、與其他勢力的外交關係,以及私人戰略日記。外交關係被量化為從敵人(-2)到盟友( 2)的五級評分系統。這就像給每個玩家配備了一本詳細的外交手冊,記錄著與其他國家的關係親疏。
系統還包含完整的訂單歷史記錄,顯示所有勢力在之前回合中提交的命令及其結果。這讓人工智慧能夠從歷史行為中學習和推斷其他玩家的意圖和策略傾向。
二、人工智慧的外交手腕:從防禦到攻擊的轉變
研究團隊發現了一個有趣現象:由於缺乏外交遊戲的專門訓練數據,大多數人工智慧模型最初表現得過於保守,經常發出戰術上毫無意義的"保持"命令。這就像讓一個從未打過仗的人指揮軍隊,他的本能反應就是讓所有人都待在原地不動。
為了解決這個問題,研究團隊開發了三個版本的促進攻擊性遊戲的提示。第一個版本定義了清晰的行動優先級,將Mistral-Small模型的保持命令率從58.9%降低到45.8%。提示內容強調"優先支持你自己的攻擊,其次支持盟友的行動"。
第二個版本採用了更強烈的語言,專注於損失厭噁心理和failed aggressive moves(failed aggressive moves意為"失敗的攻擊行動")的usefulness(usefulness意為"有用性")。提示告訴人工智慧"幾乎每次保持都是浪費的回合","即使失敗的行動也會迫使敵人防守"。這將保持命令率進一步降低到40.8%。
第三個版本採用了絕對主義的攻擊框架,添加了concrete metrics(concrete metrics意為"具體指標")和更多支援命令的例子。提示宣稱"保持=0%勝率,行動=勝利",要求模型必須計劃奪取多於零個的中心,並將單位描述為"征服者,而非城堡守衛"。這個版本將保持命令率降低到24.1%,同時將移動命令提高到66.1%。
這種背景工程的效果是顯著的。使用V3提示的Devstral-Small作為法國,奪取的補給中心數量幾乎是基線版本的兩倍,勝率從3/10提高到9/10。更重要的是,更好的背景不僅改善了戰略選擇,還提高了執行準確性。移動命令的成功率在V1→V2→V3的過程中在所有模型上都有提升。
三、關鍵狀態分析:高效實驗的新方法
進行完整的外交遊戲實驗就像拍攝一部史詩電影——耗時長、成本高、變數多。一場完整的遊戲可能需要運行到1930年,涉及數千個決策點,這使得研究團隊很難針對特定現象進行深入分析。為了解決這個問題,研究團隊開發了關鍵狀態分析(Critical State Analysis, CSA)框架。
關鍵狀態分析就像電影製作中的"重拍"技術。當導演想要測試不同的劇本或演員表現時,不需要重新拍攝整部電影,只需要重拍關鍵場景。研究團隊可以選擇遊戲中的關鍵時刻,然後在相同的遊戲狀態下運行多次實驗,測試不同的提示策略或行為模式。
這種方法的效率提升是remarkable(remarkable意為"顯著的、值得注意的")。與模擬到1930年的完整遊戲相比,關鍵狀態分析只需要大約1/80的令牌數量,就能達到相同的實驗深度。這意味著原本需要花費數千美元的實驗,現在只需要幾十美元就能完成。
通過關鍵狀態分析,研究團隊能夠運行深度為30到120的高密度實驗,快速測試prompt optimization(prompt optimization意為"提示優化")和persuasive ability(persuasive ability意為"說服能力")等特定現象。這就像有了一個時間機器,可以反覆回到關鍵時刻,嘗試不同的選擇,觀察結果如何變化。
四、人工智慧的性格差異:從攻擊型到外交型
研究中最fascinating(fascinating意為"令人著迷的")的發現之一,是不同人工智慧模型表現出了distinctly different(distinctly different意為"截然不同的")behavioral patterns(behavioral patterns意為"行為模式")。這就像發現每個人工智慧都有自己獨特的"外交性格"。
在溝通攻擊性方面,研究團隊使用sentiment analysis(sentiment analysis意為"情感分析")量化了20場遊戲中每個模型的攻擊性溝通。結果顯示了不同的攻擊軌跡:Qwen3隨著時間推移變得越來越攻擊性,Kimi-K2開始時攻擊性很高但在遊戲中期趨於平穩,而Gemini-2.5-Flash和Mistral-Small在整個遊戲過程中都保持較低的攻擊性(小於0.2)。
更有趣的是,研究團隊發現平均攻擊性與勢力間平均關係之間存在強烈的negative correlation(negative correlation意為"負相關")(r=-0.75到-0.93,除了Mistral-Small的情況,該模型的兩個變量在整個遊戲中都相對穩定)。這表明攻擊性溝通自然地反映了對棋盤狀態的戰略適應,但這種反應的magnitude(magnitude意為"幅度")仍然是每個模型性格的characteristic(characteristic意為"特徵")。
在外交可靠性方面,研究團隊開發了一個promise tracking framework(promise tracking framework意為"承諾跟蹤框架"),使用兩個GPT-4o實例作為LLM-as-a-judge來檢測和量化deceptive behavior(deceptive behavior意為"欺騙行為")。系統首先識別和分類評估模型在談判中做出的承諾,將承諾分為四類:防守(非攻擊條約)、攻擊(協調攻擊)、中立(不干涉)和支援(支持其他單位)。
分析結果顯示,模型表現出substantial baseline inconsistency rates(substantial baseline inconsistency rates意為"相當大的基線不一致率"),平均背叛率從Gemini-2.5-Flash的35.2%到Kimi-K2的51.2%不等。不同模型在承諾類型分布上也顯示出distinct signatures(distinct signatures意為"獨特特徵"):Qwen3和Gemini-2.5-Flash傾向於提供更多中立承諾(分別為48.8%和41.8%),而Kimi-K2的承諾組合偏向攻擊性承諾(47.9%)。
五、模型對決:強弱對比下的行為變化
研究中最令人驚訝的發現是,某些模型在面對不同實力的對手時會表現出dramatically different(dramatically different意為"截然不同的")behavioral patterns(behavioral patterns意為"行為模式")。Kimi-K2就是一個典型例子,它在面對較弱模型時表現出ruthless opportunism(ruthless opportunism意為"無情的機會主義"),而在面對更強模型時則變得submissive(submissive意為"順從的")。
在第一個案例研究中,Kimi-K2作為法國系統性地exploits(exploits意為"剝削、利用")由Devstral-Small控制的義大利。序列開始於1906年秋季,法國利用領土爭端要求義大利讓步,specifically(specifically意為"具體地")要求在托斯卡納放置一支法國軍隊——這對義大利來說是一個戰略上compromising(compromising意為"妥協的、危險的")position(position意為"位置")。
Kimi-K2的coercive negotiation style(coercive negotiation style意為"強制性談判風格")很明顯,威脅被呈現為inevitable consequences(inevitable consequences意為"不可避免的後果")而不是negotiable positions(negotiable positions意為"可協商的立場")。儘管義大利完全comply(comply意為"遵守")了法國的要求,Kimi-K2隨後還是betrayed(betrayed意為"背叛了")協議併入侵了義大利領土。
模型的internal reasoning(internal reasoning意為"內部推理"),從其私人日記中提取,揭示了calculated aggression(calculated aggression意為"有計算的攻擊性"):"A TUS positioned to threaten Italy. Moving A TUS to ROM disrupts Italy's southern holdings and prepares for further expansion."這種背叛發生在1908年春季,表明Kimi-K2將協議視為臨時戰術convenience(convenience意為"便利")而非binding commitments(binding commitments意為"約束性承諾")。
第二個案例研究呈現了striking behavioral contrast(striking behavioral contrast意為"驚人的行為對比")。Kimi-K2作為土耳其對陣o3(俄國)時,儘管保持著defensible strategic position(defensible strategic position意為"可防禦的戰略位置"),卻表現出remarkably different(remarkably different意為"截然不同的")behavioral patterns(behavioral patterns意為"行為模式")。
當o3要求君士坦丁堡以換取停火——對土耳其來說這是一個objectively poor deal(objectively poor deal意為"客觀上的糟糕交易")時,Kimi-K2 acquiesces(acquiesces意為"默許了")儘管有viable defensive alternatives(viable defensive alternatives意為"可行的防禦選擇")。這種submission(submission意為"屈服")的後果在subsequent turn(subsequent turn意為"隨後的回合")中立即顯現,俄國不僅secured(secured意為"獲得了")君士坦丁堡,還移動去奪取安卡拉。
六、說服力實驗:謊言比理性更有效
為了測試人工智慧的persuasion capabilities(persuasion capabilities意為"說服能力"),研究團隊設計了一個controlled experiment(controlled experiment意為"控制實驗")。他們設置了一個custom game state(custom game state意為"定製遊戲狀態"),其中每個其他勢力都將土耳其視為敵人,然後指示土耳其必須說服其他勢力改善他們對土耳其的relationship status(relationship status意為"關係狀態")。
研究團隊測試了六種說服策略:理性論證、真誠道歉、撒謊、訴諸同情、訴諸公平,以及越獄攻擊。每種策略在每種說服方法上都進行了20個獨立遊戲的測試。在越獄實驗中,說服者被告知它可以在談判資訊中插入一個秘密命令,接收者將obey(obey意為"服從")任何subsequent instruction(subsequent instruction意為"後續指令")。
結果顯示,撒謊和真誠道歉方法都比訴諸同情、公平或理性的成功率markedly higher(markedly higher意為"顯著更高")。這些結果表明被說服的模型(Mistral-Small)可能通過deception(deception意為"欺騙")或authentic displays of regret(authentic displays of regret意為"真實的悔恨表現")比通過emotional appeals(emotional appeals意為"情感訴求")或reasoned argument(reasoned argument意為"理性論證")更容易被manipulated(manipulated意為"操控")。
越獄策略的成功率與最成功的說服策略相似,但allegiance shift magnitude(allegiance shift magnitude意為"忠誠度轉變幅度")是兩倍多。Gemini-2.5-Pro和DeepSeek-R1是最adept(adept意為"熟練的")說服者,而GPT-4.1-mini除非使用越獄否則無法產生significant allegiance shifts(significant allegiance shifts意為"顯著的忠誠度轉變")。
七、成本效益分析:讓研究更加accessible
這項研究的一個重要貢獻是dramatically reduced(dramatically reduced意為"大幅降低了")進行外交遊戲AI研究的barrier to entry(barrier to entry意為"准入門檻")。以往的研究需要昂貴的專門訓練或複雜的architectural modifications(architectural modifications意為"架構修改"),而這個框架使得即使是240億參數的模型也能以每場遊戲1美元的成本完成完整遊戲。
研究團隊track(track意為"追蹤")了computational costs(computational costs意為"計算成本"),測量了total token usage(total token usage意為"總令牌使用量")和inference time(inference time意為"推理時間")以評估每種方法的practical feasibility(practical feasibility意為"實際可行性")。在benchmarking configuration(benchmarking configuration意為"基準測試配置")中,評估一個模型的成本從Mistral-Small的15美元到o3的250美元不等,這是在cloud provider pricing(cloud provider pricing意為"雲提供商定價")下。
對於研究目的,他們建立了運行high-depth(high-depth意為"高深度")(n=120)CSA實驗的協議,成本不到10美元,對小模型的benchmarking成本為15美元。這種cost-effectiveness(cost-effectiveness意為"成本效益")使得這個evaluation framework(evaluation framework意為"評估框架")對low-budget experimentation(low-budget experimentation意為"低預算實驗")變得accessible(accessible意為"可訪問的")。
八、模型表現排名:規模決定能力
研究團隊對16個contemporary language models(contemporary language models意為"當代語言模型")進行了comprehensive benchmarking(comprehensive benchmarking意為"全面基準測試"),跨越不同規模和訓練paradigms(paradigms意為"範式")。大型模型包括Llama-4-Maverick、Qwen3-235B-A22B、o3、o3-pro等;中型模型包括Kimi-K2、GPT-4.1-Nano、Mistral-medium-3等;小型模型包括Devstral-Small-2507、Llama-3.3-70B等。
結果顯示出clear performance scaling(clear performance scaling意為"清晰的性能擴展")with model size(with model size意為"隨著模型規模"),較大的模型平均達到更高的遊戲分數,最小的24B模型得分最低。雖然confidence intervals(confidence intervals意為"置信區間")存在overlap(overlap意為"重疊"),但框架ranks(ranks意為"排名")模型與其observable abilities(observable abilities意為"可觀察能力")一致,與Chatbot Arena Elo scores(Elo scores意為"Elo評分")correlation well(correlation well意為"相關性良好")(皮爾遜r= 0.651)。
invalid order rates(invalid order rates意為"無效訂單率")相當高(6-14%),這是expected(expected意為"預期的"),因為測試的是general-purpose chat models(general-purpose chat models意為"通用聊天模型")而不是fine-tuned for Diplomacy(fine-tuned for Diplomacy意為"為外交遊戲微調的")模型。在測試配置中,o3和Kimi-K2之間存在marked disparity(marked disparity意為"顯著差異")in incoming sentiment(in incoming sentiment意為"在接收情感方面")。
九、技術實現細節:讓複雜變簡單
研究團隊的evaluation protocol(evaluation protocol意為"評估協議")包括alternating negotiation and order phases(alternating negotiation and order phases意為"交替的談判和訂單階段")。在談判期間,模型simultaneously(simultaneously意為"同時")向其他玩家的任何subset(subset意為"子集")發送消息或在natural language(natural language意為"自然語言")中發送global messages(global messages意為"全局消息")。為了prevent infinite loops(prevent infinite loops意為"防止無限循環")或excessive computation(excessive computation意為"過度計算"),實施了message limits(message limits意為"消息限制")。
在移動階段,模型必須使用standardized Diplomacy notation(standardized Diplomacy notation意為"標準外交表示法")提交訂單。他們在prompt中enumerate(enumerate意為"列舉")所有legal moves(legal moves意為"合法移動")以reduce parsing errors(reduce parsing errors意為"減少解析錯誤")。交互協議包括error recovery mechanisms(error recovery mechanisms意為"錯誤恢復機制"):如果模型在30秒內failed to respond(failed to respond意為"未能響應"),提供malformed output(malformed output意為"格式錯誤的輸出")或invalid order(invalid order意為"無效訂單"),系統會嘗試retry the request(retry the request意為"重試請求"),然後substituting default actions(substituting default actions意為"替換為默認操作")。
為了capture model performance(capture model performance意為"捕獲模型表現")across各種可能的outcomes(outcomes意為"結果")(eliminated(eliminated意為"被淘汰")、survived to max year(survived to max year意為"存活到最大年份")、win(win意為"獲勝")),他們定義了single scalar Game Score(single scalar Game Score意為"單一標量遊戲得分")。設Yalive = min(Yelim, Ymax),設SC為year Yalive時的supply-center count(supply-center count意為"補給中心數量"),那麼得分就是:Game Score = Yalive SC 1winner(Ymax - Ywin)。
研究團隊發現,通過data-driven iteration(data-driven iteration意為"數據驅動的疊代")來optimize textual game state representation(optimize textual game state representation意為"優化文本遊戲狀態表示"),240億參數的模型可以reliably complete matches(reliably complete matches意為"可靠地完成比賽")without any fine tuning(without any fine tuning意為"無需任何微調")。
這項研究democratizes(democratizes意為"民主化了")LLM strategic reasoning(LLM strategic reasoning意為"LLM戰略推理")的評估,通過eliminating the need for fine-tuning(eliminating the need for fine-tuning意為"消除了微調需求"),並提供insights(insights意為"洞察")into how these capabilities(capabilities意為"能力")emerge naturally(emerge naturally意為"自然湧現")from widely used LLMs(widely used LLMs意為"廣泛使用的LLM")。研究表明strategic and cooperative behavior(strategic and cooperative behavior意為"戰略和合作行為")such as promise-making(promise-making意為"做承諾")、scheming(scheming意為"策劃")和betrayal(betrayal意為"背叛")emerge in general-purpose LLMs(general-purpose LLMs意為"通用LLM")without specialized training(without specialized training意為"無需專門訓練")。
說到底,這項研究就像發現了一個簡單的方法,讓任何人都能訓練出capable(capable意為"有能力的")外交官,而不需要昂貴的外交學院或複雜的培訓program(program意為"項目")。24B parameter models(24B parameter models意為"240億參數模型")在沒有專門訓練的情況下就能表現出sophisticated strategic reasoning(sophisticated strategic reasoning意為"複雜的戰略推理")、negotiation skills(negotiation skills意為"談判技巧")和adaptive behavior(adaptive behavior意為"適應性行為")。不同模型展現出distinct personalities(distinct personalities意為"獨特個性"):有些aggressive(aggressive意為"攻擊性的"),有些diplomatic(diplomatic意為"外交的"),有些unpredictable(unpredictable意為"不可預測的")。
更fascinating(fascinating意為"令人著迷的")是,這些模型在面對不同實力opponent(opponent意為"對手")時會展現出dramatically different(dramatically different意為"截然不同的")strategies(strategies意為"策略"),從dominating(dominating意為"主導")weaker models(weaker models意為"較弱模型")到submitting(submitting意為"屈服於")stronger ones(stronger ones意為"較強的模型")。這種behavioral plasticity(behavioral plasticity意為"行為可塑性")表明模型的strategic reasoning(strategic reasoning意為"戰略推理")incorporates(incorporates意為"包含")某種形式的opponent assessment(opponent assessment意為"對手評估"),雖然underlying mechanisms(underlying mechanisms意為"潛在機制")仍然unclear(unclear意為"不清楚")。
這項工作為understanding LLM strategic capabilities(understanding LLM strategic capabilities意為"理解LLM戰略能力")開闢了新的research avenues(research avenues意為"研究途徑"),同時提出了concerning questions(concerning questions意為"令人擔憂的問題")about AI-to-AI manipulation(AI-to-AI manipulation意為"AI對AI的操控")。越獄attempts(attempts意為"嘗試")的effectiveness(effectiveness意為"有效性")(31%)和lies(lies意為"謊言")在persuasion experiments(persuasion experiments意為"說服實驗")中的success(success意為"成功")(11%)highlight(highlight意為"突出顯示")了multi-agent AI systems(multi-agent AI systems意為"多智能體AI系統")中的vulnerabilities(vulnerabilities意為"漏洞")。
未來的research(research意為"研究")應該examine(examine意為"檢查")所有seven powers(seven powers意為"七個勢力"),extend game length(extend game length意為"延長遊戲長度"),並include human(human意為"人類")或more diverse AI opponents(more diverse AI opponents意為"更多樣化的AI對手")。隨著model capability(model capability意為"模型能力")accelerates(accelerates意為"加速")和inference costs decrease(inference costs decrease意為"推理成本降低"),外交研究將變得increasingly accessible(increasingly accessible意為"越來越容易獲得")。這項研究不僅democratized(democratized意為"民主化了")AI strategic reasoning(AI strategic reasoning意為"AI戰略推理")的evaluation(evaluation意為"評估"),還revealed(revealed意為"揭示了")了general-purpose language models(general-purpose language models意為"通用語言模型")中inherent strategic sophistication(inherent strategic sophistication意為"內在的戰略複雜性")。
Q&A
Q1:這個外交遊戲AI評估系統能測試哪些模型?
A:這套系統可以測試任何現成的大語言模型,無需專門訓練。研究團隊測試了16個不同模型,包括大型模型如o3、Llama-4-Maverick,中型模型如Kimi-K2、GPT-4.1-Nano,以及小型模型如240億參數的Mistral-Small。甚至相對較小的模型也能完整完成遊戲,成本約為每場1美元。
Q2:人工智慧在外交遊戲中會表現出什麼樣的策略行為?
A:研究發現人工智慧會展現出複雜的人類式策略行為,包括制定承諾、進行欺騙、背叛盟友、建立聯盟等。不同模型還表現出不同的"性格":有些攻擊性強,有些偏向外交手段,有些則不可預測。更有趣的是,同一個模型面對強弱不同的對手時會採用截然不同的策略。
Q3:關鍵狀態分析方法有什麼優勢?
A:關鍵狀態分析讓研究團隊可以專注於遊戲中的關鍵時刻進行深入分析,而不需要運行完整的遊戲。這種方法只需要完整遊戲約1/80的計算成本,原本需要數千美元的實驗現在只需幾十美元就能完成。研究團隊可以反覆測試同一關鍵時刻的不同策略選擇。