當AI開始「玩轉」遊戲設計：布里斯托大學等機構聯合研發的遊戲自動生成系統，究竟能進化出多少創意？

這項由英國布里斯托大學、上海交通大學、山東大學、南京大學和Sreal AI聯合開展的研究，於2026年4月發表在預印本平台arXiv上，論文編號為arXiv:2604.19926。研究團隊圍繞一個聽起來頗具野心的目標展開工作：讓AI不只是"一次性"生成一個遊戲，而是像有經驗的遊戲設計師那樣，一版比一版更有創意地疊代改進。

贊助商廣告

說到遊戲設計，絕大多數人腦海里浮現的可能是某個熬夜苦思的開發者，手邊擺著咖啡，在白板上反覆塗改遊戲規則的場景。而現在，AI也開始嘗試扮演這個角色。問題在於，以往的AI在這件事上表現並不理想——它能寫出"看起來像遊戲代碼"的東西，但運行起來要麼卡死，要麼無聊得像在看一塊空白螢幕。更棘手的是，你讓它"做一個有創意的遊戲"，它十次里有九次給你的是桌球或者太空射擊——那種幾十年前就玩爛了的模板。

CreativeGame這個系統的核心邏輯，可以用一個日常比喻來理解：把AI遊戲生成過程想像成一位學徒廚師的成長曆程。這位廚師不只是按食譜做菜，而是每做一道菜之後，都會認真記錄哪些步驟成功了、哪些失敗了，然後下次嘗試時主動改變某個食材或烹飪方式。隨著時間推移，這位廚師不再只會複製經典菜式，而是開始真正創造屬於自己風格的新菜。整個CreativeGame系統正是以這樣的邏輯設計的：從"按模板複製"走向"有規律地創新"。

---

一、為什麼以前的AI做遊戲總讓人失望

要理解CreativeGame的意義，得先弄清楚之前的AI到底哪裡出了問題。

以往，研究人員嘗試直接讓大語言模型（可以理解為ChatGPT這類會寫文字和代碼的AI）生成遊戲代碼，結果暴露出幾個讓人頭疼的問題。第一個問題是生成的代碼經常"看起來沒問題，跑起來崩潰"。就像一道菜擺盤精美，結果吃進嘴裡才發現根本沒熟。遊戲代碼里會有各種隱藏的小毛病：遊戲循環寫了卻沒有真正調用，動畫幀更新寫了卻不會自動重複，畫布背景沒有正確初始化……這些問題不影響代碼的"外觀"，卻讓遊戲完全無法運行。

贊助商廣告

第二個問題是AI沒有"記憶"。每次生成一個新遊戲，AI都是從頭開始，完全不記得上一次哪個設計成功了、哪個思路走進了死胡同。這就像讓那位學徒廚師每天上班之前都喝一碗忘憂湯——永遠在重複同樣的錯誤，永遠無法積累經驗。

第三個問題最難解決：如何評價一個遊戲"有沒有創意"？通常的做法是讓AI自己給自己打分，但研究團隊發現這個方法有嚴重漏洞。GPT這類高水平的AI模型，不管你給它看什麼遊戲，它都傾向於打出"7分"左右的分數，就好像一個永遠給及格分的老師，根本無法區分平庸之作和真正的創意突破。這在學術上被稱為"分數飽和"問題——評分系統失去了真正的區分能力。

更深層的問題在於，就算AI打出了8分，比上一版高了1分，這個變化是真正的創意進步，還是只是運氣好換了個顏色主題？沒有人能說清楚。

CreativeGame的研究團隊把這些問題系統地梳理出來，並針對每一個問題設計了對應的解決方案。

---

二、遊戲的"骨架"：什麼叫真正改變了遊戲規則

在討論解決方案之前，研究團隊先做了一件很重要的事：給"遊戲"和"遊戲機制"下了精確的定義。這聽起來像是繞彎子，但實際上是整個系統能夠運轉的基礎。

研究團隊把一個遊戲理解為由十幾個相互關聯的部分組成的系統，包括：誰在做決策（玩家），遊戲世界的狀態是什麼，玩家能做什麼動作，做了動作之後世界會怎麼變化，玩家能看到什麼資訊，有什麼獎懲反饋，有哪些資源和限制，最終目標是什麼，等等。

在這十幾個部分里，研究團隊劃了一條重要的分界線：有些部分是"核心結構"，比如玩家能做的動作、動作的後果、獲勝條件；而另一些部分是"表現層"，比如遊戲的視覺風格、音效、背景故事。

這條分界線的意義在於：如果你只是把一個科幻主題的射擊遊戲改成了古裝主題的射擊遊戲，遊戲規則一字未動，那這不叫創意，叫"換皮"。CreativeGame系統被明確設計成專門獎勵核心結構的改變，而不是表面的視覺翻新。

贊助商廣告

在這個框架下，"遊戲機制"被定義為：一種穩定地改變遊戲核心結構的規則模式。比如，"重力"是一種機制，因為它改變了物體運動的規律；"充能攻擊"是一種機制，因為它改變了玩家行動的後果；"幽靈回放"是一種機制，因為它讓過去的行動記錄變成了可以影響當前遊戲狀態的實體。

理解了這個定義，就能理解為什麼研究團隊後來那麼執著於追蹤"機制的變化"——因為機制的變化，才是真正意義上的遊戲創新。

---

三、系統的"廚房"：七個專職角色各司其職

CreativeGame系統的運作方式，可以類比成一家分工精細的餐廳後廚。不同的角色有不同的專業職責，彼此之間按固定流程配合，共同完成一道"菜"（一個遊戲版本）的製作。

整個系統共有七個邏輯角色，在實際執行時展開為十個可運行的具體職位。生成遊戲代碼這個環節本身就被拆分成了四個連續的子階段：骨架生成（先搭建遊戲的基礎框架，就像先把廚房的灶台和鍋碗擺好）、功能實現（往框架里填充具體的遊戲邏輯，就像開始備料和炒菜）、視覺增強（添加界面效果和動畫，就像擺盤裝飾）、精煉打磨（最後檢查和修復細節，就像出菜前的最後調味）。

這個流程的起點是"規劃者"角色。在規劃者動筆之前，系統會先去查閱一個擁有774條記錄的全局機制檔案庫——你可以把這個檔案庫理解成一本廚譜大全，裡面記錄著各種遊戲機制的成功案例、使用頻率，以及哪些機制已經被用爛了、哪些還有探索空間。規劃者查閱這本"廚譜"之後，會明確列出本次遊戲應該保留哪些機制、新增哪些機制、刪除哪些機制、或者把哪些已有機制重新組合。這份明確的"機制計劃"會傳遞給後續所有生成階段，作為整個創作過程的指導綱領。

代碼生成完成後，系統會進行驗證和修復，如果發現問題會自動觸發修複流程。隨後是評估階段，對照之前的機制計劃，檢查實際生成的遊戲究竟實現了多少計劃中的機制。接著是反思階段，把這次經驗總結成"成功經驗"和"失敗教訓"寫入記憶。最後是循環控制——如果這一輪結果不夠好，就回到代碼生成階段重來，最多嘗試三次，然後保存最終結果。

贊助商廣告

整個系統用Python編寫，共6181行代碼，包含了完整的流程編排、記憶管理、獎勵計算、運行時驗證、機制檢索和血統記錄功能。這個規模使得系統的每一個內部決策過程都是可追蹤、可檢查的。

---

四、打分的革命：讓AI不再靠"感覺"評價創意

創意分數這個問題，是CreativeGame系統最花心思的地方之一。研究團隊設計了一套他們稱為"創意代理獎勵"的評分機制，核心思路是：把評分的主導權從AI的主觀判斷手裡搶過來，交給可以客觀驗證的程序化指標。

這套評分機制由七個加權信號組成，權重各不相同。其中最重要的是"結構性機制變化"，占25%的權重——這個指標衡量的是，相比上一版遊戲，這一版新增了哪些機制、修改了哪些機制、刪除了哪些機制。權重排第二和第三的是"機制實現度"（20%）和"相對機制新穎度"（20%），分別衡量計劃中的機制有多少真正出現在了最終代碼里，以及這些機制相對於那個774條記錄的全局檔案有多新鮮。這三個最重要的信號合計占到總分的65%，而且都是通過程序計算得出的，不依賴任何主觀判斷。

AI自己的創意評分只占15%，而且被處理成了一個輔助信號。研究團隊把AI給出的原始分數（滿分10分）減去3再除以7，這樣做的目的是讓分數分布更有區分度，而不是讓AI總在7分附近徘徊。即便如此，這個信號仍然被標註為"輔助"，不會主導最終結果。

剩餘的20%由兩個負向信號構成：如果這一版遊戲只是在視覺表現上做了修改而核心機制毫無變化，系統會扣掉15%；如果生成的代碼缺少遊戲運行必需的基礎組件（比如畫布初始化、遊戲循環、輸入監聽），會扣掉10%。

在這七個信號之外，還有兩個"門禁"條件。第一個是軟性門禁：如果基礎可玩性檢查低於0.6分，整體獎勵會直接縮減到原來的25%。第二個是硬性門禁：如果遊戲代碼在運行測試中失敗了，無論創意分數有多高，整體獎勵都會減半。這個硬性門禁的設計理念非常明確——一個在螢幕上根本跑不起來的遊戲，再有創意也沒有意義。

贊助商廣告

---

五、記憶的設計：讓經驗在家族內部流傳

解決了"如何打分"的問題之後，另一個關鍵挑戰是：如何讓AI在多次生成遊戲的過程中積累經驗？

CreativeGame的答案是"血統感知記憶"系統。把一系列相關遊戲版本想像成一個家族——v1是祖先，v2和v3是後代，v4是曾孫輩。這個家族內部共享一個記憶庫，每個成員的生成經驗都會寫入這個共享記憶，後續成員可以直接讀取和利用。但不同家族之間是完全隔離的——別的遊戲血統的經驗不會"污染"這個家族的記憶。

記憶條目被設計成包含四個元素的組合：意圖（這次嘗試想達成什麼）、表示（用什麼方式實現的）、價值估計（這個方法的歷史效果有多好）、訪問次數（這條記憶被使用過幾次）。每次疊代結束後，系統會用一個叫做"指數移動平均"的方法更新價值估計——簡單說就是，新的結果不會完全覆蓋歷史經驗，而是把新結果和歷史經驗按比例混合，混合比例是0.3:0.7。這樣，一次偶然的失敗不會讓系統徹底放棄一個曾經成功過的設計思路。

在檢索記憶時，系統會同時考慮兩個因素：這條記憶和當前任務的相似度，以及這條記憶在歷史上的成功率。二者的平衡確保了系統既不會只顧重用"看起來相關"的經驗，也不會只追逐歷史上得分最高的套路。

整個記憶架構分為三個層次。最底層是每個血統獨有的學習記憶；中間層是跨血統共享的資源，包括創意規則庫、遊戲素材庫和全局機制檔案；最上層是當前生成過程的臨時上下文。全局機制檔案不只是一個被動的參考庫，規劃者會主動查詢它來尋找"還沒被充分探索的機制"，而成功的新機制在生成之後也會被寫回檔案，形成一個動態更新的知識庫。

---

六、代碼體檢：兩層檢查讓遊戲真正能跑起來

既然要確保生成的遊戲真正能運行，光靠AI自己檢查是不夠的。CreativeGame設計了一套兩級運行時驗證系統，就像對遊戲代碼做一次徹底的"健康體檢"。

贊助商廣告

第一級是深度靜態分析，不需要任何額外工具，每次運行不超過10毫秒。這一級檢查共執行九項測試：括號和花括號是否配對（就像檢查每個開門都有對應的關門）、遊戲循環是否真正被調用而不只是被定義（就像檢查發動機不只是擺在那裡而是真的啟動了）、動畫幀更新是否設置了遞歸調用（確保遊戲畫面會持續刷新）、畫布上下文是否正確獲取、輸入監聽器是否掛載、遊戲初始化是否在頁面加載完成後執行、渲染調用是否存在、狀態更新是否存在。每發現一個錯誤，評分降低0.2；每發現一個警告，降低0.05。

第二級是瀏覽器執行測試，在有條件時可選啟用。系統會啟動一個無界面瀏覽器，實際加載遊戲的HTML文件，等待畫布繪製完成，模擬基礎輸入操作，然後收集所有控制台報錯。如果整個過程沒有報錯且畫布成功繪製，該遊戲被標記為"可玩"。當瀏覽器測試不可用時，系統會自動降級到僅使用第一級靜態分析。

驗證結果在整個流程中承擔雙重角色。它既是修復的觸發器——測試失敗後，系統會把具體的錯誤資訊餵給修復模組，觸發專門的代碼修複流程，然後重新測試；它同時也是獎勵的組成部分，運行時得分作為七個代理獎勵信號之一，並且觸發硬性門禁條件。

研究團隊在報告中特別點明了這套驗證系統存在的必要性：大語言模型非常擅長生成"看起來正確"的代碼，但這種代碼里藏著很多只有真正運行才能暴露的問題——遊戲循環函數被定義但從未被調用，這種錯誤如果只看代碼外觀根本發現不了，但遊戲打開來就是一片死寂。

---

七、四個遊戲的進化故事：從"模仿"到"重新理解"

說了這麼多系統設計，不如直接看看它實際產生了什麼效果。研究團隊從系統運行的真實記錄中，挑選了四個各自跑了四個版本的遊戲進化序列，詳細分析了每個遊戲是如何從第一版演化到第四版的。

贊助商廣告

第一個案例是基於《火柴人和水女孩》的進化序列。這是一款經典的雙人合作平台遊戲，核心玩法是控制兩個角色配合解謎。系統生成的第一個版本已經不是對原版的直接複製——它引入了一個"停靠供能"的設計：讓一個角色停在特定位置為水晶充能，另一個角色可以繼續前進。這已經比原版多了一個策略層，但整體上仍然是"操控兩個角色解平台謎題"的邏輯。

真正有趣的轉變發生在第二版開始，並在第三、第四版里逐漸清晰。在"中繼符文神殿"版本里，角色切換不再只是控制權的轉移——它會創造出一個"重放幽靈"，這個幽靈可以幫助觸發傳感器和開啟新路線。第三版又引入了"重力符文"，使得重放記錄會繼承玩家設置的重力變換規則，而不只是回放動作軌跡。到了第四版"記憶中繼"，遊戲的核心概念已經被徹底重構：玩家要做的不是"控制兩個角色穿越關卡"，而是"用停靠的角色、幽靈重放記錄和重力印記，構建一個能自動運轉的活體電路"。這是從"控制型玩法"到"編程型玩法"的質的飛躍。

第二個案例是基於《Flappy Bird》的進化。這個遊戲的原版極其簡單：一個按鍵，一個上升衝量，不斷躲避管道。系統的第一版雖然保留了這個操作核心，但已經讓管道隨著節奏時機產生變化，遊戲因此比原版多了一點結構感。

然而在後續版本里，系統對"穿過管道"這個動作的理解發生了根本性改變。第二版開始，完美通過管道不再只是得分，而是可以"書寫"之後的管道形態——玩家的完美表現成為了塑造未來關卡的工具。死亡留下的痕跡會變成"回聲幽靈"，可以幫助後續輪次的通關。節奏時機開始和"相位穿透"掛鉤，特定節奏下可以讓角色短暫進入無碰撞狀態。到了第三、第四版，整個遊戲類型的定義已經從"反應型生存"轉變為"輕度規劃與路線改寫"——玩家的歷史軌跡正在主動塑造近未來。

贊助商廣告

第三個案例是基於《Happy Glass》的進化。原版《Happy Glass》是一個經典物理解謎遊戲：玩家畫線引導水流進入容器。系統的第一版在此基礎上加入了多種墨水材質和儀式檢查點，但整體邏輯仍然是"畫出物理屏障引導液體"。

關鍵的概念轉變出現在第二版：一種特殊的"吸收筆觸"被引入，這種線條可以把水滴儲存起來，之後釋放的同時還能改變重力方向。這一步很關鍵——繪製的線條不再只是幾何形狀，而是一個延遲觸發的規則改變器。第三版進一步添加了"鏈式繼電"機制，充能的水滴可以向周圍傳播行為，鄰近的筆觸也會跟著激活。第四版整合了這些想法，形成了更清晰的邏輯：實心墨水塑造路徑，吸收墨水編程狀態轉換，重力旋轉是有限的戰略資源，儀式充能的水滴以不同方式計入容器填充量。整個遊戲被重新理解為一門"可編程的迷你物理語言"，而不再只是畫線引路。

第四個案例是基於《植物大戰殭屍》的進化。原版的核心是"在多條車道上放置植物防禦殭屍"的資源管理遊戲。系統第一版的主要創新點在於：發電型植物可以物理性地擋住友方子彈，使得資源生產和射擊路徑之間產生了相互干擾——這在原版里是完全分離的兩件事。

這個干擾在後續版本里成了核心設計理念。第二版允許整條車道被"彎折"，一次改變整條車道的子彈路徑和敵人行進路線。第三版明確了"友方子彈被擋住後儲存為過充電量，之後釋放為更強的共鳴攻擊"，把"友好傷害"變成了一種有意為之的戰術準備行為。第四版進一步通過預測引導和折射窗口概念，讓整個系統變得更具戰略可讀性。最終，這個遊戲血統對"塔防"玩法的理解徹底轉變：從"放置單位阻擋波次"變成"規劃哪些車道直接防禦、哪些車道先承受友火蓄能以便之後發動折射攻擊"。

這四個案例呈現出一個共同的演化規律：在所有四個序列中，最有意思的變化都發生在機制的重新詮釋上，而不是視覺風格的打磨。後期版本傾向於重新賦予現有動作以新的含義——角色切換變成了記憶書寫，通過管道變成了路線編輯，畫線變成了規則腳本，阻擋友方子彈變成了有意的蓄能儲存。早期版本保留了源遊戲的外殼，而晚期版本更清晰地暴露出這個變體遊戲真正想說的隱藏規則。

贊助商廣告

---

八、系統的實際表現：數字背後的真實含義

研究團隊在實驗記錄中保存了71個遊戲血統，其中9個是擁有多代後代的多節點血統（最深到第四代），62個是單節點血統，共計88個保存節點。全局機制檔案庫里有774條記錄，所有保存節點裡的文字總量超過450萬個詞語量級的token。

從計算資源分布來看，視覺增強階段消耗了大約34%的計算預算，因為它需要在一個已經相當完整的遊戲主體上疊加大量界面細節和動畫效果。評估階段排第二，約占27%，這反映了認真評估一個遊戲需要大量的分析工作。功能生成階段約占18%，骨架生成約9%，規劃階段約8%，反思階段約4%。

在可靠性方面，經過重試和降級恢復機制的加持，整個流程的成功率超過了98%，空輸出的恢復率在三次嘗試內超過95%。作為對比，研究團隊提到在這套機制實施之前，管道失敗率大約是10%，優化後降低到了2%以內。

在評分分布方面，所有生成遊戲的平均創意分約為7.0分（滿分10分），平均可玩性分約6.5分，平均綜合得分約6.2分。研究團隊在報告中坦誠地指出，這些評分存在前面提到的"分數飽和"問題，反映的是粗略的功能完整度而非經過驗證的玩家體驗，數字本身不應被過度解讀。

---

九、這套系統和其他方案有什麼本質區別

這篇論文的關聯工作討論部分，把CreativeGame放在了幾個重要的相關研究方向中進行比較。

多智能體代碼生成領域的代表系統包括ChatDev、MetaGPT和AgentVerse，這些系統同樣使用角色分工的方式來組織AI的軟體生成過程。CreativeGame遵循了類似的分工思路，但它的組織方式是圍繞遊戲生成、測試、評估、反思和記憶寫入這個固定疊代流程構建的，而不是通用軟體開發流程。

在創意評估方面，創意研究領域早就發現"誰來評判創意"是一個極其困難的問題，不同的判斷者對同一個作品可能給出截然相反的評價。近年來"讓AI來當評委"的研究方向也暴露出模型評判在開放性任務上的局限性。CreativeGame的回應是把AI判斷壓縮為一個15%權重的輔助信號，主要信號交給可程序化驗證的指標——這是一種有意識的設計取捨而非技術捷徑。

贊助商廣告

在記憶增強智能體領域，MemRL系統（由上海交通大學等機構提出，同樣是2026年的研究，arXiv編號2601.03192）明確提出了通過情節記憶的運行時強化學習來實現自我進化智能體的思路。CreativeGame的記憶設計直接受到這一方向的啟發，並做了一個特定的架構選擇：使用血統級共享記憶而不是任務級隔離記憶，因為對疊代創意生成而言，跨版本的經驗積累本身就是目標。

在代碼生成的運行驗證方面，學術界已經廣泛認識到基於執行的正確性評估對代碼生成系統的重要性。CreativeGame的創新在於把運行驗證同時作為獎勵信號和修復觸發器整合進了多智能體流程，並設計了當更強驗證條件不可用時的優雅降級路徑。

---

說到底，CreativeGame這項研究講述的是一個關於"如何讓機器真正積累創意經驗"的工程故事。它不是說AI突然獲得了人類式的創意靈感，而是說，通過合理的系統設計——把機制當作可追蹤的實體、把評分建立在可驗證的指標上、把經驗在版本之間真正傳遞——AI生成遊戲的過程可以從一次性的隨機輸出，變成有方向感的漸進演化。

四個遊戲血統的案例是最直觀的證據：從第一版到第四版，每個遊戲的"核心玩法概念"都經歷了可以用語言描述的質變，而不只是表面的視覺翻新。這種變化被系統里的記錄完整保存下來，任何人都可以打開數據文件，一步步追溯遊戲設計是如何從"模仿原版"演化到"提煉出一套新規則語言"的。

當然，研究團隊也坦率承認了現有的局限：當前的獎勵機制仍然只是對形式創意的工程化近似，還無法真正衡量一個遊戲對真實玩家的吸引力；評分系統的"分數飽和"問題沒有從根本上解決，只是被邊緣化了；多節點血統的數量還偏少，深層進化效果還需要更多數據支撐。這些都是未來值得繼續深挖的方向。

有興趣進一步了解這項研究的讀者，可以通過arXiv編號2604.19926查找完整論文。

贊助商廣告

---

Q&A

Q1：CreativeGame系統是如何避免只生成"換皮遊戲"的？

A：CreativeGame通過兩個機制來防止這個問題。第一，系統從形式上區分了"核心規則結構"（比如玩家動作的後果、獲勝條件）和"表現層"（比如視覺風格、背景故事），評分系統只獎勵核心結構的改變，純視覺改動會被扣分。第二，規劃階段要求明確列出本次版本要新增、刪除或重組哪些具體機制，這個計劃會貫穿整個生成過程，事後還會和實際結果對比，強迫系統在規則層面而不是外觀層面做出改變。

Q2：CreativeGame的運行時驗證系統具體檢查哪些內容？

A：驗證系統分兩級。第一級靜態分析不需要運行遊戲就能快速完成，檢查九項內容：括號是否配對、遊戲循環是否被真正調用、動畫幀更新是否設置了遞歸、畫布上下文是否獲取、輸入監聽器是否掛載、初始化是否在頁面加載後執行、渲染和狀態更新是否存在。第二級在有瀏覽器工具時啟用，實際運行遊戲，檢測控制台報錯和畫布繪製狀態。兩級都能觸發代碼修複流程，運行結果也直接影響最終評分。

Q3：CreativeGame生成的遊戲是什麼格式的，普通人可以直接玩嗎？

A：CreativeGame生成的是HTML5格式的遊戲，可以直接在網頁瀏覽器里運行，不需要安裝任何軟體。論文附帶的項目展示頁面（yiweishi-cn.github.io/CreativeEvolutionGame）展示了四個遊戲血統各自四個版本的全部十六個遊戲，每個遊戲都帶有一個自動演示機器人在跑，可以直接觀看遊戲運行效果。