AI造遊戲，香港中文大學團隊驗出真相：最強模型也只答對四成題

這項由香港中文大學（深圳）、深圳鵬城灣區研究院、騰訊混元團隊、北京科技大學、上海交通大學、南洋理工大學等多所機構聯合開展的研究，於2026年6月以預印本形式發布，論文編號為arXiv:2606.17861，感興趣的讀者可通過該編號查閱完整原文。

贊助商廣告

你有沒有想過，讓AI直接幫你做一款完整的遊戲，不用寫任何代碼，只需要告訴它"我要一個像素風的橫版跳跳遊戲，玩家要收集金幣、躲避敵人"，幾分鐘後AI就把一個真正可以運行的遊戲遞到你手裡？這個場景正在變成現實——但現實是否如想像般美好，這群研究者決定認真測一測。

他們搭建了一個叫做GameCraft-Bench的測試平台，專門用來考察當前最頂尖的AI編程助手到底能不能從零開始生成一款完整、可玩的遊戲。結果相當清醒：即便是表現最好的AI，100道題也只能拿到41分多一點，大多數AI的得分徘徊在40分以下，有的甚至只有2分。這不是程序出了bug，而是AI在"做遊戲"這件事上，真的還差得很遠。

一、為什麼造遊戲是一道特別難的考題

要理解這個問題的難處，得先明白遊戲和普通軟體有什麼本質區別。寫一個計算器程序，只要輸入正確、輸出正確，任務就完成了。但一款遊戲不一樣——它必須是活的。玩家按下空格鍵，角色要跳起來；撞到敵人，血量要減少；收集到金幣，界面上的數字要隨之跳動；打敗最後一個Boss，要出現勝利畫面。

換句話說，遊戲的核心是"互動"。不是代碼看起來對，而是玩家拿到手後真的能玩，而且玩起來有反饋、有進展、有挑戰。正因如此，研究團隊認為評判一個AI能不能做遊戲，必須滿足三個條件，缺一不可。

第一個條件是"在真實的遊戲引擎里開發"。什麼叫真實的遊戲引擎？可以把它理解成遊戲的"作業系統"，就像手機需要安卓或iOS才能運行App，遊戲也需要專門的引擎來處理物理碰撞、畫面渲染、聲音播放、場景切換等等。如果只是在網頁上寫一段簡單的代碼，那充其量是在玩具沙盤裡堆積木，離真正做遊戲還差得很遠。研究團隊選擇了Godot這款開源遊戲引擎作為測試環境，因為它免費開源、輕量，支持命令行操作，非常適合做大規模的自動化測試，而Unity或虛幻引擎則因為安裝複雜、授權限制等原因不太適合這種場景。

贊助商廣告

第二個條件是"交出一個完整的遊戲項目"。AI不能只寫幾段代碼然後說"剩下的你自己裝配"。一款完整的遊戲需要場景文件、腳本、圖片素材、UI界面、輸入設置、配置文件……這些東西必須全部就位，而且要能直接運行。研究團隊把這叫做"工件完整性"，只要遊戲無法直接啟動，得分直接清零，沒有商量餘地。

第三個條件是"通過真實互動來驗證"。這是最關鍵也最有意思的一條。評判一款遊戲好不好，不能只看代碼寫得漂不漂亮，也不能只截個靜態畫面，必須真正"玩"起來，看玩家按下按鍵後遊戲有沒有正確反應。研究團隊的做法是：讓AI在提交遊戲的同時，也提交一套"操作錄像"——一組記錄了滑鼠點擊、鍵盤輸入時間軸的JSON文件，系統會自動重放這些操作，錄下遊戲畫面，再由一個多模態AI裁判來看著影片評分。

這三個條件組合在一起，構成了目前最嚴格、最貼近真實遊戲開發要求的AI評測框架。

二、這場考試長什麼樣

GameCraft-Bench一共包含140道題，分屬15個遊戲類別。橫版跳跳遊戲（Platformer）有19道，策略遊戲有17道，經營模擬類（Tycoon）有16道，開放世界有15道，Roguelike有14道，視覺小說有11道……此外還涵蓋了益智解謎、射擊、體育、卡牌、恐怖、音樂節奏、休閒放置、賽車等類別，幾乎把主流遊戲類型全部覆蓋。

每一道題都包含三層內容。AI能看到的是一份"遊戲說明書"，以自然語言寫成，風格就像真實的遊戲策劃文檔——它會告訴AI要做一款什麼感覺的遊戲、核心玩法是什麼、玩家會經歷什麼、視覺風格應該是怎樣的，但不會告訴AI具體怎麼實現。AI看不到的是一份評分標準，由12位有豐富遊戲經驗的標註員撰寫，從核心機制、內容豐富度、畫面功能性、美術呈現四個維度詳細列出可觀察的評分要點。

為了確保每道題的設計是合理的，每位標註員在寫完說明書和評分標準之後，還必須自己動手在Godot里寫一個簡單的"驗證版本"——不需要多好看，但必須能運行，而且能通過回放演示展示所有評分要點。如果寫不出來，說明題目本身有問題，得修改直到能實現為止。這個環節保證了每道題對AI來說是公平的、可完成的。

贊助商廣告

AI拿到任務後，有兩小時時間在配備了Godot引擎、素材庫（包含Kenney CC0免費素材包和OpenGameArt的開源素材）的工作區里自由發揮。它可以寫代碼、運行遊戲、截圖查看效果、根據運行結果修改代碼——不限制工具調用次數，只要在時間內交卷就行。最終提交物是一個完整的Godot項目加上一到十個操作錄像文件。

評分的時候，系統先檢查遊戲能不能啟動。啟動失敗，直接0分。能啟動的話，系統就按照提交的操作錄像重放遊戲，錄下影片，每0.5秒截一幀畫面，然後把這些畫面和評分標準一起餵給GPT-5.5這個多模態AI裁判評分。裁判針對每一條標準給出0到1之間的分數，最後按加權公式匯總成最終得分。其中"內容豐富度"和"美術呈現"各占35%的權重，"核心機制"和"畫面功能性"各占15%，這是因為團隊認為一款真正完整的遊戲不能只是跑通了邏輯，還得有足夠的內容量和視覺品質。

三、七位選手登場，成績出乎意料

測試覆蓋了七個當前最強的AI編程助手配置。參加測試的有：Anthropic公司的Claude Code搭配Opus-4.7和MiMo-V2.5-Pro兩種模型，OpenAI的Codex搭配GPT-5.5和DeepSeek-V4-Pro，Kimi Code搭配Kimi-K2.6，以及Code Buddy搭配GLM-5.1和MiniMax-M2.7。每個配置都在全部140道題上跑了一遍，條件完全相同。

成績單如下：Claude Code搭配Opus-4.7在"高配"模式下以41.46%的總分拿下第一，GPT-5.5高配緊隨其後，得了39.49%，Kimi-K2.6拿到30.65%，MiMo-V2.5-Pro得了24.10%，GLM-5.1拿到18.29%，MiniMax-M2.7得了10.95%，而DeepSeek-V4-Pro只有2.15%。

前兩名的差距其實非常小，但和第三名開始就有明顯落差。DeepSeek-V4-Pro的情況有些特殊：它的遊戲啟動成功率只有25.6%，遠低於其他選手的90%以上，這意味著它提交的大多數遊戲項目根本無法運行，自然得分極低。此外，DeepSeek-V4-Pro還經常忽略提交操作錄像的要求，導致即便遊戲能啟動，也因為沒有回放文件而無法評分。

贊助商廣告

從各維度來看，有一個一致的規律：所有AI在"核心機制"這個維度的得分都明顯高於其他三個維度。以Opus-4.7為例，它的核心機製得分是55.34%，內容豐富度是39.48%，畫面功能性是42.78%，美術呈現是36.86%。Kimi-K2.6的核心機制是39.76%，美術呈現只有27.99%。這個規律說明：AI通常能搭出一個"能跑"的遊戲骨架，但很難把它填充成一個有內容、有顏值、有完整體驗的真正遊戲。

四、成功的秘訣：會看畫面才能調出好遊戲

研究團隊在分析各AI的工作方式時發現了一個有趣的現象：那些願意頻繁截圖、用眼睛看遊戲實際長什麼樣的AI，往往做出來的遊戲質量更高。

Kimi-K2.6在140道題的作答過程中，共調用截圖工具2998次，平均每道題截了21.41張圖，只有4道題全程沒有截圖。Opus-4.7截了1952次，平均每題13.94次。相比之下，GPT-5.5隻截了268次，平均每題不到2次。

為什麼截圖很重要？因為很多問題在代碼層面根本看不出來，必須真的把遊戲渲染出來才能發現。比如攝像機框錯了位置，比如UI界面文字重疊，比如場景里的碰撞體和視覺圖形對不上……這些問題如果只看代碼，可能一切正常，但一旦截圖，立刻就能看出破綻。

研究團隊舉了Kimi-K2.6做策略遊戲"Strategy-Skirmish"的例子：Kimi反覆截圖，發現了單位擺放位置偏差、選中高亮沒有顯示、網格布局不對等問題，並據此一一修正，最終做出了一個有相當視覺辨識度的深色幻想風格戰棋遊戲。從初始截圖到最終版本，可以明顯看到遊戲品質在"看-改-看-改"的循環中穩步提升。

五、失敗的陷阱：代碼寫得越多≠遊戲做得越好

MiMo-V2.5-Pro提供了另一個角度的啟示。這個AI有個明顯的工作習慣：先用極快的速度把所有文件全部寫完——project.godot、所有GDScript腳本、所有場景文件——然後再進入漫長的調試循環。問題在於，它的調試工具中有56.3%是Shell命令（也就是在命令行里跑各種調試指令），而真正用來讀代碼和改代碼的操作只占了16.5%。

贊助商廣告

研究團隊統計發現，MiMo-V2.5-Pro平均每道題用了128次工具調用，但工具調用次數和最終得分之間的相關係數只有可憐的+0.016，也就是說，調用工具越多並不等於遊戲做得越好，兩者幾乎毫無關係。

更有意思的是，MiMo-V2.5-Pro有5道題得了0分，但這5道題的遊戲全都成功啟動了。問題出在哪裡？出在沒有提交操作錄像。遊戲做好了，卻忘記告訴評分系統"應該怎麼玩"，導致評分系統無從評分，全部清零。這是一個純粹的"任務完成意識"缺失，和編程能力完全無關——更像是一個學生做完了試卷卻忘記寫名字，白白丟分。

六、裁判可靠嗎？人類和AI評分有多大差距

既然評分是由AI裁判來完成的，裁判本身靠不靠譜就是一個值得認真檢驗的問題。研究團隊做了兩個驗證實驗。

第一個實驗檢驗"穩定性"：固定同一批遊戲錄像和評分標準，讓GPT-5.5裁判重複打10次分，看每次分數是否一致。結果非常穩定：Kimi-K2.6在卡牌遊戲類別上的標準差只有0.0037，在模擬遊戲上是0.0038，Opus-4.7的標準差是0.0050和0.0036。這些波動幅度遠小於不同AI之間的得分差距，說明排名結果是可信的，不會因為裁判"發揮失常"而顛倒。

第二個實驗檢驗"與人類的一致性"：研究人員找了人類評分員，對Kimi-K2.6提交的卡牌遊戲、休閒放置遊戲、賽車遊戲三個類別的錄像進行獨立評分，然後和AI裁判的評分做比對。總體來看，AI裁判比人類略寬鬆一些，綜合偏差約3.32個百分點。細分來看，AI裁判在"內容豐富度"和"美術呈現"兩個維度上比人類評分更高，而在"畫面功能性"上比人類更嚴格。其中差距最大的是休閒放置遊戲，AI裁判高出人類8.76個百分點，說明對於內容深度和視覺呈現的判斷，AI裁判的標準還有進一步校準的空間。

七、四個維度是各自為政，還是緊密相連？

研究團隊還有一個想探索的問題：核心機制、內容豐富度、畫面功能性、美術呈現這四個評分維度，是不是高度捆綁的——某一樣好了，其他的也自然好？

贊助商廣告

以Kimi-K2.6的數據來看，核心機制和內容豐富度之間的相關係數是0.61，核心機制和畫面功能性之間是0.53——這說明這兩組之間確實有一定聯繫，通常一個遊戲的交互循環做得好，它的遊戲狀態資訊和視覺反饋也往往更豐富。但美術呈現和畫面功能性之間的相關係數只有0.11，幾乎沒有關係——換句話說，一個遊戲能不能"看懂"，和它"好不好看"，基本上是兩件完全獨立的事情。

MiMo-V2.5-Pro的數據格局略有不同，它的四個維度之間整體耦合度更高一些，美術呈現和核心機制的相關係數達到0.56，但和畫面功能性之間也只有0.26。這個結論對AI開發者來說很有參考價值：如果想全面提升AI的遊戲生成能力，不能只盯著某一個維度優化，因為這四種能力並不會自動互相帶動，需要分別有針對性地加強。

八、不同遊戲類型，AI的表現差距有多大

最後一塊拼圖是不同遊戲類型的表現差異。以Opus-4.7為例，它在恐怖遊戲類別上得了57.30分，在休閒放置類上得了56.99分，在音樂節奏類得了46.57分，在賽車類得了45.26分，在橫版跳跳遊戲類得了36.57分，在卡牌遊戲類只有33.78分。GPT-5.5在休閒放置類得了64.91分，在恐怖類得了49.05分，在卡牌類只有25.50分。

這些差距背後有一定規律。休閒放置和恐怖遊戲的得分普遍較高，可能是因為這兩類遊戲的核心機制相對簡單（前者是點擊升級，後者是探索敘事），AI比較容易實現。而卡牌遊戲涉及複雜的規則邏輯和狀態管理，橫版跳跳遊戲需要精確的物理碰撞和關卡設計，這些對AI來說是更大的挑戰。

從這些數據可以看出，AI在處理不同複雜度的遊戲類型時，能力差異非常顯著，並不存在一個"通用的遊戲生成能力"，而是在某些類型上相對擅長，在另一些類型上明顯吃力。

---

歸根結底，這項研究告訴我們的不是"AI造遊戲完全不行"，而是"AI造遊戲已經能跑起來，但離真正好玩還差一大截"。就像一個初學者能照著菜譜把菜做熟，但要做到顏色好看、層次豐富、口感到位，那是另一個量級的事。

贊助商廣告

41%這個最高分，意味著即便是當今最強的AI編程助手，在完整的遊戲生成這件事上，也還有將近六成的功課沒有做到。它們最能做的是"搭出一個可以跑的骨架"，最不擅長的是"把這個骨架填成一個有血有肉、有顏有內容的完整體驗"。而後者，恰恰才是遊戲的靈魂。

對於普通用戶來說，這項研究意味著：如果你現在就想讓AI幫你做一款"隨便玩玩"的小遊戲，也許已經部分可行；但如果你期望它直接輸出一款品質過關的完整遊戲，目前最好還是把它當作一個能幹的助手，而不是一個獨立的遊戲開發者。

這裡有一個有趣的思考：評分裁判用的是GPT-5.5，而GPT-5.5同時也是被測試的對象之一。那麼裁判在給自己評分時，會不會有所偏頗？這種"運動員兼裁判"的情況，是未來這類測試需要認真解決的問題之一。有興趣深入探索這一領域的讀者，可以通過arXiv:2606.17861查閱完整論文，網站上也有各類遊戲的演示影片和完整數據集。

---

Q&A

Q1：GameCraft-Bench測試AI造遊戲用的是什麼遊戲引擎，為什麼選這個？

A：GameCraft-Bench使用的是Godot 4遊戲引擎。選擇Godot的原因是它完全開源免費、安裝輕量、支持命令行無界面運行，場景文件以文本格式儲存方便程序解析，非常適合做大規模自動化測試。Unity和虛幻引擎雖然也支持自動化，但安裝複雜、有授權限制，不適合這種高頻評測場景。

Q2：AI做遊戲時得分低主要是哪些地方出了問題？

A：得分低的原因不是單一的。最常見的問題是：遊戲能啟動運行，但內容量不夠豐富，缺乏足夠的關卡、角色或進度系統；視覺呈現粗糙，大量用程序生成的純色方塊代替真正的美術資源；以及忘記提交操作錄像，導致評分系統無法判斷遊戲是否可玩，直接得零分。

Q3：GameCraft-Bench的評分是完全由AI打的嗎，人類評分和AI評分差多少？

A：主要由GPT-5.5多模態AI裁判負責評分，人類評分只作為校準參考。研究團隊對比了人類和AI裁判在卡牌遊戲、休閒放置遊戲、賽車遊戲三類上的評分，發現AI裁判整體比人類寬鬆約3.32個百分點，在內容豐富度和美術呈現上偏寬，在畫面功能性上偏嚴。

贊助商廣告