這項由香港中文大學(深圳)、深圳鵬城灣區研究院、騰訊混元團隊、北京科技大學、上海交通大學、南洋理工大學等多所機構聯合開展的研究,於2026年6月以預印本形式發布,論文編號為arXiv:2606.17861,感興趣的讀者可通過該編號查閱完整原文。
你有沒有想過,讓AI直接幫你做一款完整的遊戲,不用寫任何代碼,只需要告訴它"我要一個像素風的橫版跳跳遊戲,玩家要收集金幣、躲避敵人",幾分鐘後AI就把一個真正可以運行的遊戲遞到你手裡?這個場景正在變成現實——但現實是否如想像般美好,這群研究者決定認真測一測。
他們搭建了一個叫做GameCraft-Bench的測試平台,專門用來考察當前最頂尖的AI編程助手到底能不能從零開始生成一款完整、可玩的遊戲。結果相當清醒:即便是表現最好的AI,100道題也只能拿到41分多一點,大多數AI的得分徘徊在40分以下,有的甚至只有2分。這不是程序出了bug,而是AI在"做遊戲"這件事上,真的還差得很遠。
一、為什麼造遊戲是一道特別難的考題
要理解這個問題的難處,得先明白遊戲和普通軟體有什麼本質區別。寫一個計算器程序,只要輸入正確、輸出正確,任務就完成了。但一款遊戲不一樣——它必須是活的。玩家按下空格鍵,角色要跳起來;撞到敵人,血量要減少;收集到金幣,界面上的數字要隨之跳動;打敗最後一個Boss,要出現勝利畫面。
換句話說,遊戲的核心是"互動"。不是代碼看起來對,而是玩家拿到手後真的能玩,而且玩起來有反饋、有進展、有挑戰。正因如此,研究團隊認為評判一個AI能不能做遊戲,必須滿足三個條件,缺一不可。
第一個條件是"在真實的遊戲引擎里開發"。什麼叫真實的遊戲引擎?可以把它理解成遊戲的"作業系統",就像手機需要安卓或iOS才能運行App,遊戲也需要專門的引擎來處理物理碰撞、畫面渲染、聲音播放、場景切換等等。如果只是在網頁上寫一段簡單的代碼,那充其量是在玩具沙盤裡堆積木,離真正做遊戲還差得很遠。研究團隊選擇了Godot這款開源遊戲引擎作為測試環境,因為它免費開源、輕量,支持命令行操作,非常適合做大規模的自動化測試,而Unity或虛幻引擎則因為安裝複雜、授權限制等原因不太適合這種場景。
第二個條件是"交出一個完整的遊戲項目"。AI不能只寫幾段代碼然後說"剩下的你自己裝配"。一款完整的遊戲需要場景文件、腳本、圖片素材、UI界面、輸入設置、配置文件……這些東西必須全部就位,而且要能直接運行。研究團隊把這叫做"工件完整性",只要遊戲無法直接啟動,得分直接清零,沒有商量餘地。
第三個條件是"通過真實互動來驗證"。這是最關鍵也最有意思的一條。評判一款遊戲好不好,不能只看代碼寫得漂不漂亮,也不能只截個靜態畫面,必須真正"玩"起來,看玩家按下按鍵後遊戲有沒有正確反應。研究團隊的做法是:讓AI在提交遊戲的同時,也提交一套"操作錄像"——一組記錄了滑鼠點擊、鍵盤輸入時間軸的JSON文件,系統會自動重放這些操作,錄下遊戲畫面,再由一個多模態AI裁判來看著影片評分。
這三個條件組合在一起,構成了目前最嚴格、最貼近真實遊戲開發要求的AI評測框架。
二、這場考試長什麼樣
GameCraft-Bench一共包含140道題,分屬15個遊戲類別。橫版跳跳遊戲(Platformer)有19道,策略遊戲有17道,經營模擬類(Tycoon)有16道,開放世界有15道,Roguelike有14道,視覺小說有11道……此外還涵蓋了益智解謎、射擊、體育、卡牌、恐怖、音樂節奏、休閒放置、賽車等類別,幾乎把主流遊戲類型全部覆蓋。
每一道題都包含三層內容。AI能看到的是一份"遊戲說明書",以自然語言寫成,風格就像真實的遊戲策劃文檔——它會告訴AI要做一款什麼感覺的遊戲、核心玩法是什麼、玩家會經歷什麼、視覺風格應該是怎樣的,但不會告訴AI具體怎麼實現。AI看不到的是一份評分標準,由12位有豐富遊戲經驗的標註員撰寫,從核心機制、內容豐富度、畫面功能性、美術呈現四個維度詳細列出可觀察的評分要點。
為了確保每道題的設計是合理的,每位標註員在寫完說明書和評分標準之後,還必須自己動手在Godot里寫一個簡單的"驗證版本"——不需要多好看,但必須能運行,而且能通過回放演示展示所有評分要點。如果寫不出來,說明題目本身有問題,得修改直到能實現為止。這個環節保證了每道題對AI來說是公平的、可完成的。
AI拿到任務後,有兩小時時間在配備了Godot引擎、素材庫(包含Kenney CC0免費素材包和OpenGameArt的開源素材)的工作區里自由發揮。它可以寫代碼、運行遊戲、截圖查看效果、根據運行結果修改代碼——不限制工具調用次數,只要在時間內交卷就行。最終提交物是一個完整的Godot項目加上一到十個操作錄像文件。
評分的時候,系統先檢查遊戲能不能啟動。啟動失敗,直接0分。能啟動的話,系統就按照提交的操作錄像重放遊戲,錄下影片,每0.5秒截一幀畫面,然後把這些畫面和評分標準一起餵給GPT-5.5這個多模態AI裁判評分。裁判針對每一條標準給出0到1之間的分數,最後按加權公式匯總成最終得分。其中"內容豐富度"和"美術呈現"各占35%的權重,"核心機制"和"畫面功能性"各占15%,這是因為團隊認為一款真正完整的遊戲不能只是跑通了邏輯,還得有足夠的內容量和視覺品質。
三、七位選手登場,成績出乎意料
測試覆蓋了七個當前最強的AI編程助手配置。參加測試的有:Anthropic公司的Claude Code搭配Opus-4.7和MiMo-V2.5-Pro兩種模型,OpenAI的Codex搭配GPT-5.5和DeepSeek-V4-Pro,Kimi Code搭配Kimi-K2.6,以及Code Buddy搭配GLM-5.1和MiniMax-M2.7。每個配置都在全部140道題上跑了一遍,條件完全相同。
成績單如下:Claude Code搭配Opus-4.7在"高配"模式下以41.46%的總分拿下第一,GPT-5.5高配緊隨其後,得了39.49%,Kimi-K2.6拿到30.65%,MiMo-V2.5-Pro得了24.10%,GLM-5.1拿到18.29%,MiniMax-M2.7得了10.95%,而DeepSeek-V4-Pro只有2.15%。
前兩名的差距其實非常小,但和第三名開始就有明顯落差。DeepSeek-V4-Pro的情況有些特殊:它的遊戲啟動成功率只有25.6%,遠低於其他選手的90%以上,這意味著它提交的大多數遊戲項目根本無法運行,自然得分極低。此外,DeepSeek-V4-Pro還經常忽略提交操作錄像的要求,導致即便遊戲能啟動,也因為沒有回放文件而無法評分。
從各維度來看,有一個一致的規律:所有AI在"核心機制"這個維度的得分都明顯高於其他三個維度。以Opus-4.7為例,它的核心機製得分是55.34%,內容豐富度是39.48%,畫面功能性是42.78%,美術呈現是36.86%。Kimi-K2.6的核心機制是39.76%,美術呈現只有27.99%。這個規律說明:AI通常能搭出一個"能跑"的遊戲骨架,但很難把它填充成一個有內容、有顏值、有完整體驗的真正遊戲。
四、成功的秘訣:會看畫面才能調出好遊戲
研究團隊在分析各AI的工作方式時發現了一個有趣的現象:那些願意頻繁截圖、用眼睛看遊戲實際長什麼樣的AI,往往做出來的遊戲質量更高。
Kimi-K2.6在140道題的作答過程中,共調用截圖工具2998次,平均每道題截了21.41張圖,只有4道題全程沒有截圖。Opus-4.7截了1952次,平均每題13.94次。相比之下,GPT-5.5隻截了268次,平均每題不到2次。
為什麼截圖很重要?因為很多問題在代碼層面根本看不出來,必須真的把遊戲渲染出來才能發現。比如攝像機框錯了位置,比如UI界面文字重疊,比如場景里的碰撞體和視覺圖形對不上……這些問題如果只看代碼,可能一切正常,但一旦截圖,立刻就能看出破綻。
研究團隊舉了Kimi-K2.6做策略遊戲"Strategy-Skirmish"的例子:Kimi反覆截圖,發現了單位擺放位置偏差、選中高亮沒有顯示、網格布局不對等問題,並據此一一修正,最終做出了一個有相當視覺辨識度的深色幻想風格戰棋遊戲。從初始截圖到最終版本,可以明顯看到遊戲品質在"看-改-看-改"的循環中穩步提升。
五、失敗的陷阱:代碼寫得越多≠遊戲做得越好
MiMo-V2.5-Pro提供了另一個角度的啟示。這個AI有個明顯的工作習慣:先用極快的速度把所有文件全部寫完——project.godot、所有GDScript腳本、所有場景文件——然後再進入漫長的調試循環。問題在於,它的調試工具中有56.3%是Shell命令(也就是在命令行里跑各種調試指令),而真正用來讀代碼和改代碼的操作只占了16.5%。
研究團隊統計發現,MiMo-V2.5-Pro平均每道題用了128次工具調用,但工具調用次數和最終得分之間的相關係數只有可憐的+0.016,也就是說,調用工具越多並不等於遊戲做得越好,兩者幾乎毫無關係。
更有意思的是,MiMo-V2.5-Pro有5道題得了0分,但這5道題的遊戲全都成功啟動了。問題出在哪裡?出在沒有提交操作錄像。遊戲做好了,卻忘記告訴評分系統"應該怎麼玩",導致評分系統無從評分,全部清零。這是一個純粹的"任務完成意識"缺失,和編程能力完全無關——更像是一個學生做完了試卷卻忘記寫名字,白白丟分。
六、裁判可靠嗎?人類和AI評分有多大差距
既然評分是由AI裁判來完成的,裁判本身靠不靠譜就是一個值得認真檢驗的問題。研究團隊做了兩個驗證實驗。
第一個實驗檢驗"穩定性":固定同一批遊戲錄像和評分標準,讓GPT-5.5裁判重複打10次分,看每次分數是否一致。結果非常穩定:Kimi-K2.6在卡牌遊戲類別上的標準差只有0.0037,在模擬遊戲上是0.0038,Opus-4.7的標準差是0.0050和0.0036。這些波動幅度遠小於不同AI之間的得分差距,說明排名結果是可信的,不會因為裁判"發揮失常"而顛倒。
第二個實驗檢驗"與人類的一致性":研究人員找了人類評分員,對Kimi-K2.6提交的卡牌遊戲、休閒放置遊戲、賽車遊戲三個類別的錄像進行獨立評分,然後和AI裁判的評分做比對。總體來看,AI裁判比人類略寬鬆一些,綜合偏差約3.32個百分點。細分來看,AI裁判在"內容豐富度"和"美術呈現"兩個維度上比人類評分更高,而在"畫面功能性"上比人類更嚴格。其中差距最大的是休閒放置遊戲,AI裁判高出人類8.76個百分點,說明對於內容深度和視覺呈現的判斷,AI裁判的標準還有進一步校準的空間。
七、四個維度是各自為政,還是緊密相連?
研究團隊還有一個想探索的問題:核心機制、內容豐富度、畫面功能性、美術呈現這四個評分維度,是不是高度捆綁的——某一樣好了,其他的也自然好?
以Kimi-K2.6的數據來看,核心機制和內容豐富度之間的相關係數是0.61,核心機制和畫面功能性之間是0.53——這說明這兩組之間確實有一定聯繫,通常一個遊戲的交互循環做得好,它的遊戲狀態資訊和視覺反饋也往往更豐富。但美術呈現和畫面功能性之間的相關係數只有0.11,幾乎沒有關係——換句話說,一個遊戲能不能"看懂",和它"好不好看",基本上是兩件完全獨立的事情。
MiMo-V2.5-Pro的數據格局略有不同,它的四個維度之間整體耦合度更高一些,美術呈現和核心機制的相關係數達到0.56,但和畫面功能性之間也只有0.26。這個結論對AI開發者來說很有參考價值:如果想全面提升AI的遊戲生成能力,不能只盯著某一個維度優化,因為這四種能力並不會自動互相帶動,需要分別有針對性地加強。
八、不同遊戲類型,AI的表現差距有多大
最後一塊拼圖是不同遊戲類型的表現差異。以Opus-4.7為例,它在恐怖遊戲類別上得了57.30分,在休閒放置類上得了56.99分,在音樂節奏類得了46.57分,在賽車類得了45.26分,在橫版跳跳遊戲類得了36.57分,在卡牌遊戲類只有33.78分。GPT-5.5在休閒放置類得了64.91分,在恐怖類得了49.05分,在卡牌類只有25.50分。
這些差距背後有一定規律。休閒放置和恐怖遊戲的得分普遍較高,可能是因為這兩類遊戲的核心機制相對簡單(前者是點擊升級,後者是探索敘事),AI比較容易實現。而卡牌遊戲涉及複雜的規則邏輯和狀態管理,橫版跳跳遊戲需要精確的物理碰撞和關卡設計,這些對AI來說是更大的挑戰。
從這些數據可以看出,AI在處理不同複雜度的遊戲類型時,能力差異非常顯著,並不存在一個"通用的遊戲生成能力",而是在某些類型上相對擅長,在另一些類型上明顯吃力。
---
歸根結底,這項研究告訴我們的不是"AI造遊戲完全不行",而是"AI造遊戲已經能跑起來,但離真正好玩還差一大截"。就像一個初學者能照著菜譜把菜做熟,但要做到顏色好看、層次豐富、口感到位,那是另一個量級的事。
41%這個最高分,意味著即便是當今最強的AI編程助手,在完整的遊戲生成這件事上,也還有將近六成的功課沒有做到。它們最能做的是"搭出一個可以跑的骨架",最不擅長的是"把這個骨架填成一個有血有肉、有顏有內容的完整體驗"。而後者,恰恰才是遊戲的靈魂。
對於普通用戶來說,這項研究意味著:如果你現在就想讓AI幫你做一款"隨便玩玩"的小遊戲,也許已經部分可行;但如果你期望它直接輸出一款品質過關的完整遊戲,目前最好還是把它當作一個能幹的助手,而不是一個獨立的遊戲開發者。
這裡有一個有趣的思考:評分裁判用的是GPT-5.5,而GPT-5.5同時也是被測試的對象之一。那麼裁判在給自己評分時,會不會有所偏頗?這種"運動員兼裁判"的情況,是未來這類測試需要認真解決的問題之一。有興趣深入探索這一領域的讀者,可以通過arXiv:2606.17861查閱完整論文,網站上也有各類遊戲的演示影片和完整數據集。
---
Q&A
Q1:GameCraft-Bench測試AI造遊戲用的是什麼遊戲引擎,為什麼選這個?
A:GameCraft-Bench使用的是Godot 4遊戲引擎。選擇Godot的原因是它完全開源免費、安裝輕量、支持命令行無界面運行,場景文件以文本格式儲存方便程序解析,非常適合做大規模自動化測試。Unity和虛幻引擎雖然也支持自動化,但安裝複雜、有授權限制,不適合這種高頻評測場景。
Q2:AI做遊戲時得分低主要是哪些地方出了問題?
A:得分低的原因不是單一的。最常見的問題是:遊戲能啟動運行,但內容量不夠豐富,缺乏足夠的關卡、角色或進度系統;視覺呈現粗糙,大量用程序生成的純色方塊代替真正的美術資源;以及忘記提交操作錄像,導致評分系統無法判斷遊戲是否可玩,直接得零分。
Q3:GameCraft-Bench的評分是完全由AI打的嗎,人類評分和AI評分差多少?
A:主要由GPT-5.5多模態AI裁判負責評分,人類評分只作為校準參考。研究團隊對比了人類和AI裁判在卡牌遊戲、休閒放置遊戲、賽車遊戲三類上的評分,發現AI裁判整體比人類寬鬆約3.32個百分點,在內容豐富度和美術呈現上偏寬,在畫面功能性上偏嚴。






