上交大與美團聯手打造「我的世界」AI考場：讓大模型在遊戲裡證明自己真的「聰明」

這項由上海交通大學電腦科學學院與美團聯合開展的研究，以預印本形式於2026年5月29日發布，編號為arXiv:2605.30931，有興趣深入了解的讀者可以通過該編號在arXiv平台查詢完整論文。

贊助商廣告

說起現在最火的AI技術，大家腦海里可能會浮現出那些能寫文章、畫圖、回答問題的"大模型"。這些模型在各種測試中表現出色，讓很多人覺得AI已經足夠聰明了。但是，有一個問題一直困擾著研究者：這些模型在真實的、動態變化的世界裡，真的能靠自己完成複雜任務嗎？坐在考場裡答題和在街上獨立生存，完全是兩回事。

於是，上交大與美團的研究團隊想到了一個絕妙的方案：把《Minecraft》（Minecraft）這款沙盒遊戲變成一個考場，專門用來測試AI模型在開放世界裡的探索能力。這個考場有個正式的名字——MINEEXPLORER。

為什麼是《Minecraft》？因為這款遊戲裡有草地、森林、河流、村莊、各種動物和怪物，玩家需要觀察環境、制定計劃、一步步完成目標。這跟真實世界裡解決問題的邏輯非常相似。但麻煩的是，《Minecraft》也有很多只有老玩家才知道的"秘籍"——比如特定的合成配方、特殊的遊戲機制——這些跟現實世界的常識毫無關係。研究團隊認為，如果AI答對了問題但只是因為它"背過遊戲攻略"，那這個考試就沒意義了。真正想考察的，是AI用通用的推理能力和常識，在一個動態變化的環境裡靈活應對。

正因為這個核心理念，MINEEXPLORER做了一件很關鍵的事：從3382個遊戲任務里，篩掉了所有"需要懂遊戲內部規則才能完成"的任務，只保留了1497個靠現實世界常識就能搞定的任務。然後，研究團隊把這些任務組合成813個經過真人驗證的複合測試案例，難度從"一步到位"一直升級到"需要提前完成四個隱藏步驟"。測試結果令人警醒：哪怕是目前最頂尖的AI模型，在這個考場裡的表現也遠遠稱不上優秀。

贊助商廣告

一、如何讓考場只考"真本領"而不考"遊戲攻略"

打造這個考場的第一步，是解決一個根本性的矛盾：《Minecraft》里有大量只屬於遊戲本身的規則，跟現實世界的常識完全不一樣。以合成物品為例，在遊戲裡要做一個活塞，需要按照特定的擺放方式組合木頭、圓石、鐵錠和紅石，這套規則在現實生活里毫無對應，普通人就算從沒玩過遊戲，靠常識也完全猜不出來。

研究團隊把這類"只有老玩家才懂"的任務統統剔除，保留那些靠常識就能理解的任務。比如"獵殺一隻羊"——找到羊、靠近它、攻擊它，這個邏輯在現實世界裡完全說得通。再比如"找到一條河流然後游過去"——識別水域、下水、游到對岸，這也是任何人憑直覺都能想到的。相反，"釀造一瓶治癒藥水"就被剔除了，因為要知道需要把地獄疣和閃光甜瓜放進釀造台，這完全是遊戲獨有的設定。

為了做這個篩選，研究團隊準備了一份《Minecraft》規則說明書，讓AI判斷官：對於每一個候選任務，一個從沒玩過這款遊戲的普通人，能不能只憑現實世界的常識把它完成？能——留下來；不能——淘汰。這個過程很像給一套試卷做"公平性審核"，確保題目考的是真實能力而不是死記硬背。經過這輪篩選，原本3382個任務里，只有1497個通過了審核。

為了驗證這個篩選過程本身是否可靠，研究團隊抽取了500個任務，讓真人去檢驗AI判官的判斷是否準確，結果整體吻合率達到86.8%，誤判率都在10%以下，這說明篩選過程相當靠譜。

二、用"看-想-做"的框架給AI能力畫地圖

光有一堆任務還不夠，研究團隊還需要一套系統來分析：完成每個任務，AI到底需要哪些能力？他們借鑑了一個叫"ReAct"的思路——這個名字來自英文"推理"（Reasoning）和"行動"（Acting）的組合——把AI在遊戲裡需要做的事情分成三大類：感知、推理和行動。

感知，就是AI"用眼睛"理解世界的能力。具體來說，它需要判斷周圍地形和目標位置的空間關係，需要感知任務過程中環境的變化，需要識別場景里的動物、怪物、村民等各種角色，需要監控自身狀態（比如血量是否不足），還需要檢查自己背包里有什麼東西。這五種感知能力，共同構成了AI"睜眼看世界"的基礎。

贊助商廣告

推理，是AI"用腦子"分析情況的能力。它需要用現實世界的常識做出判斷——比如知道砍樹可以得到木頭，而木頭可以用來做工具；它還需要理解因果關係，明白"先做A，才能做B"的邏輯；另外它還需要理解空間和對象之間的關係，比如判斷哪個目標離自己更近、某個物品在哪個區域。

行動，是AI"用手腳"執行計劃的能力。在遊戲裡，這包括基本移動（走路、游泳）、跳躍越過障礙、採集物品（挖礦、砍樹、撿東西）、放置方塊、合成物品，以及戰鬥。

給每個任務貼上這三類能力的標籤之後，研究團隊就能清楚地知道：每道考題究竟在考AI的哪些能力，考得有多難。

三、把簡單任務編織成"隱藏關卡"——多跳任務的設計

MINEEXPLORER里最有意思的設計，是把若干個簡單任務組合成一個"隱藏關卡"。正式的叫法是"隱式多跳任務"。

以考場裡的一個例子為例：AI收到的任務指令是"去打敗一隻蜘蛛"。聽起來很簡單，對吧？但在這個精心設計的場景里，AI剛一出生，面前是一條河流擋住了去路，河對岸才有蜘蛛。所以AI必須先識別出河流是障礙，然後自己想到"得先過河"，接著發現旁邊有一些材料可以合成武器，於是還得先造一把劍，然後游過河，最後才能打蜘蛛。

整個過程里，"過河"和"造劍"這兩個前置步驟，在任務指令里根本沒有提到。AI必須靠自己觀察環境，推斷出這些隱藏的前置條件，並且按正確的順序一步步完成。這就像你老闆跟你說"去給客戶送份報告"，但沒告訴你報告還沒列印、印表機沒紙、鑰匙在抽屜里——你得自己發現這些問題並一一解決。

研究團隊還為每個測試案例設計了一個"難度分數"。這個分數的核心邏輯是：需要提前完成的隱藏步驟越多、每個步驟涉及的能力越多樣，任務就越難。一跳任務就是沒有隱藏步驟，直接完成目標就行；兩跳任務有一個隱藏前置步驟；三跳有兩個；四跳有三個。數字越大，AI需要在腦子裡維持的"計劃鏈條"就越長，出錯的可能性也就越大。

贊助商廣告

四、五個"專家"協同合作才能造出一道好題

設計出這些測試案例本身，就是一個相當複雜的工程。研究團隊發現，如果只讓一個AI模型來負責出題，生成的題目往往漏洞百出：場景擺放不合理、評分規則有誤、任務邏輯前後矛盾。於是他們設計了一個由五個專門角色組成的"出題委員會"，每個角色各司其職。

第一個角色是任務選擇員，負責從候選任務池裡挑選合適的任務組合，設計它們之間的依賴關係，並寫出那道"只說最終目標、不透露隱藏步驟"的任務指令。第二個角色是場景設計師，負責在遊戲裡搭建實際的場景——放置方塊、召喚動物怪物、調整地形——並且可以"進入"遊戲場景親自走一遍，確認設計是否合理。

第三個角色是里程碑設計師，負責把每個子任務轉化成可以被程序自動判斷的規則。比如"採集到了煤礦"可以用"背包里煤炭數量增加了1"來判斷，"打敗了殭屍"可以用"殭屍從場景里消失了"來判斷。這些規則必須精確且可執行，而且設計師可以在遊戲裡實際觸發這些條件來驗證規則是否有效。第四個角色是《Minecraft》專家，專門審查整個設計有沒有偷偷依賴遊戲專屬知識，必要時可以查閱遊戲維基百科來核實具體機制。第五個角色是驗證員，從結構上檢查任務的依賴圖有沒有邏輯錯誤，評分規則有沒有漏洞。

這五個角色在一個"討論組"里協作：先各自完成初稿，然後互相審查、提意見、修改，直到所有人都認為這道題沒有問題為止。這個過程跟學術論文的同行評審很像，只不過"評審人"都是AI。

研究團隊還專門比較了"五人團隊出題"和"一個AI單獨出題"的效果。真人評審的結果很說明問題：五人團隊出的題，整體合格率約為78%，質量評分約4.53分（滿分5分）；而單個AI出的題，合格率只有約44%，質量評分約4.03分。在四跳任務這種最複雜的情況下，差距更為明顯——單個AI只有約27%的合格率，而團隊方式能達到約66%。這說明讓不同專長的角色分工合作，確實能大幅提升出題質量。

贊助商廣告

五、最終的考場長什麼樣，AI怎麼參加考試

完成所有篩選和生成之後，MINEEXPLORER最終包含813個經真人驗證的測試案例，從一跳到四跳均有覆蓋，分別有292、301、211和235個案例。每個案例都有明確的文字任務指令、一個精心搭建的遊戲場景、一套隱藏的任務依賴圖，以及一組可以自動判分的里程碑規則。

參加考試的AI模型，以第一人稱視角進入遊戲場景。每隔0.1秒，系統就截一張遊戲畫面發給AI，AI看著畫面思考一下，然後輸出一個動作指令——往前走、轉頭看、揮錘挖礦等等。AI最多能記住最近20幀的歷史畫面，整個測試時長不超過30秒（300個步驟）。每一步之後，系統都會自動檢查里程碑規則是否被觸發。

評分用兩個主要指標：任務成功率（TSR）衡量最終目標有沒有完成，里程碑成功率（MSR）衡量在沒有完全成功的情況下，完成了多少個中間步驟。研究團隊也驗證了這套自動評分系統的可靠性：讓真人觀看AI的遊戲影片並評分，發現當所有里程碑都被自動檢測為"完成"時，真人的平均評分接近4分（滿分4分）；當所有里程碑都被檢測為"失敗"時，真人的平均評分低於3分。自動判分系統與真人判斷的整體吻合率同樣達到86.8%。

六、頂尖AI在考場裡的實際表現：差距令人吃驚

研究團隊邀請了18款當前最先進的多模態大模型參加這場考試，包括各大公司的旗艦產品。結果可以用一句話概括：在一跳任務里還算說得過去，但一旦任務鏈條變長，幾乎所有模型都急劇"失速"。

表現最好的是Claude-Opus-4.6，它的整體任務成功率約為41%。排名第二的是谷歌的Gemini-3.1-Pro-Preview，成功率約為37%。這兩款模型在一跳任務里的成功率分別約為78%和74%，看起來還不錯；但到了多跳任務，Claude-Opus-4.6的成功率下降到約24%，Gemini的成功率則約為20%。

換個角度理解這組數據更直觀：在一跳任務里，接近四分之三的任務能被頂尖模型完成；但在多跳任務里，超過四分之三的任務會失敗。隱藏步驟增多之後，AI的表現會急劇下滑，而不是緩慢降低。大多數排名靠後的模型，整體成功率在10%到20%之間，有些模型在四跳任務里的成功率接近於零。

贊助商廣告

從能力維度來看，AI在感知得分上普遍高於推理得分，行動得分則大致居中。這個規律在幾乎所有測試模型身上都成立。通俗地說，AI通常能"看到"場景里有什麼，但往往想不清楚"下一步該怎麼辦"。這個差距在多跳任務里更加明顯——當AI不僅要看清現狀，還要推斷出哪些隱藏的前置條件沒有滿足、應該先做什麼，它的推理能力就明顯跟不上了。

還有一個出乎意料的發現：模型越大、推理越複雜，並不意味著遊戲表現越好。在Qwen系列中，參數量更多的235B版本，其表現並不總是比32B版本更好。更令人困惑的是，專門加入了"思考模式"的版本，整體表現反而有時不如普通版本。具體來說，Qwen-3-VL-235B-A22B-Instruct的整體任務成功率約為10.6%，而它的"思考"版本Qwen-3-VL-235B-A22B-Thinking只有約8.1%。

這說明在開放世界探索這件事上，光靠增加參數量或者讓模型"多想想"，並不能解決根本問題。關鍵在於，模型需要把它的推理過程和眼前的畫面實時聯繫起來——當環境隨著每一個動作而變化，計劃也必須跟著實時更新。如果推理和感知之間沒有緊密耦合，多想反而可能是負擔。

七、為什麼失敗，失敗在哪裡

研究團隊對Claude-Opus-4.6的失敗案例進行了詳細分析，按照失敗原因把錯誤分成幾類。最常見的失敗原因是導航失敗，占所有失敗里程碑的約60%——AI找不到目標在哪，或者無法到達目標位置。這說明在三維空間裡定位和導航，目前仍然是多模態模型的主要短板。第二大失敗原因是資源採集失敗，約占20%——AI看到了目標，但就是沒能成功完成採集動作。行動執行失敗和目標識別錯誤（也就是搞錯了自己該做什麼）各占約10%。陷入死循環或者卡住的情況非常罕見，只占不到1%。

這三類主要失敗——導航、行動、目標識別——剛好分別對應感知、行動、推理三個能力維度，說明AI在這三個方向上都還有明顯的提升空間，而不是只有某一個短板。

贊助商廣告

在步驟效率方面也有一個有趣的規律：能完成任務的那些情況，大多數都在很早的階段就完成了，而那些失敗的情況，往往跑完了整個30秒的時限也沒有進展。這說明當前的AI模型在短期任務上還算有效，但在長時間的持續探索上基本沒有什麼"越挫越勇"的能力——如果它在早期就迷失了方向，通常不會在之後找回來。

更強的模型完成任務時所花的步驟數往往更多，不是因為它們效率更低，而是因為它們能完成那些需要更長操作序列的中等難度任務，而弱一些的模型只能完成非常短小的任務。這個角度來看，步驟數多反而是能力強的一種體現。

歸根結底，MINEEXPLORER揭示了一個關鍵矛盾：當前的AI模型在接受單一、明確的指令時表現還可以，但當任務需要它們主動發現問題、自己制定計劃、在環境變化中隨機應變時，表現就會大幅下滑。現實世界裡的大多數任務都更像後者——你的老闆不會每隔0.1秒告訴你下一步該做什麼。從這個意義上說，MINEEXPLORER測出來的差距，不只是遊戲裡的差距，也是AI走向真正實用的那段距離。

研究團隊希望MINEEXPLORER不只是一個測試台，也能成為未來訓練AI的環境，幫助研究者找到讓AI真正學會"長程探索"的方法。如果你對這項研究感興趣，可以通過arXiv編號2605.30931找到完整論文，代碼和數據集也已在GitHub開源，地址為github.com/Jometeorie/MineExplorer。

Q&A

Q1：MINEEXPLORER是一個什麼樣的測試平台，它和普通的AI測試有什麼區別？

A：MINEEXPLORER是一個基於《Minecraft》遊戲構建的AI能力評估平台，專門用來測試多模態大模型在動態開放世界中的探索能力。與普通的AI測試不同，它不考靜態問答或短期單步任務，而是要求AI在不斷變化的遊戲環境裡，自己推斷隱藏的前置條件，按順序完成多個步驟，最終達成目標。整個過程更接近真實世界解決問題的邏輯，而不是背答案。

贊助商廣告

Q2：MINEEXPLORER里的多跳任務具體是什麼意思，為什麼AI在這類任務上會失敗得那麼慘？

A：多跳任務是指任務指令只告訴AI最終目標，但完成目標之前需要先完成一個或多個隱藏的前置步驟。比如指令說"打敗蜘蛛"，但AI得自己發現前方有河流擋路、需要先造武器。失敗的主要原因是AI通常能"看到"眼前的情況，卻難以推理出隱藏的前置邏輯；而且隨著環境變化，AI的計劃沒能及時跟上，導致越來越多的行動白費。

Q3：MINEEXPLORER的測試結果說明頂尖AI現在到底有多強、又差在哪裡？

A：目前表現最好的模型Claude-Opus-4.6整體任務成功率約為41%，在只有一個步驟的簡單任務里能完成約78%，但在需要推斷多個隱藏步驟的複雜任務里成功率不到24%。主要差距在三個方向：在三維空間裡找到目標（導航）、識別當前真正該做什麼（推理）、以及成功執行具體操作（行動）。增加模型參數量或開啟"思考模式"並不能穩定改善這些問題。