宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

上交大與美團聯手打造「我的世界」AI考場:讓大模型在遊戲裡證明自己真的「聰明」

2026年06月08日 首頁 » 熱門科技

這項由上海交通大學電腦科學學院與美團聯合開展的研究,以預印本形式於2026年5月29日發布,編號為arXiv:2605.30931,有興趣深入了解的讀者可以通過該編號在arXiv平台查詢完整論文。

說起現在最火的AI技術,大家腦海里可能會浮現出那些能寫文章、畫圖、回答問題的"大模型"。這些模型在各種測試中表現出色,讓很多人覺得AI已經足夠聰明了。但是,有一個問題一直困擾著研究者:這些模型在真實的、動態變化的世界裡,真的能靠自己完成複雜任務嗎?坐在考場裡答題和在街上獨立生存,完全是兩回事。

於是,上交大與美團的研究團隊想到了一個絕妙的方案:把《Minecraft》(Minecraft)這款沙盒遊戲變成一個考場,專門用來測試AI模型在開放世界裡的探索能力。這個考場有個正式的名字——MINEEXPLORER。

為什麼是《Minecraft》?因為這款遊戲裡有草地、森林、河流、村莊、各種動物和怪物,玩家需要觀察環境、制定計劃、一步步完成目標。這跟真實世界裡解決問題的邏輯非常相似。但麻煩的是,《Minecraft》也有很多只有老玩家才知道的"秘籍"——比如特定的合成配方、特殊的遊戲機制——這些跟現實世界的常識毫無關係。研究團隊認為,如果AI答對了問題但只是因為它"背過遊戲攻略",那這個考試就沒意義了。真正想考察的,是AI用通用的推理能力和常識,在一個動態變化的環境裡靈活應對。

正因為這個核心理念,MINEEXPLORER做了一件很關鍵的事:從3382個遊戲任務里,篩掉了所有"需要懂遊戲內部規則才能完成"的任務,只保留了1497個靠現實世界常識就能搞定的任務。然後,研究團隊把這些任務組合成813個經過真人驗證的複合測試案例,難度從"一步到位"一直升級到"需要提前完成四個隱藏步驟"。測試結果令人警醒:哪怕是目前最頂尖的AI模型,在這個考場裡的表現也遠遠稱不上優秀。

一、如何讓考場只考"真本領"而不考"遊戲攻略"

打造這個考場的第一步,是解決一個根本性的矛盾:《Minecraft》里有大量只屬於遊戲本身的規則,跟現實世界的常識完全不一樣。以合成物品為例,在遊戲裡要做一個活塞,需要按照特定的擺放方式組合木頭、圓石、鐵錠和紅石,這套規則在現實生活里毫無對應,普通人就算從沒玩過遊戲,靠常識也完全猜不出來。

研究團隊把這類"只有老玩家才懂"的任務統統剔除,保留那些靠常識就能理解的任務。比如"獵殺一隻羊"——找到羊、靠近它、攻擊它,這個邏輯在現實世界裡完全說得通。再比如"找到一條河流然後游過去"——識別水域、下水、游到對岸,這也是任何人憑直覺都能想到的。相反,"釀造一瓶治癒藥水"就被剔除了,因為要知道需要把地獄疣和閃光甜瓜放進釀造台,這完全是遊戲獨有的設定。

為了做這個篩選,研究團隊準備了一份《Minecraft》規則說明書,讓AI判斷官:對於每一個候選任務,一個從沒玩過這款遊戲的普通人,能不能只憑現實世界的常識把它完成?能——留下來;不能——淘汰。這個過程很像給一套試卷做"公平性審核",確保題目考的是真實能力而不是死記硬背。經過這輪篩選,原本3382個任務里,只有1497個通過了審核。

為了驗證這個篩選過程本身是否可靠,研究團隊抽取了500個任務,讓真人去檢驗AI判官的判斷是否準確,結果整體吻合率達到86.8%,誤判率都在10%以下,這說明篩選過程相當靠譜。

二、用"看-想-做"的框架給AI能力畫地圖

光有一堆任務還不夠,研究團隊還需要一套系統來分析:完成每個任務,AI到底需要哪些能力?他們借鑑了一個叫"ReAct"的思路——這個名字來自英文"推理"(Reasoning)和"行動"(Acting)的組合——把AI在遊戲裡需要做的事情分成三大類:感知、推理和行動。

感知,就是AI"用眼睛"理解世界的能力。具體來說,它需要判斷周圍地形和目標位置的空間關係,需要感知任務過程中環境的變化,需要識別場景里的動物、怪物、村民等各種角色,需要監控自身狀態(比如血量是否不足),還需要檢查自己背包里有什麼東西。這五種感知能力,共同構成了AI"睜眼看世界"的基礎。

推理,是AI"用腦子"分析情況的能力。它需要用現實世界的常識做出判斷——比如知道砍樹可以得到木頭,而木頭可以用來做工具;它還需要理解因果關係,明白"先做A,才能做B"的邏輯;另外它還需要理解空間和對象之間的關係,比如判斷哪個目標離自己更近、某個物品在哪個區域。

行動,是AI"用手腳"執行計劃的能力。在遊戲裡,這包括基本移動(走路、游泳)、跳躍越過障礙、採集物品(挖礦、砍樹、撿東西)、放置方塊、合成物品,以及戰鬥。

給每個任務貼上這三類能力的標籤之後,研究團隊就能清楚地知道:每道考題究竟在考AI的哪些能力,考得有多難。

三、把簡單任務編織成"隱藏關卡"——多跳任務的設計

MINEEXPLORER里最有意思的設計,是把若干個簡單任務組合成一個"隱藏關卡"。正式的叫法是"隱式多跳任務"。

以考場裡的一個例子為例:AI收到的任務指令是"去打敗一隻蜘蛛"。聽起來很簡單,對吧?但在這個精心設計的場景里,AI剛一出生,面前是一條河流擋住了去路,河對岸才有蜘蛛。所以AI必須先識別出河流是障礙,然後自己想到"得先過河",接著發現旁邊有一些材料可以合成武器,於是還得先造一把劍,然後游過河,最後才能打蜘蛛。

整個過程里,"過河"和"造劍"這兩個前置步驟,在任務指令里根本沒有提到。AI必須靠自己觀察環境,推斷出這些隱藏的前置條件,並且按正確的順序一步步完成。這就像你老闆跟你說"去給客戶送份報告",但沒告訴你報告還沒列印、印表機沒紙、鑰匙在抽屜里——你得自己發現這些問題並一一解決。

研究團隊還為每個測試案例設計了一個"難度分數"。這個分數的核心邏輯是:需要提前完成的隱藏步驟越多、每個步驟涉及的能力越多樣,任務就越難。一跳任務就是沒有隱藏步驟,直接完成目標就行;兩跳任務有一個隱藏前置步驟;三跳有兩個;四跳有三個。數字越大,AI需要在腦子裡維持的"計劃鏈條"就越長,出錯的可能性也就越大。

四、五個"專家"協同合作才能造出一道好題

設計出這些測試案例本身,就是一個相當複雜的工程。研究團隊發現,如果只讓一個AI模型來負責出題,生成的題目往往漏洞百出:場景擺放不合理、評分規則有誤、任務邏輯前後矛盾。於是他們設計了一個由五個專門角色組成的"出題委員會",每個角色各司其職。

第一個角色是任務選擇員,負責從候選任務池裡挑選合適的任務組合,設計它們之間的依賴關係,並寫出那道"只說最終目標、不透露隱藏步驟"的任務指令。第二個角色是場景設計師,負責在遊戲裡搭建實際的場景——放置方塊、召喚動物怪物、調整地形——並且可以"進入"遊戲場景親自走一遍,確認設計是否合理。

第三個角色是里程碑設計師,負責把每個子任務轉化成可以被程序自動判斷的規則。比如"採集到了煤礦"可以用"背包里煤炭數量增加了1"來判斷,"打敗了殭屍"可以用"殭屍從場景里消失了"來判斷。這些規則必須精確且可執行,而且設計師可以在遊戲裡實際觸發這些條件來驗證規則是否有效。第四個角色是《Minecraft》專家,專門審查整個設計有沒有偷偷依賴遊戲專屬知識,必要時可以查閱遊戲維基百科來核實具體機制。第五個角色是驗證員,從結構上檢查任務的依賴圖有沒有邏輯錯誤,評分規則有沒有漏洞。

這五個角色在一個"討論組"里協作:先各自完成初稿,然後互相審查、提意見、修改,直到所有人都認為這道題沒有問題為止。這個過程跟學術論文的同行評審很像,只不過"評審人"都是AI。

研究團隊還專門比較了"五人團隊出題"和"一個AI單獨出題"的效果。真人評審的結果很說明問題:五人團隊出的題,整體合格率約為78%,質量評分約4.53分(滿分5分);而單個AI出的題,合格率只有約44%,質量評分約4.03分。在四跳任務這種最複雜的情況下,差距更為明顯——單個AI只有約27%的合格率,而團隊方式能達到約66%。這說明讓不同專長的角色分工合作,確實能大幅提升出題質量。

五、最終的考場長什麼樣,AI怎麼參加考試

完成所有篩選和生成之後,MINEEXPLORER最終包含813個經真人驗證的測試案例,從一跳到四跳均有覆蓋,分別有292、301、211和235個案例。每個案例都有明確的文字任務指令、一個精心搭建的遊戲場景、一套隱藏的任務依賴圖,以及一組可以自動判分的里程碑規則。

參加考試的AI模型,以第一人稱視角進入遊戲場景。每隔0.1秒,系統就截一張遊戲畫面發給AI,AI看著畫面思考一下,然後輸出一個動作指令——往前走、轉頭看、揮錘挖礦等等。AI最多能記住最近20幀的歷史畫面,整個測試時長不超過30秒(300個步驟)。每一步之後,系統都會自動檢查里程碑規則是否被觸發。

評分用兩個主要指標:任務成功率(TSR)衡量最終目標有沒有完成,里程碑成功率(MSR)衡量在沒有完全成功的情況下,完成了多少個中間步驟。研究團隊也驗證了這套自動評分系統的可靠性:讓真人觀看AI的遊戲影片並評分,發現當所有里程碑都被自動檢測為"完成"時,真人的平均評分接近4分(滿分4分);當所有里程碑都被檢測為"失敗"時,真人的平均評分低於3分。自動判分系統與真人判斷的整體吻合率同樣達到86.8%。

六、頂尖AI在考場裡的實際表現:差距令人吃驚

研究團隊邀請了18款當前最先進的多模態大模型參加這場考試,包括各大公司的旗艦產品。結果可以用一句話概括:在一跳任務里還算說得過去,但一旦任務鏈條變長,幾乎所有模型都急劇"失速"。

表現最好的是Claude-Opus-4.6,它的整體任務成功率約為41%。排名第二的是谷歌的Gemini-3.1-Pro-Preview,成功率約為37%。這兩款模型在一跳任務里的成功率分別約為78%和74%,看起來還不錯;但到了多跳任務,Claude-Opus-4.6的成功率下降到約24%,Gemini的成功率則約為20%。

換個角度理解這組數據更直觀:在一跳任務里,接近四分之三的任務能被頂尖模型完成;但在多跳任務里,超過四分之三的任務會失敗。隱藏步驟增多之後,AI的表現會急劇下滑,而不是緩慢降低。大多數排名靠後的模型,整體成功率在10%到20%之間,有些模型在四跳任務里的成功率接近於零。

從能力維度來看,AI在感知得分上普遍高於推理得分,行動得分則大致居中。這個規律在幾乎所有測試模型身上都成立。通俗地說,AI通常能"看到"場景里有什麼,但往往想不清楚"下一步該怎麼辦"。這個差距在多跳任務里更加明顯——當AI不僅要看清現狀,還要推斷出哪些隱藏的前置條件沒有滿足、應該先做什麼,它的推理能力就明顯跟不上了。

還有一個出乎意料的發現:模型越大、推理越複雜,並不意味著遊戲表現越好。在Qwen系列中,參數量更多的235B版本,其表現並不總是比32B版本更好。更令人困惑的是,專門加入了"思考模式"的版本,整體表現反而有時不如普通版本。具體來說,Qwen-3-VL-235B-A22B-Instruct的整體任務成功率約為10.6%,而它的"思考"版本Qwen-3-VL-235B-A22B-Thinking只有約8.1%。

這說明在開放世界探索這件事上,光靠增加參數量或者讓模型"多想想",並不能解決根本問題。關鍵在於,模型需要把它的推理過程和眼前的畫面實時聯繫起來——當環境隨著每一個動作而變化,計劃也必須跟著實時更新。如果推理和感知之間沒有緊密耦合,多想反而可能是負擔。

七、為什麼失敗,失敗在哪裡

研究團隊對Claude-Opus-4.6的失敗案例進行了詳細分析,按照失敗原因把錯誤分成幾類。最常見的失敗原因是導航失敗,占所有失敗里程碑的約60%——AI找不到目標在哪,或者無法到達目標位置。這說明在三維空間裡定位和導航,目前仍然是多模態模型的主要短板。第二大失敗原因是資源採集失敗,約占20%——AI看到了目標,但就是沒能成功完成採集動作。行動執行失敗和目標識別錯誤(也就是搞錯了自己該做什麼)各占約10%。陷入死循環或者卡住的情況非常罕見,只占不到1%。

這三類主要失敗——導航、行動、目標識別——剛好分別對應感知、行動、推理三個能力維度,說明AI在這三個方向上都還有明顯的提升空間,而不是只有某一個短板。

在步驟效率方面也有一個有趣的規律:能完成任務的那些情況,大多數都在很早的階段就完成了,而那些失敗的情況,往往跑完了整個30秒的時限也沒有進展。這說明當前的AI模型在短期任務上還算有效,但在長時間的持續探索上基本沒有什麼"越挫越勇"的能力——如果它在早期就迷失了方向,通常不會在之後找回來。

更強的模型完成任務時所花的步驟數往往更多,不是因為它們效率更低,而是因為它們能完成那些需要更長操作序列的中等難度任務,而弱一些的模型只能完成非常短小的任務。這個角度來看,步驟數多反而是能力強的一種體現。

歸根結底,MINEEXPLORER揭示了一個關鍵矛盾:當前的AI模型在接受單一、明確的指令時表現還可以,但當任務需要它們主動發現問題、自己制定計劃、在環境變化中隨機應變時,表現就會大幅下滑。現實世界裡的大多數任務都更像後者——你的老闆不會每隔0.1秒告訴你下一步該做什麼。從這個意義上說,MINEEXPLORER測出來的差距,不只是遊戲裡的差距,也是AI走向真正實用的那段距離。

研究團隊希望MINEEXPLORER不只是一個測試台,也能成為未來訓練AI的環境,幫助研究者找到讓AI真正學會"長程探索"的方法。如果你對這項研究感興趣,可以通過arXiv編號2605.30931找到完整論文,代碼和數據集也已在GitHub開源,地址為github.com/Jometeorie/MineExplorer。

Q&A

Q1:MINEEXPLORER是一個什麼樣的測試平台,它和普通的AI測試有什麼區別?

A:MINEEXPLORER是一個基於《Minecraft》遊戲構建的AI能力評估平台,專門用來測試多模態大模型在動態開放世界中的探索能力。與普通的AI測試不同,它不考靜態問答或短期單步任務,而是要求AI在不斷變化的遊戲環境裡,自己推斷隱藏的前置條件,按順序完成多個步驟,最終達成目標。整個過程更接近真實世界解決問題的邏輯,而不是背答案。

Q2:MINEEXPLORER里的多跳任務具體是什麼意思,為什麼AI在這類任務上會失敗得那麼慘?

A:多跳任務是指任務指令只告訴AI最終目標,但完成目標之前需要先完成一個或多個隱藏的前置步驟。比如指令說"打敗蜘蛛",但AI得自己發現前方有河流擋路、需要先造武器。失敗的主要原因是AI通常能"看到"眼前的情況,卻難以推理出隱藏的前置邏輯;而且隨著環境變化,AI的計劃沒能及時跟上,導致越來越多的行動白費。

Q3:MINEEXPLORER的測試結果說明頂尖AI現在到底有多強、又差在哪裡?

A:目前表現最好的模型Claude-Opus-4.6整體任務成功率約為41%,在只有一個步驟的簡單任務里能完成約78%,但在需要推斷多個隱藏步驟的複雜任務里成功率不到24%。主要差距在三個方向:在三維空間裡找到目標(導航)、識別當前真正該做什麼(推理)、以及成功執行具體操作(行動)。增加模型參數量或開啟"思考模式"並不能穩定改善這些問題。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新