宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

最先進的AI大模型,為什麼都在挑戰《寶可夢》?

2025年05月12日 首頁 » 熱門科技
最先進的AI大模型,為什麼都在挑戰《寶可夢》?

各種AI模型在剛問世時,總有一個屢試不爽的「秀肌肉」手段,那就是讓自家AI獨立遊玩某款遊戲,用以檢驗模型的智能程度。

圍棋選手李世石與AlphaGo的五番棋對決已經過去近十年。而後,不論是谷歌的DeepMind在《DOTA2》《星際爭霸2》這些項目上擊敗人類職業選手,還是2023年英偉達宣布開發出能玩《Minecraft》的VOYAGER,都在不斷證明「遊戲」似乎就是AI的天然試驗場。

大家體感上應該也能體會到,這十年間AI技術發展迅速,如今的大語言模型,其訓練方式、決策過程都與當初的AlphaGo有較大差異,但十年過去,不管是科技公司想展示研究成果,還是吸引不懂技術細節的普通人關注,「讓AI玩遊戲」依舊是個很常見的手段。

最近,谷歌的AI模型Gemini 2.5 Pro又因為做到了「獨立通關初代《寶可夢》」,再次成了AI領域的熱門話題,谷歌的現任CEO Sundar Pichai和DeepMind負責人Demis Hassabis甚至同時發表推文慶祝了這一時刻。

 

但就像前面提到的,都到了2025年,讓AI玩遊戲、通關遊戲早就不是什麼新鮮話題,更何況於1995年發售的初代寶可夢,本來也不以高難度、複雜程度著稱,向來以休閒輕鬆為主的寶可夢系列,哪怕是遊戲新手,都能在很短的時間內迅速上手,通關更不是難事。

那為什麼讓AI通關《寶可夢》就成了件大事?

上世紀80年代被提出的「莫拉維克悖論」 (Moravec's paradox)曾提到一個反直覺觀點:人類覺得容易的任務對人工智慧來說其實更困難,反之亦然。

提出這一悖論的學者莫拉維克,曾為其寫下一段直觀解釋:「要讓電腦如成人般下棋相對容易,但讓它擁有像一歲孩童般的感知和行動能力,卻相當困難、乃至是不可能的。」

對於這次AI Gemini通關《寶可夢》,就更近似於讓AI擁有自己的感知和行動力。

1

對AI來說,「獨立通關初代《寶可夢》」 是一個比人類的想像要複雜得多的挑戰。

早在今年2月,美國另一家AI科技公司Anthropic就對外公布了名為「Claude Plays Pokémon」的技術實驗,實驗內容就和它的名稱一樣,試圖讓該公司旗下的最新版本AI Claude 3.7 Sonnet體驗初代寶可夢遊戲,並以「通關遊戲」作為實驗的最終目標。

這項實驗最後以失敗告終,Claude 3.7的最終進度是挑戰三個道館、獲得三枚徽章,但哪怕是這個對人類玩家來說微不足道的成就,也是Claude反覆疊代了一年的成果。

根據Anthropic公司釋出的資訊,一年前的3.0版Claude,甚至連遊戲最初的「真新鎮」都無法走出,之後的3.5版本略有進步,行程來到了「常磐森林」,但依舊無法獲得第一個徽章。

進度緩慢的原因不外乎:Claude的每一步決策都會經過漫長思考、毫無意義地重複探索走過的城鎮、長時間卡在地圖死角,或者反覆與一個毫無幫助的路人NPC對話。

最先進的AI大模型,為什麼都在挑戰《寶可夢》?


Claude的通關過程也面向大眾進行了直播

這些行為看似是「人工」,遠不如在圍棋或《星際爭霸》這些策略遊戲上戰勝人類選手的AlphaGo,但這其實是二者訓練方式的差異。

前幾年那些能在圍棋、《DOTA2》等項目中表現出色的AI,開發者通常會為算法提供遊戲規則和策略的基礎資訊,並設置給AI正確行動提供正面回報的獎勵函數,這便是經常提到的 「強化學習」。

但對於像Claude、Gemini這種基於大語言模型的AI,針對的不是某款特定的遊戲,研究人員並未提供《寶可夢》專屬的遊戲規則或目標指令,也不會對其進行特定的訓練,而是直接讓通用的Claude模型操作遊戲。

這更近似於讓一個對寶可夢遊戲完全沒有感念的純新手,通過自己的感知和學習,逐步掌握遊戲的過程。

再者,Claude在遊玩遊戲時,獲得資訊的渠道並非是內部代碼,而是和人類一樣,所有內容都只能從遊戲畫面上獲取,早期版本的Claude經常撞牆,原因就在於相較於現代遊戲更逼真的「牆」,AI很難識別這些由像素組成的抽象畫面,而這對人類玩家來說卻是一件很輕鬆的事。

最先進的AI大模型,為什麼都在挑戰《寶可夢》?

AI需要為畫面中的每一個坐標點標註資訊,紅色被視為無法通過的區域

反倒是寶可夢更複雜的屬性克制系統,Claude理解起來非常容易。比如,當遊戲提示電屬性技能對岩石系寶可夢的「效果一般」時,Claude迅速捕捉到了這個關鍵資訊,並將其應用到後續配隊和寶可夢對戰策略上。

2

為什麼研究人員能肯定AI確實理解了「屬性克制」?因為目前的大語言模型,已經可以將完整的思考過程同步呈現給外界。

最先進的AI大模型,為什麼都在挑戰《寶可夢》?


Claude玩寶可夢時,左側會同步顯示每一步操作的決策過程

這同樣也是這一項目試圖探索的效果,就像上圖展示的那樣,Claude在使用比比鳥對戰電系的小磁怪時,對自己掌握的四個技能進行了全面分析:

「翅膀攻擊這樣的飛行系招式對電系寶可夢不是很奏效。」

「起風和電光一閃這樣的招式只能造成中等傷害。」

「潑沙只是降低命中率,不造成直接傷害。」

最後Claude做出了總結:

「由於比比鳥在屬性上處於劣勢,我應該儘快擊敗小磁怪。我最好的選擇可能是翅膀攻擊,這是我擁有的最強的招式,儘管它效果一般。讓我按三次「下」再按一次「確定」來選擇翅膀攻擊。」

雖然現在展示的仍是相對淺層的思考,但相比於AlphaGo這種純「黑箱式」的決策過程,Claude和其他以大語言模型為核心的AI,在實用性上無疑前進了一大步。

要知道早年AlphaGo在圍棋領域最令人印象深刻的,便是總能下出讓人類難以理解、但最後又能取得勝利的「妙手」,可惜當時經由「強化學習」訓練的AlphaGo,決策過程難以用自然語言向人類清晰呈現,否則,人類棋手或許也會從AI的邏輯得到進一步啟發。

而對於玩寶可夢的Claude來說,雖然在策略層面沒有什麼讓人類眼前一亮的操作,但在顯示了思考過程後,反倒展示了一些「意料之外」的思維邏輯。

比如下面這一幕,當Claude在遊戲的「月見山」地圖中迷路,認為無法通過正常手段走出洞穴時,AI做了一個非常「人類化」的思考:

「我現在最好的選擇是故意輸掉一場戰鬥,這樣我就會被傳送回上一次訪問的寶可夢中心,也就是4號道路上的月見山寶可夢中心,從那裡我就可以按之前驗證的路徑前往華藍市了。」

最先進的AI大模型,為什麼都在挑戰《寶可夢》?

再比如,AI也會有「認錯NPC」的現象。遊戲初期時,Claude被要求尋找NPC「大木博士」,但遊戲沒有提供明確的指引,也沒有說明NPC的具體位置和外形特徵,實現這種「模糊目標」對於AI來說其實難度更大。

在接到這個任務後,Claude也進行了一段非常擬人的思考:「我注意到下方出現了一個新角色——一個黑髮、身穿白色外套的角色,位於坐標 (2, 10),這可能是大木博士!讓我下去和他談談。」

隨後它便和一個跟主線毫無關係的NPC對話了數次,最終才意識到這並非是自己想找的大木博士。

3

而前幾天通關同一版本遊戲的AI Gemini之所以受到關注,不僅是因為它能在人類不提供任何規則資訊的條件下完成遊戲,而且據官方統計,Gemini總操作步數約為10.6萬次,甚至比Claude獲得第三個徽章時達成的21.5萬步要少一半。

最先進的AI大模型,為什麼都在挑戰《寶可夢》?


Gemini通關初代寶可夢

這看似說明Gemini的智能水平要優於Claude,但負責Gemini項目的研究人員JoelZ自己也表示:無法直接比較這兩個AI,因為這不是在完全相同的條件下進行的測試。

區別在於Agent Harness,即「代理執行框架」,它的作用是連接AI模型與遊戲,負責處理輸入的資訊,如遊戲畫面、文字數據等,並將模型的決策轉化為按鍵指令等操作。

從官方公布的資訊看,Gemini的代理執行框架在某些程度的確優於Claude,比如在對地圖的分析上,它不僅為每個區域標註了坐標,而且還註明了坐標的可通行狀態,這對於不擅長直接解析像素畫面的大語言模型來說,提供了巨大的幫助:

最先進的AI大模型,為什麼都在挑戰《寶可夢》?

但就像開發者自己說的,讓AI玩寶可夢,意義並不在於對比不同AI的水平高低。

像《寶可夢》這類遊戲,更需要AI感知環境、理解模糊目標、長線規划行動的能力,它必須不斷接收遊戲畫面、理解不同階段的規則,並將決策轉換為遊戲操作。之所以執著於讓AI操作這類遊戲,也因為如果AI能夠在人類沒有干預的情況下通關,也說明了它擁有能獨立學習,解決現實中某些複雜問題的潛力。

從早年的圍棋到現在的《寶可夢》,AI在實驗和「秀肌肉」環節的逐年演變,並不單是個吸引大眾關注的噱頭,其實一定程度上也代表了這項技術的發展方向:從處理單一問題的專才,到能夠自我學習,解決不同領域問題的通用人工智慧。

或許這正是眾多AI科技公司選擇《寶可夢》來用作訓練的原因:這款遊戲本身便是關於成長、選擇與冒險的旅程。過去,我們在遊戲中體驗進化與策略,而現在,AI正在遊戲中嘗試理解世界的規則本身。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新