當前人工智慧(AI)發展日新月異,各界不斷尋找更有效且具代表性的基準測試,以評估AI模型的真實能力。繼《 寶可夢》之後,有研究團隊認為,經典遊戲《超級瑪利歐兄弟》(Super Mario Bros.)可能是一個更具挑戰性的新選擇。加州大學聖地亞哥分校(University of California, San Diego)郝人工智慧實驗室(Hao AI Lab)近期便進行了一項實驗,將多個知名AI模型投入《超級瑪利歐兄弟》的即時遊戲環境中,測試其表現。
根據實驗結果,Anthropic的Claude 3.7模型表現最為出色,其次為Claude 3.5。相較之下,Google的Gemini 1.5 Pro與OpenAI的GPT-4o在此項測試中則顯得力不從心。值得注意的是,本次實驗所使用的《超級瑪利歐兄弟》版本並非完全還原1985年的初代版本,而是在模擬器環境下運行,並集成GamingAgent框架,以便讓AI模型能夠控制遊戲中的瑪利歐角色。
Hao AI Lab自行開發的GamingAgent框架,主要負責向AI模型提供如「若偵測到障礙物或敵人接近,向左移動/跳躍閃避」等基本指令,以及遊戲畫面的截屏。接著,AI模型需要自行生成Python程序代碼形式的指令,來操控瑪利歐在遊戲中的行動。
實驗室主持人Hao指出,相較於其他基準測試,《超級瑪利歐兄弟》迫使AI模型必須「學習」規劃複雜的操作,並制定即時的遊戲策略。一個有趣的發現是,研究團隊觀察到,擅長推理的模型,例如OpenAI的o1模型(通過逐步「思考」問題來找出解決方案),在本次測試中的表現反而不如「非推理型」模型。儘管推理模型在多數基準測試中往往展現更強大的能力。
研究人員分析,推理模型在應對此類即時遊戲時遭遇瓶頸,主要原因之一在於其決策過程需要一定的時間延遲——通常為數秒。然而,在《超級瑪利歐兄弟》這類分秒必爭的遊戲中,時間至關重要。短短一秒的延遲,可能就決定了角色是成功跳躍躲避障礙,或是失足墜入深淵。
數十年來,遊戲一直被視為評估AI能力的基準之一。然而,部分專家開始質疑,將AI在遊戲中的技能表現,與技術的實際進展過度連接是否恰當。相較於複雜多變的現實世界,遊戲環境往往是經過抽象化、相對簡化的,且理論上,遊戲能為AI訓練提供近乎無限量的數據。
近期,OpenAI的研究科學家暨創始成員Andrej Karpathy更坦言,他正面臨一場「評估危機」。他在社交媒體平台X上發文表示:「我真的不知道現在該關注哪些 「AI」 指標。總之,我的反應是我真的不清楚這些模型現在有多厲害。」
儘管如此,至少我們現在可以通過觀察AI模型遊玩《瑪利歐》的表現,一窺當前AI技術的發展現況。