這項由紐約大學電腦科學系的龍藝濤(Yitao Long)、劉洪君(Hongjun Liu)以及該校格羅斯曼醫學院的沈藝秋(Yiqiu Shen)教授領導的研究團隊,聯合浙江大學、耶魯大學和紐約州立大學布法羅分校的研究人員,在2025年10月發表了一項突破性研究成果。這篇題為"PUZZLEPLEX: Benchmarking Foundation Models on Reasoning and Planning with Puzzles"的論文首次提出了一個全新的AI能力評估框架,有興趣深入了解的讀者可以通過論文編號arXiv:2510.06475v1查詢完整內容。
現在的AI就像是參加各種考試的學生,有些擅長數學,有些善於寫作,但很少有人能全面考察它們在複雜問題解決上的真實水平。研究團隊意識到,當前的AI評估方法就像只測試學生背書能力,卻不考查他們面對全新挑戰時的應變能力。為了填補這個空白,他們設計了一個全新的"考試系統"——PUZZLEPLEX,這是一個專門用拼圖遊戲來測試AI推理、規劃和決策能力的綜合平台。
這個平台的特別之處在於,它不僅考查AI能否正確回答問題,還要看AI能否像程序員一樣編寫代碼來解決問題。就好比既要測試醫生的診斷能力,又要看他們能否親自動手術一樣。研究團隊發現,那些被稱為"推理模型"的AI在對話式問題解答中表現出色,就像優秀的諮詢師能給出很好的建議,但當需要它們編寫實際可執行的代碼時,表現卻大打折扣,仿佛這些"諮詢師"雖然理論豐富,但動手能力有限。
一、PUZZLEPLEX平台的創新設計理念
傳統的AI測試就像標準化考試,題目相對固定,答案也比較明確。但現實世界的問題往往複雜多變,需要多步推理和靈活應對。研究團隊想到了用拼圖遊戲作為測試工具,這個想法聽起來簡單,實際上卻非常巧妙。拼圖遊戲天然具備了測試複雜思維能力的所有要素:需要邏輯推理、需要長期規劃、需要在不確定性中做決策,還需要從局部失敗中學習和調整策略。
PUZZLEPLEX包含了15種不同類型的拼圖遊戲,就像一個遊戲廳里有各種不同的挑戰項目。有些遊戲是單人闖關模式,測試AI獨立解決問題的能力;有些是雙人對戰模式,考驗AI的策略思維和競爭意識。更有趣的是,有些遊戲結果是確定的(每次相同操作得到相同結果),有些則帶有隨機性(相同操作可能產生不同結果),這就像現實生活中有些事情可以完全預測,有些則需要在不確定性中做最佳選擇。
這個平台的另一個創新點是支持兩種完全不同的測試方式。第一種叫"指令式評估",就像人與人對話一樣,AI通過自然語言與系統交互,說出自己的每一步行動。第二種叫"代碼式評估",AI需要編寫完整的程序代碼來解決問題,就像程序員寫軟體一樣。這種雙重評估方式讓研究人員能夠全面了解AI的不同層面能力。
二、十五種拼圖遊戲的巧妙設計
研究團隊精心挑選和設計的這15種拼圖遊戲,每一種都針對特定的認知能力進行測試。比如有一個叫"SudoKill"的遊戲,它基於數獨遊戲改編,但增加了競爭元素——兩個玩家輪流在數獨網格中填數字,誰先犯錯誰就輸。這個遊戲不僅測試數學邏輯能力,還考驗策略規劃,因為你不僅要保證自己不出錯,還要想辦法讓對手陷入困境。
另一個有趣的遊戲叫"整理塔樓"(TidyTower),玩家需要操控一摞彩色方塊,通過旋轉使所有方塊的同一面都朝向前方。這就像整理書架,看似簡單,實際上需要仔細規劃每一步操作的順序,因為後面的操作會影響前面已經整理好的部分。
還有一類遊戲專門測試AI在不確定環境中的決策能力。比如"紅寶石風險"(Ruby Risks)遊戲,AI需要在不知道每個寶箱具體內容的情況下,決定從每個寶箱中取多少寶石。如果要求的數量超過寶箱實際含量,就什麼都得不到;如果要求過於保守,又會錯失收益機會。這種遊戲模擬了現實中的投資決策——在資訊不完全的情況下做出最優選擇。
為了測試AI的視覺理解能力,研究團隊還設計了圖文結合的遊戲版本。在這些遊戲中,AI不僅要理解文字說明,還要分析遊戲狀態的視覺圖像,就像人類玩家看到棋盤後決定下一步棋一樣。
三、兩種截然不同的評估方式揭示AI能力差異
研究團隊設計的雙重評估體系揭示了一個令人意外的發現。在指令式評估中,那些專門訓練過推理能力的AI模型表現優異,就像經驗豐富的顧問能夠清楚地解釋問題和給出建議。這些模型能夠用自然語言詳細描述自己的思考過程,分析當前局面,制定行動計劃,甚至在出錯時能夠反思和調整策略。
然而,當要求這些AI編寫代碼來解決相同問題時,情況發生了戲劇性的變化。代碼式評估要求AI不僅要理解問題,還要用編程語言準確實現解決方案,這就像要求理論專家親自上手操作一樣困難。研究發現,在代碼式評估中,AI的表現普遍下降,而且一些在指令式評估中表現一般的非推理模型,在代碼式評估中的表現反而相對穩定。
這種差異反映了一個深刻的問題:擅長推理和善於編程是兩種不同的能力。推理能力讓AI能夠分析問題、制定策略,但編程能力需要將抽象思維轉化為精確的電腦指令。就像一個優秀的建築師未必是最好的施工隊長一樣,能夠進行複雜推理的AI未必能夠編寫出正確的程序代碼。
研究團隊還發現了另一個有趣現象:代碼式評估雖然表現較差,但具有獨特的優勢。一旦AI成功編寫出正確的代碼,這段代碼就可以重複使用,處理同類型的多個問題實例。而且,通過多次採樣(讓AI生成多個不同的代碼解決方案,然後選擇最佳結果),代碼式方法的性能可以顯著提升,有時甚至能夠接近或超越指令式方法。
四、令人意外的模型表現排名
在這個全新的評估框架下,AI模型的表現排名出現了一些意想不到的結果。傳統上被認為最先進的一些商業AI模型並沒有占據絕對優勢,反而一些開源模型表現出了強勁的競爭力。特別是DeepSeek-R1這個開源推理模型,在綜合評分中甚至超越了一些知名的商業模型。
這個發現有點像體育比賽中的"爆冷門"——那些不被看好的選手反而取得了優異成績。DeepSeek-R1在指令式評估中獲得了0.62的標準化得分,超過了Gemini-2.5-pro的0.58分。這表明,在複雜的推理和規劃任務中,模型的規模大小和商業化程度並不直接決定其能力水平。
更有趣的是,研究團隊發現,相對較小的QwQ-32B模型在某些任務上的表現甚至超過了一些參數量更大的模型。這就像在馬拉松比賽中,有時候經驗豐富的老將能夠戰勝體格更強壯的年輕選手一樣。這個發現挑戰了"模型越大越好"的傳統觀念,提示我們應該更加重視模型的訓練方法和專業化程度。
在雙人對戰遊戲中,AI模型之間的表現差異更加明顯。一些模型在策略遊戲中表現出色,能夠制定長期計劃並預測對手行為;而另一些模型則在需要快速反應的遊戲中更有優勢。這種差異化表現反映了不同AI模型可能具備不同類型的"智能特長"。
五、深度剖析:多樣化提示策略的效果
研究團隊還深入探討了各種"提示策略"對AI表現的影響。提示策略就像是給AI的"使用說明書"——告訴它應該如何思考和回答問題。這個發現對於理解AI的工作機制非常重要。
其中最令人意外的發現是,有時候給AI提供更少的歷史資訊反而能獲得更好的結果。在"整理塔樓"遊戲中,當研究人員移除了AI之前的推理步驟歷史記錄後,AI的表現竟然顯著提升。這就像有些學生在考試時,如果不去回憶之前可能做錯的題目,反而能更好地專注於當前問題。這個現象揭示了當前AI模型在長序列推理中可能存在的局限性——過多的歷史資訊有時會成為"干擾項"而非"參考資料"。
另一個有效的策略是"合法候選項提示",即明確告訴AI當前可以採取哪些合法行動。這種方法顯著提升了AI的表現,特別是對於那些專門訓練過推理能力的模型。這就像給迷路的人提供一張標明了所有可行路徑的地圖,能夠大大提高他們找到正確方向的概率。
研究還發現,"思維樹"(Tree of Thoughts)這樣的高級推理技術在某些遊戲中有幫助,但效果並不總是顯著。這提示我們,複雜的技術不一定總是帶來更好的結果,有時候簡單直接的方法可能更加有效。
六、視覺理解能力的參差不齊
在圖文結合的遊戲測試中,AI模型表現出了明顯的能力分化。高性能模型如o4-mini和GPT-4.1在處理包含圖像資訊的遊戲時表現出色,能夠準確理解遊戲狀態的視覺表示,並據此做出正確決策。這就像有些人天生具備良好的空間感知能力,能夠通過觀察快速理解複雜的視覺資訊。
然而,一些相對較弱的模型在處理視覺資訊時就顯得力不從心了。比如Phi-4-multimodal模型在某些視覺任務中的表現甚至比純文本版本更差,這表明簡單地添加視覺處理能力並不能自動提升AI的整體表現。這種現象類似於一個人戴上了不合適的眼鏡,反而看得更不清楚了。
這個發現對於多模態AI的發展具有重要啟示。它表明,真正有效的多模態AI需要各種能力之間的深度整合,而不僅僅是簡單的功能疊加。就像優秀的電影導演不僅要懂得視覺藝術,還要理解如何將視覺與故事情節完美結合一樣。
七、計算資源與性能的微妙關係
研究團隊還深入分析了AI模型使用計算資源的方式與其性能之間的關係。他們發現,推理模型和非推理模型在"思考"方式上存在根本差異。推理模型就像深思熟慮的棋手,會花費大量時間分析局面,生成的文本(反映其思考過程)通常比非推理模型多5到10倍。
更有趣的是,對於推理模型來說,思考時間和表現質量之間存在正相關關係——花費更多時間"思考"通常能帶來更好的結果。這就像人類在解決複雜問題時,給予更多思考時間往往能得出更好的解決方案。相比之下,非推理模型無論給多少時間,表現都相對穩定,沒有明顯提升。
在代碼生成任務中,這種差異更加明顯。推理模型在編寫代碼時消耗的計算資源大約是其他模型的10倍,但成功率的提升並不總是與資源消耗成正比。這個發現提醒我們,在實際應用中需要在性能和效率之間找到平衡點。
八、不同類型遊戲揭示的AI能力短板
通過對不同類型遊戲的詳細分析,研究團隊發現了AI在各個認知維度上的具體表現。在需要純邏輯推理的遊戲中,大多數AI模型都表現不錯,就像優秀的數學學生能夠熟練解決代數問題。但當遊戲涉及空間推理、長期規劃或不確定性處理時,AI的表現就開始出現分化。
特別值得注意的是,在需要"換位思考"的雙人遊戲中,AI模型普遍表現出一定的局限性。這些遊戲要求AI不僅要考慮自己的最優策略,還要預測對手的可能行動,這種"二階思維"對當前的AI來說仍然是一個挑戰。就像在下棋時,優秀的棋手不僅要考慮自己的下一步,還要猜測對手的應對策略。
在涉及概率和風險評估的隨機性遊戲中,AI模型的表現也參差不齊。一些模型能夠很好地處理不確定性,制定出相對穩健的策略;而另一些模型則容易被隨機因素"迷惑",難以做出一致性的決策。這反映了AI在處理現實世界不確定性方面仍有很大改進空間。
九、開源與商業模型的激烈競爭
PUZZLEPLEX的測試結果顯示了開源AI模型與商業模型之間日益激烈的競爭態勢。傳統上,商業模型由於擁有更多資源和數據,通常在各種基準測試中占據優勢地位。但在這個複雜的推理和規劃測試中,開源模型展現出了強大的競爭力。
DeepSeek-R1作為開源模型的代表,在多個維度上的表現都可圈可點,甚至在某些任務上超越了知名的商業模型。這種現象類似於開源軟體領域中Linux與Windows的競爭——開源方案通過社區協作和開放創新,逐漸縮小甚至超越了商業產品的優勢。
這種競爭格局對整個AI行業具有重要意義。它表明,AI能力的提升不再是少數大公司的專利,開源社區同樣能夠產出具有競爭力的成果。這為更廣泛的研究者和開發者參與AI創新提供了可能性,也推動了整個行業的快速發展。
十、發現的局限性與未來挑戰
研究團隊誠實地承認了PUZZLEPLEX平台目前存在的局限性。首先,雖然15種遊戲已經覆蓋了多個認知維度,但相對於人類智能的複雜性來說,這個覆蓋面仍然有限。就像用幾道菜來評判一個廚師的全部技能一樣,可能無法完全反映其真實水平。
其次,由於計算資源和時間限制,研究團隊無法測試所有最新發布的AI模型。AI領域發展極其迅速,幾乎每個月都有新的模型發布,因此任何基準測試的結果都只能反映特定時間點的情況。
另一個值得注意的局限是,PUZZLEPLEX主要測試的是AI的"冷啟動"能力——即在沒有針對性訓練的情況下解決新問題的能力。在實際應用中,AI通常會經過專門的微調和優化,這可能會顯著改變其在特定任務上的表現。
研究團隊還發現,當前的AI模型在多步推理任務中仍然存在一致性問題。有時候,模型在遊戲初期表現出色,但隨著步驟增加,推理質量會逐漸下降。這就像一個人在長跑過程中體力逐漸消耗,後半程的表現可能不如開始時那樣穩定。
十一、對AI發展方向的深刻啟示
PUZZLEPLEX的研究成果對未來AI發展提供了多個重要啟示。首先,它表明專門的推理訓練確實能夠提升AI在複雜任務中的表現,但這種提升主要體現在交互式的問題解決中,而在程序生成等需要精確執行的任務中,效果相對有限。
這個發現提示AI研究者需要在不同類型的能力之間尋找更好的平衡。就像培養全面發展的學生一樣,既要注重理論思維能力,也要重視實踐操作技能。未來的AI系統可能需要整合多種專門化的組件,每個組件負責特定類型的任務。
研究還揭示了測試時計算縮放(test-time compute scaling)的巨大潛力。對於推理模型來說,投入更多的計算資源進行"思考"通常能帶來更好的結果。這為未來AI系統的設計提供了新的思路——也許我們不應該只關注讓AI回答得更快,而應該讓它們"思考"得更深入。
另一個重要啟示是多模態能力整合的複雜性。簡單地將文本和視覺處理能力疊加並不能自動產生更強的綜合能力,真正有效的多模態AI需要各種能力之間的深度融合和協調。
說到底,PUZZLEPLEX項目最大的價值在於為AI能力評估提供了一個全新的視角。它不僅僅是又一個基準測試,更是一面鏡子,讓我們看到當前AI技術的真實水平和未來發展的方向。通過拼圖遊戲這種看似簡單卻內涵豐富的測試方式,研究團隊成功地揭示了AI在推理、規劃和決策方面的複雜能力圖譜。
這項研究表明,AI的發展正在從單純的模型規模競爭轉向能力質量的比拼。開源社區的崛起、專業化訓練的重要性、多模態整合的挑戰性,以及效率與性能之間的權衡,都將成為未來AI發展需要重點關注的方向。對於普通用戶來說,這意味著我們將看到更加智能、更加實用的AI工具,它們不僅能夠進行簡單的對話,還能幫助我們解決複雜的現實問題。
同時,這項研究也提醒我們保持理性的期待。當前的AI雖然在某些方面表現出色,但在複雜推理、長期規劃和不確定性處理方面仍有很大改進空間。真正的通用人工智慧之路依然漫長,但每一項像PUZZLEPLEX這樣的研究都在為我們照亮前進的方向。
Q&A
Q1:PUZZLEPLEX平台是什麼?它與其他AI測試有什麼不同?
A:PUZZLEPLEX是紐約大學團隊開發的AI能力評估平台,使用15種拼圖遊戲來測試AI的推理、規劃和決策能力。與傳統測試不同,它既考查AI的對話式問題解答能力,又測試AI編寫代碼解決問題的能力,就像既要測試理論知識又要考察實踐技能。
Q2:為什麼推理模型在對話中表現好,但編程能力較差?
A:推理模型就像優秀的顧問,能夠清楚地分析問題和給出建議,但將抽象思維轉化為精確的電腦指令是另一種技能。這類似於建築師和施工隊長的區別——善於規劃設計的人未必擅長具體操作,這反映了推理能力和編程能力是兩種不同的認知技能。
Q3:開源AI模型真的能與商業模型競爭嗎?
A:PUZZLEPLEX測試顯示,開源模型如DeepSeek-R1在複雜推理任務中的表現甚至超越了一些知名商業模型,獲得0.62分超過Gemini-2.5-pro的0.58分。這表明AI能力提升不再是大公司專利,開源社區通過協作創新同樣能產出具有競爭力的成果。






