不管是我們自己做的測評,還是許多網友都已經有的測評,甚至包括官方的演示文檔,都有非常強烈的「做題」感。
做數學題、做閱讀理解題、做填空題。
這世界還是變成了大家想要的樣子:新的模型降臨人間,第一件事是做題。
做題當然是很好的摸底模型能力的方式,然而做題的毛病也非常明顯:很真空,不知道這麼強的做題能力,到底有什麽用。
甚至在自媒體賽博禪心的技術面測評中,API 埠的表現也非常差強人意,進一步限制了實際應用。他認為這次更新,比較像是工程上的優化,而非底層能力的疊代。
像極了專四專六級考高分,出國卻依然寸步難行、開不了口的我(不是)。
老實說,這是一個用戶預期的問題,切記:OpenAI 眼中的推理,並不只是計算能力。
計算的確是「推理」里重要的一部分,但不是全部,尤其是當談到真正介入實際應用的推理能力,計算就僅僅是非常小的一部分。
這也是為什麼在這次的官方文檔里,有一個小節在解釋「思維鏈」:通過模擬人類的思維過程,幫助模型逐步分解複雜問題。
這項能力的提升,在 o1-preview 應對數學和推理題的過程中,都得到了體現。
只是,要說它能全面模仿人類的思維過程,暫時還稱不上:人類不僅會拆分步驟來思考,更會綜合性、全局性的來思考。