宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

實測 OpenAI 新模型 o1 :做題王者,實戰青銅

2024年09月13日 首頁 » 熱門科技
今天凌晨,,最大的特點是擅長推理。
 
模型的能力,一代比一代強,我們的測評,一次比一次難做。測評變成一件「畢恭畢敬」的事情,生怕提不出好問題(難不倒它),在讓它推理之前,我們自己的腦子就快燒沒了。 
最重要的原因是:我們想知道,被寄予厚望的新一代模型,有沒有應用到實際生活中的推理能力?以及要如何測出這樣的能力? 
秉承著這個想法,我們設計了一套考驗 o1-preview 綜合能力的「考卷」。 
省流版結論如下:它擅長做題、搞研究,更像一個適合待在實驗室的高材生,你現在還不能指望它成為生活里的助手。
熱身:數學與邏輯能力強,速度還不慢
發布會的數據大家看了很多,尤其是新一代 o1 在各項任務上的評分,都有超乎以往的表現。比如 OpenAI 的官方文檔里,特別提到 AIME 數學競賽的考試中,o1 都能取得不錯的表現。 
快速查了一下,這個 AIME 比賽,考題長這樣:
實測 OpenAI 新模型 o1 :做題王者,實戰青銅
原題粘貼過去,看看究竟是怎麼個超強表現。o1-preview 反應很迅速,上手就開始解題了。
實測 OpenAI 新模型 o1 :做題王者,實戰青銅
對比一下官方答案完全正確。反應時間也比預計的快,只是思考過程,並不是默認展開。 
所以除非手動下拉,否則從用戶的觀感上看,它就是自己捲成一團在跑計算,這是個交互設計上面可以提升的地方。 
不過,對比 AIME 官方解答,o1-preview 的回答比較冗長——指望靠 GPT 開掛的中學生朋友,可別指望照抄,要自己思考呀。  
邏輯推理題方面,我們沿用了一些「過往真題」: 
愛麗絲有 4 個兄弟,她還有 1 個姐妹。愛麗絲的兄弟有多少個姐妹? 
你可能會奇怪,這不是很簡單嗎?——答案是 2,加上愛麗絲自己。 
不出意外,o1-preview 很快答對了,甚至沒告訴我思考多久,快到有種「就這?幾秒」的感覺。 
實測 OpenAI 新模型 o1 :做題王者,實戰青銅
不過,今年 6 月,開源 AI 研究機構 LAION 發現,GPT-3.5/4、Claude、Gemini、Llama、Mistral 都沒能答對這類題目,某種程度上連小學生的推理能力都不如。 
實測 OpenAI 新模型 o1 :做題王者,實戰青銅
 直到現在,GPT-4o 也還是答錯了。 
實測 OpenAI 新模型 o1 :做題王者,實戰青銅
可以說,o1-preview 的推理能力的確提高了。 
進階考驗:情景推理慢於GPT-4o,但更準確
接著是測試 LLM 模型的經典必考:海龜湯問題。 
一名男人發現自己少貼了一張郵票,隨後便去世了。請問發生了什麼事? 
海龜湯是一種推理遊戲,出題人給出簡短、模糊的故事背景,由玩家自己主動提問。出題人只會回答「是」和「不是」,然後玩家根據出題人的回答,結合自己的推導,給出故事的真相。 
我給了 o1-preview 五次提問的機會,然後讓 o1-preview 嘗試推理真相。每一次提問,o1-preview 都考慮了十幾秒,層層遞進。 
實測 OpenAI 新模型 o1 :做題王者,實戰青銅
但沒想到,才問了 3 個問題,o1-preview 就迫不及待地給出推理了。 
實測 OpenAI 新模型 o1 :做題王者,實戰青銅
不得不說,非常接近真相。 
這道題的標準答案是,男人寄送定時炸彈給仇人,但因為少貼了郵票,炸彈又被退回,結果一爆炸,炸死了自己。 
o1-preview 的方向是對的,稍顯缺乏了一些準確和完整,少了一些細節,但很接近正確答案。非要挑刺的話,可能是沒有遵循我的提示詞指令提問五次。 
不過,和 AI 玩推理遊戲很有意思,可惜目前新模型的額度有限,o1-preview 每周 30 條,o1-mini 每周 50 條,為了避免浪費寶貴的提問次數,下面的又一道海龜湯題目,我要求 o1-preview 一次性提 8 個問題,然後根據我的回答直接給出答案。 
這次它的表現相當令人驚訝:o1-preview 只思考了 10 秒,提出的問題全部直擊要害,真相呼之欲出。 
實測 OpenAI 新模型 o1 :做題王者,實戰青銅
比較搞笑的地方是,大家可以點開看看 o1-preview 這短短的十秒里都想了什麼——我的同事忍不住吐槽:這 AI 戲也太多了吧。 
實測 OpenAI 新模型 o1 :做題王者,實戰青銅
等我一次性回答「是」和「不是」後,o1-preview 又花了 13 秒給出答案,基本就是標準答案。 
實測 OpenAI 新模型 o1 :做題王者,實戰青銅
以後再玩這種推理遊戲,要嚴防死守有人掏出手機,用 AI 作弊。 
相同的問題給到 GPT-4o,長處是一如既往,夠快,幾乎是實時的,但思維更跳脫。 
實測 OpenAI 新模型 o1 :做題王者,實戰青銅
答案嘛,稍微有偏離,而且看上去對自己的答案不是很自信的樣子。 
壓軸大題:自作主張教人剁手,上得廳堂下不了廚房
普通用戶最關心的,肯定不是新模型的「卷面能力」,誰閒著沒事兒會突發奇想,打開手機算個雞兔同籠啊? 
比「卷面能力」更有用的,是處理生活實際問題,而且不是應用題,是正經八百生活中會碰到的計算問題。 
眼下,多地都在派發電子消費補貼,國家對各類消費電子產品,最高可以補貼 2000元。

 

實測 OpenAI 新模型 o1 :做題王者,實戰青銅

 

官方發布很簡單,但實際用起來就不是了。只能以舊換新?有什麼地址限制?哪裡領券?有沒有最低消費? 
來,讓 o1-preview 過來幫我算一下,到底可以薅到多少羊毛。 
比較遺憾的是,o1-preview 的知識庫截止到去年十月,對新政策沒辦法實時反應。
實測 OpenAI 新模型 o1 :做題王者,實戰青銅
行吧,那就先手動錄入一下,在輸入廣東省官方給的細節之後,它反應速度非常快,直接「自作主張」地把各種常見優惠都算進去了。
但都是「假設」,做不得數。在搜集了一些實際優惠政策之後,我們手動錄入 prompt: 
我需要買一台新電腦,現在有一萬左右的預算,想買一台最新款的 MacBook Air。現在京東有優惠活動。條件如下:
2.蘋果自己有滿 7000 減 1400 元的優惠
3.蘋果電腦可以以舊換新,但需要根據舊機品相定價。詳細的品相資訊已經列在下面

 

實測 OpenAI 新模型 o1 :做題王者,實戰青銅

 

因為不能瀏覽網頁,它自己設定價格為 9499 元,但不一定反映出實際上電商的掛牌價。
另外則是舊機價格的判斷,京東給出的報價是 3300 元。
實測 OpenAI 新模型 o1 :做題王者,實戰青銅
京東估價
同樣的舊機,多跑幾次提示詞,每次 o1-preview 都會給不同的報價,僅供參考,其中 3400 元是和京東報價最接近的一次。

 

實測 OpenAI 新模型 o1 :做題王者,實戰青銅

 

o1-preview 估價
更關鍵的是,這些寫在提示詞裡的資訊都要我們自己去找和整理,AI 沒能節省多少時間。
買東西時算優惠價,就是日常生活里最實際的數學場景了,誰能忘記被雙十一支配的恐懼。 
而且算優惠的難點在於更廣泛的推理:單純的加減,犯不著找一個 AI 來做,電商平台自己會幫用戶算好,購物車裡一勾就是了。 
真正燒腦的,就是「規劃」一個最優惠的路線,這涉及到很多問題: 
同一時期哪家電商在做優惠?用戶是否具備參與優惠活動的資格?外部補貼的能否作用在這家電商?例如這次的國家補貼,是要看用戶領取資格的,在京東用了就不能在天貓用。 
甚至,一些線下店也參與補貼活動,但是前提是在線上領取之後線下使用。 
說實話,這種繁瑣場景特別需要一個助理,可需要的是一個腦筋靈活的真·智能助手,而不是一個僵板的做題家。
「考試」總結:做題雖好,仍要走入現實
不管是我們自己做的測評,還是許多網友都已經有的測評,甚至包括官方的演示文檔,都有非常強烈的「做題」感。
做數學題、做閱讀理解題、做填空題。
這世界還是變成了大家想要的樣子:新的模型降臨人間,第一件事是做題。
做題當然是很好的摸底模型能力的方式,然而做題的毛病也非常明顯:很真空,不知道這麼強的做題能力,到底有什麽用。
甚至在自媒體賽博禪心的技術面測評中,API 埠的表現也非常差強人意,進一步限制了實際應用。他認為這次更新,比較像是工程上的優化,而非底層能力的疊代。
像極了專四專六級考高分,出國卻依然寸步難行、開不了口的我(不是)。
實測 OpenAI 新模型 o1 :做題王者,實戰青銅
老實說,這是一個用戶預期的問題,切記:OpenAI 眼中的推理,並不只是計算能力。
計算的確是「推理」里重要的一部分,但不是全部,尤其是當談到真正介入實際應用的推理能力,計算就僅僅是非常小的一部分。
這也是為什麼在這次的官方文檔里,有一個小節在解釋「思維鏈」:通過模擬人類的思維過程,幫助模型逐步分解複雜問題。
這項能力的提升,在 o1-preview 應對數學和推理題的過程中,都得到了體現。
只是,要說它能全面模仿人類的思維過程,暫時還稱不上:人類不僅會拆分步驟來思考,更會綜合性、全局性的來思考。
走向 AGI 的道路,已有曙光,但仍然漫長。
宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新