宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

體驗再次刷屏的ChatGPT:還會算錯題,但邏輯更強了

2023年03月16日 首頁 » 熱門科技

ChatGPT 又刷屏了!

萬眾期待的 GPT-4 語言模型在今天凌晨突然發布,OpenAI 稱它為「最先進的系統,能生產更安全和更有用的回覆」。

我們第一時間為大家匯總了 GPT-4 更新的主要內容,簡單來說就是:

  • 1邏輯分析能力更加全面、「考試」能力大幅提升
  • 2擁有了識圖能力,可以進行更多元的交流
  • 3回答更有條理,理解更加準確
  • 4創作力大幅提升,可以進行更全面的創作雙擊編輯塊引用內容

更重要的是,OpenAI 可不是「畫大餅」,ChatGPT Plus 用戶現在已經能夠使用 GPT-4 模型,體驗除圖片輸入(仍是研究預覽版本,尚未公開)外的功能。

上一個版本 ChatGPT(使用 GPT 3.5 turbo 模型,以下為閱讀方便簡稱為 GPT 3.5)讓創作者們感受到職業危機了,升級到 GPT-4 後能真的取代人類工作嗎?

讓我們用親身體驗告訴你。

10  提問,讓你全面了解全新 ChatGPT

先來給出結論,從實際體驗來看,GPT-4 的回答邏輯更清晰,內容也更優質,減少了反覆提問,但反應速度會慢一些。

如果你是 ChatGPT Plus 用戶,進入後就可以在頁面頂部看到模型選擇的按鈕,OpenAI 也用能力表直觀的展示了兩者的區別:GPT-3.5 的速度更快,GPT-4 的推理更出色,語句也更精煉。

體驗再次刷屏的ChatGPT:還會算錯題,但邏輯更強了
GPT-3.5

體驗再次刷屏的ChatGPT:還會算錯題,但邏輯更強了
GPT-4.0

ChatGPT,會讀圖的加州司機

GPT-4 最瘋狂的地方在於,它幾乎通過了所有理論考試,而且全是幾乎滿分通過。

體驗再次刷屏的ChatGPT:還會算錯題,但邏輯更強了
圖/OpenAI

對此我們也進行了測試,找到了 20 道高級調酒師題庫中的問題和 16 道加州駕照考試題目,分別詢問 GPT-3.5 和 GPT-4。

先公布答案,20 道調酒師題目中,GPT-3.5 錯了 4 題(正確率 80%),GPT-4 錯了 1 題(正確率 95%)。

而 16 道加州駕照考核中,GPT-3.5 同樣錯了 4 道題(正確率 75%),GPT-4 則滿分通過(正確率 100%)。如果僅憑理論就能上路,那 GPT-4 一定是一名好司機。

體驗再次刷屏的ChatGPT:還會算錯題,但邏輯更強了
GPT4.0 的「試卷」

此外我們還測試了大學英語六級、二級建築師等考試項目,GPT-4 和 GPT-3.5 的成績都不錯,但前者總是比後者多對幾道。

要注意的是,雖然 GPT-4 的綜合準確率高於 GPT-3.5,但在回答客觀選擇題時,兩者均會出現多次回答相同問題,但答案卻不同的情況,如果你想用 ChatGPT 檢查考卷,它或許不是一個合格的老師。

體驗再次刷屏的ChatGPT:還會算錯題,但邏輯更強了

不過 GPT-4 在回答時多了一些提示,告訴你這些答案不一定全對,而不是像 GPT-3.5 那樣理直氣壯的給你錯誤答案。

體驗再次刷屏的ChatGPT:還會算錯題,但邏輯更強了
GPT-4.0 會有免責聲明

在 ChatGPT 剛推出時,有不少人用它「刷題跑分」,上版本的它只能在 SAT(美國聯考)考試中排到倒數 10%,但 CPT-4 模型則可以超過 90% 的考生水平,「在多種專業和學術指標下展現了人類水平的表現」。如果光是「跑分」,ChatGPT-4 可以考進哈佛、斯坦福。

全新的 GPT-4 還擁有了新能力:讀圖。

你可以給它看一張梗圖,讓它分析其中的笑點。

體驗再次刷屏的ChatGPT:還會算錯題,但邏輯更強了
GPT-4

可以給它一張表格,進行數據分析,並展示推導過程。

體驗再次刷屏的ChatGPT:還會算錯題,但邏輯更強了
GPT-4

甚至還有用戶給 GPT-4 看了自家冰箱裡有什麼菜,然後讓它提供菜譜。

體驗再次刷屏的ChatGPT:還會算錯題,但邏輯更強了
來自推特用戶@ GauravDungriyal

不過這一功能暫時還沒有進入公開測試階段,等更新後我們會在第一時間體驗分享的。

日常溝通,GPT-4 更有條理

剛上手 GPT-4 時,我與它閒聊了幾句,在問「你是誰」時,雖然 GPT-3.5 和 GPT-4 給出的回答類似,但 GPT-4 的說法會更像一個朋友。

體驗再次刷屏的ChatGPT:還會算錯題,但邏輯更強了
GPT-3.5

體驗再次刷屏的ChatGPT:還會算錯題,但邏輯更強了
GPT-4.0

我也和它聊了一些其他問題,比如「1 1 在什麼情況下等於 3」,GPT-4 不僅進行了解讀,還把 GPT-3.5 中未說明的隱喻進行了解釋(生育問題),它似乎更懂人類了。

體驗再次刷屏的ChatGPT:還會算錯題,但邏輯更強了
GPT-3.5

體驗再次刷屏的ChatGPT:還會算錯題,但邏輯更強了
GPT-4.0

讀文章的能力上,GPT-4 的表現也要優於 GPT-3.5,不僅對文章內容進行了總結,還對重點進行了梳理,讓總結擁有了更高的可讀性。

利用 GPT-4 超強的總結能力,我們可以實現傳說中的「量子速讀」。

體驗再次刷屏的ChatGPT:還會算錯題,但邏輯更強了
GPT-3.5

體驗再次刷屏的ChatGPT:還會算錯題,但邏輯更強了
GPT-4.0

前兩年尼爾·史蒂芬森的科幻小說《雪崩》因為元宇宙的概念而大火,我們試著用 GPT 3.5 來總結這部「元宇宙聖經」。

體驗再次刷屏的ChatGPT:還會算錯題,但邏輯更強了
GPT-3.5

GPT 3.5 總結得只能說中規中矩,基本概述了《雪崩》的主要內容和中心思想,但表達地比較籠統,看起來就像是豆瓣里的簡介。

我們再用 GPT-4 來總結,對比下來可以看到,GPT-4 的回答要更加細緻一點,並且在講到《雪崩》的主題以及作品影響時,會提到具體的風格和領域,看起來不那麼像「套話」。

即便你從未讀過《雪崩》這本書,也應該能大致了解到其中的故事情節和文學意義。

體驗再次刷屏的ChatGPT:還會算錯題,但邏輯更強了
GPT-4

這裡說一個有趣的小插曲,此前尼爾·史蒂芬森在接受一個電台採訪時曾提到了他對 ChatGPT 等 AI 的看法。

他認為 ChatGPT 只會生成安全、中立的內容,缺乏創造力和深度,雖然它能解決某些問題,但它的思考和創新能力無法達到人類的水平。

由於 ChatGPT 沒有有趣和獨特的觀點,尼爾·史蒂芬森認為它不可能寫出像《雪崩》這樣的小說。

為了驗證他的觀點,我讓 GPT-4 根據《雪崩》仿寫了一篇小說,看看升級過後的 AI 創作能否跟上人類的水平。

體驗再次刷屏的ChatGPT:還會算錯題,但邏輯更強了
GPT-4

體驗再次刷屏的ChatGPT:還會算錯題,但邏輯更強了
滿分 10 分,你會給這部《數據風暴》打幾分呢?

體驗到這裡,GPT-4 比 GPT-3.5 更會聊天這件事已經毋庸置疑了,但我還想進行最後一個測試:騙它提供不符合道德、法律或有害的內容。

當我詢問如何製作安眠藥時,GPT-3.5 和 GPT-4 均拒絕了我的請求,並提出了一些建議,但正如你所見,GPT-4 的建議更加系統全面。

體驗再次刷屏的ChatGPT:還會算錯題,但邏輯更強了
GPT-3.5

體驗再次刷屏的ChatGPT:還會算錯題,但邏輯更強了
GPT-4.0

更強的創作力,GPT-4 的笑話更有趣

在 ChatGPT 剛推出時,我曾經讓它扮演脫口秀演員,講了一段關於加班的故事。不得不說,它講得真不怎麼樣。

體驗再次刷屏的ChatGPT:還會算錯題,但邏輯更強了
GPT-3.5

看著它的故事,我腦海中甚至浮現出了一個脫口秀演員,說著如同加班到凌晨購買的咖啡一般、苦澀又冷的笑話,這或許可以給演員一些創作靈感,但距離令人捧腹的幽默還有很遠。

升級到 GPT-4 後,我再次嘗試用它創作關於加班的故事,或許是上次的內容太過枯燥,這次的故事真的讓我笑出了聲。

體驗再次刷屏的ChatGPT:還會算錯題,但邏輯更強了
GPT-4

「加班>回家少>媽媽不認識」,「加班多>孩子應該學習加班>加班成為學校必修課」,GPT-4 創作的內容更加符合笑話的邏輯,而 GPT-3.5「因為加班所以更加了解咖啡口感」的故事,只讓人覺著苦澀。

還是會算錯題,但邏輯更強了

除了止於 2021 年的知識庫,ChatGPT 還有一個弱點,那就是不會算數,如果你想用它來檢查計算題,那你大概率要失望而歸了。

體驗再次刷屏的ChatGPT:還會算錯題,但邏輯更強了
正確答案應該是 34646751912

不過,GPT-4 的邏輯能力得到了進一步提升,使用 GPT-3.5 詢問邏輯問題時,它只會給我標準答案和簡易的推導過程。

體驗再次刷屏的ChatGPT:還會算錯題,但邏輯更強了
GPT-3.5

但當我使用 GPT-4 詢問相同問題時,它展示的推導過程更加全面、專業。

體驗再次刷屏的ChatGPT:還會算錯題,但邏輯更強了
GPT-4

GPT-4 的提升不僅在解答邏輯問題上,它的語義理解也更強了。比如「小明一把把把把住了」這句話,GPT-3.5 是無法理解含義的。

體驗再次刷屏的ChatGPT:還會算錯題,但邏輯更強了
GPT-4

但最新的 GPT-4 就可以看明白,並解釋清楚(雖然邏輯上還是有些小問題)。

體驗再次刷屏的ChatGPT:還會算錯題,但邏輯更強了
GPT-4

GPT 在幫我們做什麼?

上面這些體驗雖然已經讓我們足夠驚嘆,但 GPT-3.5、GPT-4 能做到的遠不止這些,在官網,OpenAI 展示了 GPT 正在改變世界的地方。

英語學習軟體 Duolingo(多鄰國)正在轉向 GPT-4,用來推進 Role Play(角色扮演)和 an AI conversation partner(人工智慧對話夥伴)的功能,讓用戶可以更加遊戲化的學習外語,更加身臨其境。

體驗再次刷屏的ChatGPT:還會算錯題,但邏輯更強了
圖/Duolingo

來自丹麥的 Be My Eyes,利用 GPT-4 的視覺輸入能力,在 app 中加入了虛擬志願者 TM,可以生成與人類志願者幾乎相同的內容,幫助視力低下或盲人完成數百項日常生活任務。

遊戲開發公司 Inword,利用 GPT-3.5 作為機器學習模型之一,去構建 NPC 的情感、記憶、行為,讓 NPC 變得有個性。這對資源有限的初創公司來說既節約時間,又經濟實用。

體驗再次刷屏的ChatGPT:還會算錯題,但邏輯更強了

這些應用中最酷的還是冰島政府,擁有蓬勃旅遊業和技術產業的冰島,因與美國、歐洲的融合,導致本國母語冰島語面臨消失的風險。如今,冰島政府正與 OpenAI 合作,使用 GPT-4 來保護冰島魚,將對冰島語的保護,變成了技術創新。

OpenAI 的 GPT 模型是針對網際網路中大量模型進行訓練的,所以像冰島語等小語種並沒有足夠的深度。GPT-3.5 沒有生成語法正確的冰島語的能力,但 GPT-4 已經可以讓冰島公司擁有用冰島語聊天的機器人了。

體驗再次刷屏的ChatGPT:還會算錯題,但邏輯更強了
Miðeind 的人工智慧研究人員團隊一直在研究冰島語的 GPT-4 培訓

在哪體驗?

目前體驗 GPT-4 最方便的方式就是將你的 ChatGPT 帳號升級成 ChatGPT Plus,然後切換成 GPT-4 模型就能直接使用。

那麼問題來了,如果你不想交 ChatGPT Plus 每月 20 美元的訂閱費,有沒有免費的方式可以體驗呢?

還真的有,那就是新 Bing!

雖然 GPT-4 才剛剛發布,但微軟消費營銷主管 Yusuf Mehdi 表示,Bing 其實一直都在悄悄使用為搜索定製的 GPT-4,如果你通過了新 Bing 的申請,就可以直接在 Bing 搜尋引擎或者 Edge 瀏覽器中體驗到最新的語言模型了。

這也解釋了,為什麼在一些對比測試中 Bing 總是會比老版本的 ChatGPT 表現得更「聰明」。

寫在最後

一番體驗過後,GPT-4 給我的感覺就像是一個剛出校園的毛頭小子換上了西裝,突然間變得成熟穩重了起來。

此前,大家對 GPT 3.5 版本的 ChatGPT 詬病最多的就是它總是會一本正經地胡說八道。

升級到 GPT-4 模型後,雖然它也會回答錯一些問題,但在態度上已經沒有過去那般強硬,在一些拿不準的問題上,它會詢問提問者意見,並讓提問者注意甄別真偽。這些語氣上的細微變化,足以讓人感受到它變得更加可靠。

而在 AI 領域,可靠性就是絕對的競爭力。

OpenAI 這一次並沒有像過去那樣大肆宣傳 GPT-4 模型的具體大小,與之相反的是,它現在更像要故意隱藏 GPT-4 的技術資訊。

GPT-2 模型有 15 億個參數,表現更好 GPT-3 有 1750 億個參數,比它的前任大 100 多倍。

那麼多模態的 GPT-4 模型比 GPT-3 大多少呢?只有 OpenAI 知道。從發布的資訊來看,OpenAI 似乎已經不屑於與外界做技術交流,因為它們已經做到了在這領域實現領先。

從目前 GPT-4 的表現來看,它可能是迄今為止最好的多模態模型,在短期內難有對手能將之超越。

就在今天,Google 也公布了一系列與 AI 有關的更新,你可以在 Google Docs 上實現自動排版和自動寫郵件。 但從人們的反應來看,好像沒有人在乎。GPT-4 的光芒幾乎掩蓋掉所有對手的努力。

如果未來人們只會選擇最可靠的 AI 作為生產工具,那麼就會形成一個很有意思的現象:越多人使用 GPT-4,它的學習機會就越多,成長得越快,變得更加可靠,最終會讓更多人使用它。

這是 Google、Meta 和百度等競爭對手可能遇見的最壞情況。AI 對大數據學習的依賴讓人為的努力失去了意義,最終,AI 模型領域可能會形成難以打破的壟斷。

Sam Altman 在創立 OpenAI 時有一個美好的願景:通過人工智慧造福全人類。他認為 AI 可以賦予每個人不可思議的新能力,放大每個人的聰明才智和創造力。

這很美好,但如果驅動這一變革的只是一家公司的話,整件事情將變得非常可怕。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新