ChatGPT 又刷屏了!
萬眾期待的 GPT-4 語言模型在今天凌晨突然發布,OpenAI 稱它為「最先進的系統,能生產更安全和更有用的回覆」。
我們第一時間為大家匯總了 GPT-4 更新的主要內容,簡單來說就是:
- 1邏輯分析能力更加全面、「考試」能力大幅提升
- 2擁有了識圖能力,可以進行更多元的交流
- 3回答更有條理,理解更加準確
- 4創作力大幅提升,可以進行更全面的創作雙擊編輯塊引用內容
更重要的是,OpenAI 可不是「畫大餅」,ChatGPT Plus 用戶現在已經能夠使用 GPT-4 模型,體驗除圖片輸入(仍是研究預覽版本,尚未公開)外的功能。
上一個版本 ChatGPT(使用 GPT 3.5 turbo 模型,以下為閱讀方便簡稱為 GPT 3.5)讓創作者們感受到職業危機了,升級到 GPT-4 後能真的取代人類工作嗎?
讓我們用親身體驗告訴你。
10 提問,讓你全面了解全新 ChatGPT
先來給出結論,從實際體驗來看,GPT-4 的回答邏輯更清晰,內容也更優質,減少了反覆提問,但反應速度會慢一些。
如果你是 ChatGPT Plus 用戶,進入後就可以在頁面頂部看到模型選擇的按鈕,OpenAI 也用能力表直觀的展示了兩者的區別:GPT-3.5 的速度更快,GPT-4 的推理更出色,語句也更精煉。
ChatGPT,會讀圖的加州司機
GPT-4 最瘋狂的地方在於,它幾乎通過了所有理論考試,而且全是幾乎滿分通過。
對此我們也進行了測試,找到了 20 道高級調酒師題庫中的問題和 16 道加州駕照考試題目,分別詢問 GPT-3.5 和 GPT-4。
先公布答案,20 道調酒師題目中,GPT-3.5 錯了 4 題(正確率 80%),GPT-4 錯了 1 題(正確率 95%)。
而 16 道加州駕照考核中,GPT-3.5 同樣錯了 4 道題(正確率 75%),GPT-4 則滿分通過(正確率 100%)。如果僅憑理論就能上路,那 GPT-4 一定是一名好司機。
此外我們還測試了大學英語六級、二級建築師等考試項目,GPT-4 和 GPT-3.5 的成績都不錯,但前者總是比後者多對幾道。
要注意的是,雖然 GPT-4 的綜合準確率高於 GPT-3.5,但在回答客觀選擇題時,兩者均會出現多次回答相同問題,但答案卻不同的情況,如果你想用 ChatGPT 檢查考卷,它或許不是一個合格的老師。
不過 GPT-4 在回答時多了一些提示,告訴你這些答案不一定全對,而不是像 GPT-3.5 那樣理直氣壯的給你錯誤答案。
在 ChatGPT 剛推出時,有不少人用它「刷題跑分」,上版本的它只能在 SAT(美國聯考)考試中排到倒數 10%,但 CPT-4 模型則可以超過 90% 的考生水平,「在多種專業和學術指標下展現了人類水平的表現」。如果光是「跑分」,ChatGPT-4 可以考進哈佛、斯坦福。
全新的 GPT-4 還擁有了新能力:讀圖。
你可以給它看一張梗圖,讓它分析其中的笑點。
可以給它一張表格,進行數據分析,並展示推導過程。
甚至還有用戶給 GPT-4 看了自家冰箱裡有什麼菜,然後讓它提供菜譜。
不過這一功能暫時還沒有進入公開測試階段,等更新後我們會在第一時間體驗分享的。
日常溝通,GPT-4 更有條理
剛上手 GPT-4 時,我與它閒聊了幾句,在問「你是誰」時,雖然 GPT-3.5 和 GPT-4 給出的回答類似,但 GPT-4 的說法會更像一個朋友。
我也和它聊了一些其他問題,比如「1 1 在什麼情況下等於 3」,GPT-4 不僅進行了解讀,還把 GPT-3.5 中未說明的隱喻進行了解釋(生育問題),它似乎更懂人類了。
讀文章的能力上,GPT-4 的表現也要優於 GPT-3.5,不僅對文章內容進行了總結,還對重點進行了梳理,讓總結擁有了更高的可讀性。
利用 GPT-4 超強的總結能力,我們可以實現傳說中的「量子速讀」。
前兩年尼爾·史蒂芬森的科幻小說《雪崩》因為元宇宙的概念而大火,我們試著用 GPT 3.5 來總結這部「元宇宙聖經」。
GPT 3.5 總結得只能說中規中矩,基本概述了《雪崩》的主要內容和中心思想,但表達地比較籠統,看起來就像是豆瓣里的簡介。
我們再用 GPT-4 來總結,對比下來可以看到,GPT-4 的回答要更加細緻一點,並且在講到《雪崩》的主題以及作品影響時,會提到具體的風格和領域,看起來不那麼像「套話」。
即便你從未讀過《雪崩》這本書,也應該能大致了解到其中的故事情節和文學意義。
這裡說一個有趣的小插曲,此前尼爾·史蒂芬森在接受一個電台採訪時曾提到了他對 ChatGPT 等 AI 的看法。
他認為 ChatGPT 只會生成安全、中立的內容,缺乏創造力和深度,雖然它能解決某些問題,但它的思考和創新能力無法達到人類的水平。
由於 ChatGPT 沒有有趣和獨特的觀點,尼爾·史蒂芬森認為它不可能寫出像《雪崩》這樣的小說。
為了驗證他的觀點,我讓 GPT-4 根據《雪崩》仿寫了一篇小說,看看升級過後的 AI 創作能否跟上人類的水平。
體驗到這裡,GPT-4 比 GPT-3.5 更會聊天這件事已經毋庸置疑了,但我還想進行最後一個測試:騙它提供不符合道德、法律或有害的內容。
當我詢問如何製作安眠藥時,GPT-3.5 和 GPT-4 均拒絕了我的請求,並提出了一些建議,但正如你所見,GPT-4 的建議更加系統全面。
更強的創作力,GPT-4 的笑話更有趣
在 ChatGPT 剛推出時,我曾經讓它扮演脫口秀演員,講了一段關於加班的故事。不得不說,它講得真不怎麼樣。
看著它的故事,我腦海中甚至浮現出了一個脫口秀演員,說著如同加班到凌晨購買的咖啡一般、苦澀又冷的笑話,這或許可以給演員一些創作靈感,但距離令人捧腹的幽默還有很遠。
升級到 GPT-4 後,我再次嘗試用它創作關於加班的故事,或許是上次的內容太過枯燥,這次的故事真的讓我笑出了聲。
「加班>回家少>媽媽不認識」,「加班多>孩子應該學習加班>加班成為學校必修課」,GPT-4 創作的內容更加符合笑話的邏輯,而 GPT-3.5「因為加班所以更加了解咖啡口感」的故事,只讓人覺著苦澀。
還是會算錯題,但邏輯更強了
除了止於 2021 年的知識庫,ChatGPT 還有一個弱點,那就是不會算數,如果你想用它來檢查計算題,那你大概率要失望而歸了。
不過,GPT-4 的邏輯能力得到了進一步提升,使用 GPT-3.5 詢問邏輯問題時,它只會給我標準答案和簡易的推導過程。
但當我使用 GPT-4 詢問相同問題時,它展示的推導過程更加全面、專業。
GPT-4 的提升不僅在解答邏輯問題上,它的語義理解也更強了。比如「小明一把把把把住了」這句話,GPT-3.5 是無法理解含義的。
但最新的 GPT-4 就可以看明白,並解釋清楚(雖然邏輯上還是有些小問題)。
GPT 在幫我們做什麼?
上面這些體驗雖然已經讓我們足夠驚嘆,但 GPT-3.5、GPT-4 能做到的遠不止這些,在官網,OpenAI 展示了 GPT 正在改變世界的地方。
英語學習軟體 Duolingo(多鄰國)正在轉向 GPT-4,用來推進 Role Play(角色扮演)和 an AI conversation partner(人工智慧對話夥伴)的功能,讓用戶可以更加遊戲化的學習外語,更加身臨其境。
來自丹麥的 Be My Eyes,利用 GPT-4 的視覺輸入能力,在 app 中加入了虛擬志願者 TM,可以生成與人類志願者幾乎相同的內容,幫助視力低下或盲人完成數百項日常生活任務。
遊戲開發公司 Inword,利用 GPT-3.5 作為機器學習模型之一,去構建 NPC 的情感、記憶、行為,讓 NPC 變得有個性。這對資源有限的初創公司來說既節約時間,又經濟實用。
這些應用中最酷的還是冰島政府,擁有蓬勃旅遊業和技術產業的冰島,因與美國、歐洲的融合,導致本國母語冰島語面臨消失的風險。如今,冰島政府正與 OpenAI 合作,使用 GPT-4 來保護冰島魚,將對冰島語的保護,變成了技術創新。
OpenAI 的 GPT 模型是針對網際網路中大量模型進行訓練的,所以像冰島語等小語種並沒有足夠的深度。GPT-3.5 沒有生成語法正確的冰島語的能力,但 GPT-4 已經可以讓冰島公司擁有用冰島語聊天的機器人了。
在哪體驗?
目前體驗 GPT-4 最方便的方式就是將你的 ChatGPT 帳號升級成 ChatGPT Plus,然後切換成 GPT-4 模型就能直接使用。
那麼問題來了,如果你不想交 ChatGPT Plus 每月 20 美元的訂閱費,有沒有免費的方式可以體驗呢?
還真的有,那就是新 Bing!
雖然 GPT-4 才剛剛發布,但微軟消費營銷主管 Yusuf Mehdi 表示,Bing 其實一直都在悄悄使用為搜索定製的 GPT-4,如果你通過了新 Bing 的申請,就可以直接在 Bing 搜尋引擎或者 Edge 瀏覽器中體驗到最新的語言模型了。
這也解釋了,為什麼在一些對比測試中 Bing 總是會比老版本的 ChatGPT 表現得更「聰明」。
寫在最後
一番體驗過後,GPT-4 給我的感覺就像是一個剛出校園的毛頭小子換上了西裝,突然間變得成熟穩重了起來。
此前,大家對 GPT 3.5 版本的 ChatGPT 詬病最多的就是它總是會一本正經地胡說八道。
升級到 GPT-4 模型後,雖然它也會回答錯一些問題,但在態度上已經沒有過去那般強硬,在一些拿不準的問題上,它會詢問提問者意見,並讓提問者注意甄別真偽。這些語氣上的細微變化,足以讓人感受到它變得更加可靠。
而在 AI 領域,可靠性就是絕對的競爭力。
OpenAI 這一次並沒有像過去那樣大肆宣傳 GPT-4 模型的具體大小,與之相反的是,它現在更像要故意隱藏 GPT-4 的技術資訊。
GPT-2 模型有 15 億個參數,表現更好 GPT-3 有 1750 億個參數,比它的前任大 100 多倍。
那麼多模態的 GPT-4 模型比 GPT-3 大多少呢?只有 OpenAI 知道。從發布的資訊來看,OpenAI 似乎已經不屑於與外界做技術交流,因為它們已經做到了在這領域實現領先。
從目前 GPT-4 的表現來看,它可能是迄今為止最好的多模態模型,在短期內難有對手能將之超越。
就在今天,Google 也公布了一系列與 AI 有關的更新,你可以在 Google Docs 上實現自動排版和自動寫郵件。 但從人們的反應來看,好像沒有人在乎。GPT-4 的光芒幾乎掩蓋掉所有對手的努力。
如果未來人們只會選擇最可靠的 AI 作為生產工具,那麼就會形成一個很有意思的現象:越多人使用 GPT-4,它的學習機會就越多,成長得越快,變得更加可靠,最終會讓更多人使用它。
這是 Google、Meta 和百度等競爭對手可能遇見的最壞情況。AI 對大數據學習的依賴讓人為的努力失去了意義,最終,AI 模型領域可能會形成難以打破的壟斷。
Sam Altman 在創立 OpenAI 時有一個美好的願景:通過人工智慧造福全人類。他認為 AI 可以賦予每個人不可思議的新能力,放大每個人的聰明才智和創造力。
這很美好,但如果驅動這一變革的只是一家公司的話,整件事情將變得非常可怕。