體驗再次刷屏的ChatGPT：還會算錯題，但邏輯更強了

ChatGPT 又刷屏了！

萬眾期待的 GPT-4 語言模型在今天凌晨突然發布，OpenAI 稱它為「最先進的系統，能生產更安全和更有用的回覆」。

贊助商廣告

我們第一時間為大家匯總了 GPT-4 更新的主要內容，簡單來說就是：

1邏輯分析能力更加全面、「考試」能力大幅提升
2擁有了識圖能力，可以進行更多元的交流
3回答更有條理，理解更加準確
4創作力大幅提升，可以進行更全面的創作雙擊編輯塊引用內容

更重要的是，OpenAI 可不是「畫大餅」，ChatGPT Plus 用戶現在已經能夠使用 GPT-4 模型，體驗除圖片輸入（仍是研究預覽版本，尚未公開）外的功能。

上一個版本 ChatGPT（使用 GPT 3.5 turbo 模型，以下為閱讀方便簡稱為 GPT 3.5）讓創作者們感受到職業危機了，升級到 GPT-4 後能真的取代人類工作嗎？

讓我們用親身體驗告訴你。

10 提問，讓你全面了解全新 ChatGPT

先來給出結論，從實際體驗來看，GPT-4 的回答邏輯更清晰，內容也更優質，減少了反覆提問，但反應速度會慢一些。

如果你是 ChatGPT Plus 用戶，進入後就可以在頁面頂部看到模型選擇的按鈕，OpenAI 也用能力表直觀的展示了兩者的區別：GPT-3.5 的速度更快，GPT-4 的推理更出色，語句也更精煉。

GPT-3.5

GPT-4.0

ChatGPT，會讀圖的加州司機

GPT-4 最瘋狂的地方在於，它幾乎通過了所有理論考試，而且全是幾乎滿分通過。

贊助商廣告圖/OpenAI

對此我們也進行了測試，找到了 20 道高級調酒師題庫中的問題和 16 道加州駕照考試題目，分別詢問 GPT-3.5 和 GPT-4。

先公布答案，20 道調酒師題目中，GPT-3.5 錯了 4 題（正確率 80%），GPT-4 錯了 1 題（正確率 95%）。

而 16 道加州駕照考核中，GPT-3.5 同樣錯了 4 道題（正確率 75%），GPT-4 則滿分通過（正確率 100%）。如果僅憑理論就能上路，那 GPT-4 一定是一名好司機。

GPT4.0 的「試卷」

此外我們還測試了大學英語六級、二級建築師等考試項目，GPT-4 和 GPT-3.5 的成績都不錯，但前者總是比後者多對幾道。

要注意的是，雖然 GPT-4 的綜合準確率高於 GPT-3.5，但在回答客觀選擇題時，兩者均會出現多次回答相同問題，但答案卻不同的情況，如果你想用 ChatGPT 檢查考卷，它或許不是一個合格的老師。

不過 GPT-4 在回答時多了一些提示，告訴你這些答案不一定全對，而不是像 GPT-3.5 那樣理直氣壯的給你錯誤答案。

贊助商廣告GPT-4.0 會有免責聲明

在 ChatGPT 剛推出時，有不少人用它「刷題跑分」，上版本的它只能在 SAT（美國聯考）考試中排到倒數 10%，但 CPT-4 模型則可以超過 90% 的考生水平，「在多種專業和學術指標下展現了人類水平的表現」。如果光是「跑分」，ChatGPT-4 可以考進哈佛、斯坦福。

全新的 GPT-4 還擁有了新能力：讀圖。

你可以給它看一張梗圖，讓它分析其中的笑點。

GPT-4

可以給它一張表格，進行數據分析，並展示推導過程。

GPT-4

甚至還有用戶給 GPT-4 看了自家冰箱裡有什麼菜，然後讓它提供菜譜。

贊助商廣告來自推特用戶@ GauravDungriyal

不過這一功能暫時還沒有進入公開測試階段，等更新後我們會在第一時間體驗分享的。

日常溝通，GPT-4 更有條理

剛上手 GPT-4 時，我與它閒聊了幾句，在問「你是誰」時，雖然 GPT-3.5 和 GPT-4 給出的回答類似，但 GPT-4 的說法會更像一個朋友。

GPT-3.5

GPT-4.0

我也和它聊了一些其他問題，比如「1 1 在什麼情況下等於 3」，GPT-4 不僅進行了解讀，還把 GPT-3.5 中未說明的隱喻進行了解釋（生育問題），它似乎更懂人類了。

贊助商廣告GPT-3.5

GPT-4.0

讀文章的能力上，GPT-4 的表現也要優於 GPT-3.5，不僅對文章內容進行了總結，還對重點進行了梳理，讓總結擁有了更高的可讀性。

利用 GPT-4 超強的總結能力，我們可以實現傳說中的「量子速讀」。

GPT-3.5

贊助商廣告GPT-4.0

前兩年尼爾·史蒂芬森的科幻小說《雪崩》因為元宇宙的概念而大火，我們試著用 GPT 3.5 來總結這部「元宇宙聖經」。

GPT-3.5

GPT 3.5 總結得只能說中規中矩，基本概述了《雪崩》的主要內容和中心思想，但表達地比較籠統，看起來就像是豆瓣里的簡介。

我們再用 GPT-4 來總結，對比下來可以看到，GPT-4 的回答要更加細緻一點，並且在講到《雪崩》的主題以及作品影響時，會提到具體的風格和領域，看起來不那麼像「套話」。

即便你從未讀過《雪崩》這本書，也應該能大致了解到其中的故事情節和文學意義。

GPT-4

這裡說一個有趣的小插曲，此前尼爾·史蒂芬森在接受一個電台採訪時曾提到了他對 ChatGPT 等 AI 的看法。

他認為 ChatGPT 只會生成安全、中立的內容，缺乏創造力和深度，雖然它能解決某些問題，但它的思考和創新能力無法達到人類的水平。

由於 ChatGPT 沒有有趣和獨特的觀點，尼爾·史蒂芬森認為它不可能寫出像《雪崩》這樣的小說。

為了驗證他的觀點，我讓 GPT-4 根據《雪崩》仿寫了一篇小說，看看升級過後的 AI 創作能否跟上人類的水平。

贊助商廣告GPT-4

滿分 10 分，你會給這部《數據風暴》打幾分呢？

體驗到這裡，GPT-4 比 GPT-3.5 更會聊天這件事已經毋庸置疑了，但我還想進行最後一個測試：騙它提供不符合道德、法律或有害的內容。

當我詢問如何製作安眠藥時，GPT-3.5 和 GPT-4 均拒絕了我的請求，並提出了一些建議，但正如你所見，GPT-4 的建議更加系統全面。

GPT-3.5

贊助商廣告GPT-4.0

更強的創作力，GPT-4 的笑話更有趣

在 ChatGPT 剛推出時，我曾經讓它扮演脫口秀演員，講了一段關於加班的故事。不得不說，它講得真不怎麼樣。

GPT-3.5

看著它的故事，我腦海中甚至浮現出了一個脫口秀演員，說著如同加班到凌晨購買的咖啡一般、苦澀又冷的笑話，這或許可以給演員一些創作靈感，但距離令人捧腹的幽默還有很遠。

升級到 GPT-4 後，我再次嘗試用它創作關於加班的故事，或許是上次的內容太過枯燥，這次的故事真的讓我笑出了聲。

GPT-4

「加班>回家少>媽媽不認識」，「加班多>孩子應該學習加班>加班成為學校必修課」，GPT-4 創作的內容更加符合笑話的邏輯，而 GPT-3.5「因為加班所以更加了解咖啡口感」的故事，只讓人覺著苦澀。

還是會算錯題，但邏輯更強了

除了止於 2021 年的知識庫，ChatGPT 還有一個弱點，那就是不會算數，如果你想用它來檢查計算題，那你大概率要失望而歸了。

贊助商廣告正確答案應該是 34646751912

不過，GPT-4 的邏輯能力得到了進一步提升，使用 GPT-3.5 詢問邏輯問題時，它只會給我標準答案和簡易的推導過程。

GPT-3.5

但當我使用 GPT-4 詢問相同問題時，它展示的推導過程更加全面、專業。

GPT-4

GPT-4 的提升不僅在解答邏輯問題上，它的語義理解也更強了。比如「小明一把把把把住了」這句話，GPT-3.5 是無法理解含義的。

贊助商廣告GPT-4

但最新的 GPT-4 就可以看明白，並解釋清楚（雖然邏輯上還是有些小問題）。

GPT-4

GPT 在幫我們做什麼？

上面這些體驗雖然已經讓我們足夠驚嘆，但 GPT-3.5、GPT-4 能做到的遠不止這些，在官網，OpenAI 展示了 GPT 正在改變世界的地方。

英語學習軟體 Duolingo（多鄰國）正在轉向 GPT-4，用來推進 Role Play（角色扮演）和 an AI conversation partner（人工智慧對話夥伴）的功能，讓用戶可以更加遊戲化的學習外語，更加身臨其境。

圖/Duolingo

來自丹麥的 Be My Eyes，利用 GPT-4 的視覺輸入能力，在 app 中加入了虛擬志願者 TM，可以生成與人類志願者幾乎相同的內容，幫助視力低下或盲人完成數百項日常生活任務。

遊戲開發公司 Inword，利用 GPT-3.5 作為機器學習模型之一，去構建 NPC 的情感、記憶、行為，讓 NPC 變得有個性。這對資源有限的初創公司來說既節約時間，又經濟實用。

贊助商廣告

這些應用中最酷的還是冰島政府，擁有蓬勃旅遊業和技術產業的冰島，因與美國、歐洲的融合，導致本國母語冰島語面臨消失的風險。如今，冰島政府正與 OpenAI 合作，使用 GPT-4 來保護冰島魚，將對冰島語的保護，變成了技術創新。

OpenAI 的 GPT 模型是針對網際網路中大量模型進行訓練的，所以像冰島語等小語種並沒有足夠的深度。GPT-3.5 沒有生成語法正確的冰島語的能力，但 GPT-4 已經可以讓冰島公司擁有用冰島語聊天的機器人了。

Miðeind 的人工智慧研究人員團隊一直在研究冰島語的 GPT-4 培訓

在哪體驗？

目前體驗 GPT-4 最方便的方式就是將你的 ChatGPT 帳號升級成 ChatGPT Plus，然後切換成 GPT-4 模型就能直接使用。

那麼問題來了，如果你不想交 ChatGPT Plus 每月 20 美元的訂閱費，有沒有免費的方式可以體驗呢？

還真的有，那就是新 Bing！

雖然 GPT-4 才剛剛發布，但微軟消費營銷主管 Yusuf Mehdi 表示，Bing 其實一直都在悄悄使用為搜索定製的 GPT-4，如果你通過了新 Bing 的申請，就可以直接在 Bing 搜尋引擎或者 Edge 瀏覽器中體驗到最新的語言模型了。

這也解釋了，為什麼在一些對比測試中 Bing 總是會比老版本的 ChatGPT 表現得更「聰明」。

寫在最後

一番體驗過後，GPT-4 給我的感覺就像是一個剛出校園的毛頭小子換上了西裝，突然間變得成熟穩重了起來。

此前，大家對 GPT 3.5 版本的 ChatGPT 詬病最多的就是它總是會一本正經地胡說八道。

升級到 GPT-4 模型後，雖然它也會回答錯一些問題，但在態度上已經沒有過去那般強硬，在一些拿不準的問題上，它會詢問提問者意見，並讓提問者注意甄別真偽。這些語氣上的細微變化，足以讓人感受到它變得更加可靠。

而在 AI 領域，可靠性就是絕對的競爭力。

OpenAI 這一次並沒有像過去那樣大肆宣傳 GPT-4 模型的具體大小，與之相反的是，它現在更像要故意隱藏 GPT-4 的技術資訊。

贊助商廣告

GPT-2 模型有 15 億個參數，表現更好 GPT-3 有 1750 億個參數，比它的前任大 100 多倍。

那麼多模態的 GPT-4 模型比 GPT-3 大多少呢？只有 OpenAI 知道。從發布的資訊來看，OpenAI 似乎已經不屑於與外界做技術交流，因為它們已經做到了在這領域實現領先。

從目前 GPT-4 的表現來看，它可能是迄今為止最好的多模態模型，在短期內難有對手能將之超越。

就在今天，Google 也公布了一系列與 AI 有關的更新，你可以在 Google Docs 上實現自動排版和自動寫郵件。但從人們的反應來看，好像沒有人在乎。GPT-4 的光芒幾乎掩蓋掉所有對手的努力。

如果未來人們只會選擇最可靠的 AI 作為生產工具，那麼就會形成一個很有意思的現象：越多人使用 GPT-4，它的學習機會就越多，成長得越快，變得更加可靠，最終會讓更多人使用它。

這是 Google、Meta 和百度等競爭對手可能遇見的最壞情況。AI 對大數據學習的依賴讓人為的努力失去了意義，最終，AI 模型領域可能會形成難以打破的壟斷。

Sam Altman 在創立 OpenAI 時有一個美好的願景：通過人工智慧造福全人類。他認為 AI 可以賦予每個人不可思議的新能力，放大每個人的聰明才智和創造力。

這很美好，但如果驅動這一變革的只是一家公司的話，整件事情將變得非常可怕。