GPT-4：GPT的一小步，多模態AI的一大步

在ChatGPT風靡全球數月後，OpenAI終於發布了它的大型多模態模型（large multimodal model）GPT-4，它不僅能與用戶一起生成、編輯，完成創意的疊代和技術寫作任務，更重要的是，它還能讀懂圖片。

贊助商廣告

OpenAI稱，GPT-4「比以往任何時候都更有創造性」，可以「更準確地解決問題」。官方在這次的發布過程中也提到一些合作方，包括Duolingo、Stripe、Khan Academy等。其中，引入GPT-4之後，改變最為明顯的就是一款叫「Be My Eyes」的應用。

Be My Eyes在全世界擁有600多萬名志願者和視障與盲人用戶，志願者可以幫助用戶介紹攝影機拍攝的畫面。GPT-4成為這個平台上的第一個虛擬志願者，用戶可以向這個虛擬志願者傳送圖像，提供即時識別、解釋，並且以對話的形式提供協助。

以往的GPT-3.5無法將上述操作變成現實，因為它不具備識別圖片的能力。這也是GPT-4作為一個大型多模態模型，與ChatGPT的GPT-3.5最大的不同之處。

簡單來說，GPT-3.5能夠在一定程度上理解並使用人類的語言，而GPT-4則是具備以人類的視角理解圖像的能力。

官方給出的一些案例也令人驚艷，它可以幫你解釋一些迷因梗圖，或指出圖片中不自然的地方，或是根據簡單的幾幅圖片給出說明，甚至可以看圖總結論文、回答試卷中的問題。

贊助商廣告GPT-4清楚解釋了上面這幅梗圖的含義

GPT-4指出了圖中不自然的地方

GPT-4分別解釋了圖中每一格的畫面內容

贊助商廣告GPT-4分別回答了圖片中的問題

多模態對GPT-4這樣的生成式AI來說意義重大，除了Be My Eyes的例子，未來還可望應用到一些設計工具和圖像處理產品上，連OCR（光學字符識別）技術也要甘拜下風了。

影片翻譯產品Targum Video的創辦人Altryne也表示，GPT-4的圖像理解能力已經甩開現有模型數里地。

不過遺憾的是，OpenAI還沒有把圖像輸入能力開放給公眾體驗，目前我們可以通過付費訂閱ChatGPT Plus或Quora Poe來嘗鮮。那麼不會「看圖說話」的GPT-4比GPT-3.5強在哪裡呢？我們也通過Quora的Poe詢問了一下GPT-4「本人」：

總的來說，相比GPT-3.5，GPT-4擁有更豐富的知識，對人類語言的理解能力也更準確，可以更好的理解整體對話的主題，不像以前那樣一不小心就「歪樓」，非英語的語言理解能力也有所增強，生成的文本也會更連貫，可讀性更高。

根據官方公布的數據，GPT-4不僅具備理解圖片的能力，語言處理能力也有很大進步，GPT-4的中文能力已經超越GPT-3.5的英文能力了。

贊助商廣告

不過OpenAI CEO Sam Altman在Twitter上表示，GPT-4「仍然有局限性」，而且「第一次使用時似乎比你花更多時間使用它時更令人印象深刻」。

也就是說，僅從使用體驗出發，GPT-4在語言能力上的改變更多體現在一些細微之處，不會像ChatGPT剛出現時那樣驚為天人，不過對於多模態AI的實現來說，GPT-4的出現確也讓人類再次邁出具有歷史意義的一大步。