宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

GPT-4:GPT的一小步,多模態AI的一大步

2023年03月15日 首頁 » 熱門科技

在ChatGPT風靡全球數月後,OpenAI終於發布了它的大型多模態模型(large multimodal model)GPT-4,它不僅能與用戶一起生成、編輯,完成創意的疊代和技術寫作任務,更重要的是,它還能讀懂圖片。

GPT-4:GPT的一小步,多模態AI的一大步

OpenAI稱,GPT-4「比以往任何時候都更有創造性」,可以「更準確地解決問題」。官方在這次的發布過程中也提到一些合作方,包括Duolingo、Stripe、Khan Academy等。其中,引入GPT-4之後,改變最為明顯的就是一款叫「Be My Eyes」的應用。

Be My Eyes在全世界擁有600多萬名志願者和視障與盲人用戶,志願者可以幫助用戶介紹攝影機拍攝的畫面。GPT-4成為這個平台上的第一個虛擬志願者,用戶可以向這個虛擬志願者傳送圖像,提供即時識別、解釋,並且以對話的形式提供協助。

GPT-4:GPT的一小步,多模態AI的一大步

以往的GPT-3.5無法將上述操作變成現實,因為它不具備識別圖片的能力。這也是GPT-4作為一個大型多模態模型,與ChatGPT的GPT-3.5最大的不同之處。

簡單來說,GPT-3.5能夠在一定程度上理解並使用人類的語言,而GPT-4則是具備以人類的視角理解圖像的能力。

官方給出的一些案例也令人驚艷,它可以幫你解釋一些迷因梗圖,或指出圖片中不自然的地方,或是根據簡單的幾幅圖片給出說明,甚至可以看圖總結論文、回答試卷中的問題。

GPT-4:GPT的一小步,多模態AI的一大步
GPT-4清楚解釋了上面這幅梗圖的含義

GPT-4:GPT的一小步,多模態AI的一大步
GPT-4指出了圖中不自然的地方

GPT-4:GPT的一小步,多模態AI的一大步
GPT-4分別解釋了圖中每一格的畫面內容

GPT-4:GPT的一小步,多模態AI的一大步
GPT-4分別回答了圖片中的問題

多模態對GPT-4這樣的生成式AI來說意義重大,除了Be My Eyes的例子,未來還可望應用到一些設計工具和圖像處理產品上,連OCR(光學字符識別)技術也要甘拜下風了。

影片翻譯產品Targum Video的創辦人Altryne也表示,GPT-4的圖像理解能力已經甩開現有模型數里地。

GPT-4:GPT的一小步,多模態AI的一大步

不過遺憾的是,OpenAI還沒有把圖像輸入能力開放給公眾體驗,目前我們可以通過付費訂閱ChatGPT Plus或Quora Poe來嘗鮮。那麼不會「看圖說話」的GPT-4比GPT-3.5強在哪裡呢?我們也通過Quora的Poe詢問了一下GPT-4「本人」:

GPT-4:GPT的一小步,多模態AI的一大步

總的來說,相比GPT-3.5,GPT-4擁有更豐富的知識,對人類語言的理解能力也更準確,可以更好的理解整體對話的主題,不像以前那樣一不小心就「歪樓」,非英語的語言理解能力也有所增強,生成的文本也會更連貫,可讀性更高。

根據官方公布的數據,GPT-4不僅具備理解圖片的能力,語言處理能力也有很大進步,GPT-4的中文能力已經超越GPT-3.5的英文能力了。

GPT-4:GPT的一小步,多模態AI的一大步

不過OpenAI CEO Sam Altman在Twitter上表示,GPT-4「仍然有局限性」,而且「第一次使用時似乎比你花更多時間使用它時更令人印象深刻」。

GPT-4:GPT的一小步,多模態AI的一大步

也就是說,僅從使用體驗出發,GPT-4在語言能力上的改變更多體現在一些細微之處,不會像ChatGPT剛出現時那樣驚為天人,不過對於多模態AI的實現來說,GPT-4的出現確也讓人類再次邁出具有歷史意義的一大步。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新