宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

OpenAI用26分鐘改變世界!免費版GPT-4來了,影片語音交互快進到科幻片

2024年05月14日 首頁 » 熱門科技

今天凌晨,一場 26 分鐘的發布會,將又一次大大改變 AI 行業和我們未來的生活,也會讓無數 AI 初創公司焦頭爛額。

這真不是標題黨,因為這是 OpenAI 的發布會。

剛剛,OpenAI 正式發布了 GPT-4o,其中的「o」代表「omni」(即全面、全能的意思),這個模型同時具備文本、圖片、影片和語音方面的能力,這甚至就是 GPT-5 的一個未完成版。

更重要的是,這個 GPT-4 級別的模型,將向所有用戶免費提供,並將在未來幾周內向 ChatGPT Plus 推出。

我們先給大家一次性總結這場發布會的亮點,更多功能解析請接著往下看。

OpenAI用26分鐘改變世界!免費版GPT-4來了,影片語音交互快進到科幻片

發布會要點

新的 GPT-4o 模型:打通任何文本、音頻和圖像的輸入,相互之間可以直接生成,無需中間轉換GPT-4o 語音延遲大幅降低,能在 232 毫秒內回應音頻輸入,平均為 320 毫秒,這與對話中人類的響應時間相似。 GPT-4 向所有用戶免費開放GPT-4o API,比 GPT4-turbo 快 2 倍,價格便宜 50%驚艷的實時語音助手演示:對話更像人、能實時翻譯,識別表情,可以通過攝像頭識別畫面寫代碼分析圖表ChatGPT 新 UI,更簡潔一個新的 ChatGPT 桌面應用程序,適用於 macOS,Windows 版本今年晚些時候推出

這些功能早在預熱階段就被 Altman 形容為「感覺像魔法」。既然全世界 AI 模型都在「趕超 GPT-4」,那 OpenAI 也要從武器庫掏出點真傢伙。

其實在發布會前一天,我們發現 OpenAI 已經悄悄將 GPT-4 的描述從「最先進的模型」,修改為「先進的」。

這就是為了迎接 GPT-4o 的到來。GPT-4o 的強大在於,可以接受任何文本、音頻和圖像的組合作為輸入,並直接生成上述這幾種媒介輸出。

這意味著人機交互將更接近人與人的自然交流。

GPT-4o 可以在 232 毫秒內回應音頻輸入,平均為 320 毫秒,這接近於人類對話的反應時間。此前使用語音模式與 ChatGPT 進行交流,平均延遲為 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4)。

它在英文和代碼文本上與 GPT-4 Turbo 的性能相匹敵,在非英語語言文本上有顯著改進,同時在 API 上更快速且價格便宜 50%。

OpenAI用26分鐘改變世界!免費版GPT-4來了,影片語音交互快進到科幻片

而與現有模型相比,GPT-4o 在視覺和音頻理解方面表現尤為出色。

從測試參數來看,GPT-4o 主要能力上基本和目前最強 OpenAI 的 GPT-4 Turbo 處於一個水平。

OpenAI用26分鐘改變世界!免費版GPT-4來了,影片語音交互快進到科幻片

OpenAI用26分鐘改變世界!免費版GPT-4來了,影片語音交互快進到科幻片

過去我們和 Siri 或其他語音助手的使用體驗都不夠理想,本質上是因為語音助手對話要經歷三個階段:

語音識別或「ASR」:音頻 ->文本,類似 Whisper;LLM 計劃下一步要說什麼:文本 1 ->文本 2;語音合成或「TTS」:文本 2 ->音頻,想像 ElevenLabs 或 VALL-E。

OpenAI用26分鐘改變世界!免費版GPT-4來了,影片語音交互快進到科幻片

然而我們日常的自然對話基本上卻是這樣的

在聽和說的同時考慮下一步要說什麼;

在適當的時刻插入「是的,嗯,嗯」;預測對方講話結束的時間,並立即接管;

自然地決定打斷對方的談話,而不會引起反感;

在聽和說的同時考慮下一步要說什麼;

在適當的時刻插入「是的,嗯,嗯」;

優雅地處理並打斷。

此前的 AI 語言助手無法很好處理這些問題,在對話的三個階段每一步都有較大延遲,因此體驗不佳。同時會在過程中丟失很多資訊,比如無法直接觀察語調、多個說話者或背景噪音,也無法輸出笑聲、歌唱或表達情感。

OpenAI用26分鐘改變世界!免費版GPT-4來了,影片語音交互快進到科幻片

當音頻能直接生成音頻、圖像、文字、影片,整個體驗將是跨越式的。

GPT-4o 就是 OpenAI 為此而訓練的一個全新的模型,而要時間跨越文本、影片和音頻的直接轉換,這要求所有的輸入和輸出都由同一個神經網路處理。

而更令人驚喜的是,ChatGPT 免費用戶就能使用 GPT-4o 可以體驗以下功能:

體驗 GPT-4 級別的智能

從模型和網路獲取響應

分析數據並創建圖表

聊一聊你拍的照片

上傳文件以獲取摘要、寫作或分析幫助

使用GPTs和GPT Store

通過Memory構建更加有幫助的體驗

而當你看完 GPT-4o 下面這些演示,你的感受或許將更加複雜。

ChatGPT 不光能說,能聽,還能看,這已經不是什麼新鮮事了,但「船新版本」的 ChatGPT 還是驚艷到我了。

睡覺搭子

以一個具體的生活場景為例,讓 ChatGPT 講一個關於機器人和愛的睡前故事,它幾乎不用太多思考,張口就能說出一個帶有情感和戲劇性的睡前故事。

甚至它還能以唱歌的形式來講述故事,簡直可以充當用戶的睡眠搭子。

做題高手

OpenAI用26分鐘改變世界!免費版GPT-4來了,影片語音交互快進到科幻片

又或者,在發布會現場,讓其演示如何給線性方程 3X 1=4 的求解提供幫助,它能夠一步步貼心地引導並給出正確答案。

當然,上述還是一些「小兒戲」,現場的編碼難題才是真正的考驗。不過,三下五除二的功夫,它都能輕鬆解決。

OpenAI用26分鐘改變世界!免費版GPT-4來了,影片語音交互快進到科幻片

藉助 ChatGPT 的「視覺」,它能夠查看電腦螢幕上的一切,譬如與代碼庫交互並查看代碼生成的圖表,咦,不對勁?那我們以後的隱私豈不是也要被看得一清二楚了?

OpenAI用26分鐘改變世界!免費版GPT-4來了,影片語音交互快進到科幻片

實時翻譯

現場的觀眾也給 ChatGPT 提出了一些刁鑽的問題。

從英語翻譯到義大利語,從義大利語翻譯到英語,無論怎麼折騰該 AI 語音助手,它都遊刃有餘,看來沒必要花大價錢去買翻譯機了,在未來,指不定 ChatGPT 可能比你的實時翻譯機還靠譜。

感知語言的情緒還只是第一步,ChatGPT 還能解讀人類的的面部情緒。

OpenAI用26分鐘改變世界!免費版GPT-4來了,影片語音交互快進到科幻片

在發布會現場,面對攝像頭拍攝的人臉,ChatGPT 直接將其「誤認為」桌子,正當大傢伙以為要翻車時,原來是因為最先打開的前置攝像頭瞄準了桌子。

不過,最後它還是準確描述出自拍面部的情緒,並且準確識別出臉上的「燦爛」的笑臉。

有趣的是,在發布會的尾聲,發言人也不忘 Cue 了英偉達和其創始人老黃的「鼎力支持」,屬實是懂人情世故的。

對話語言界面的想法具有令人難以置信的預見性。

Altman 在此前的採訪中表示希望最終開發出一種類似於 AI 電影《Her》中的 AI 助理,而今天 OpenAI 發布的語音助手切實是有走進現實那味了。

OpenAI用26分鐘改變世界!免費版GPT-4來了,影片語音交互快進到科幻片

OpenAI 的首席運營官 Brad Lightcap 前不久曾預測,未來我們會像人類交談一樣與 AI 聊天機器人對話,將其視為團隊中的一員。

現在看來,這不僅為今天的發布會埋下了伏筆,同時也是我們未來十年生活的生動註腳。

蘋果在 AI 語音助手「兜兜轉轉」了十三年的時間都沒能走出迷宮,而 OpenAI 一夜之間就找到出口。可預見的是,在不久的將來,鋼鐵人的「賈維斯」將不再是幻想。

雖然 Sam Altman 沒在發布會上出現,但他在發布會後就發布了一篇博客,並且在 X 上發了一個詞: her。

這顯然在暗指那部同名的經典科幻電影《雲端情人》,這樣是我觀看這場發布會的演示時,腦子裡最先聯想的畫面。

電影《雲端情人》里的薩曼莎,不只是產品,甚至比人類更懂人類,也更像人類自己 ,你真的能在和她的交流中逐漸忘記,她原來是一個 AI 。

OpenAI用26分鐘改變世界!免費版GPT-4來了,影片語音交互快進到科幻片

這意味著人機交互模式可能迎來圖像界面後真正的革命性更新,如同 Sam Altman 在博客中表示:

新的語音(和影片)模式是我使用過的最好的電腦界面。它感覺像電影中的人工智慧;而且我仍然有點驚訝它是真實的。達到人類級別的響應時間和表現力原來是一個很大的改變。

之前的 ChatGPT 讓我們看到自然用戶界面初露端倪:簡單性高於一切:複雜性是自然用戶界面的敵人。每個交互都應該是不言自明的,不需要說明手冊。

但今天發布的 GPT-4o 則完全不同,它的幾乎無延遲的相應、聰明、有趣、且實用,我們和電腦的交互從未真正體驗過這樣的自然順暢。

這裡面還藏著巨大可能性,當支持更多的個性化功能和與不同終端設備的協同後,意味著我們能夠利用手機、電腦、智能眼鏡等計算終端做到很多以往無法實現的事情。

AI 硬體不會再試積累,當下更令人期待的,就是如果下個月蘋果 WWDC 真的宣布與 OpenAI 達成合作,那麼 iPhone 的體驗提升或許將比近幾年任何一次發布會都大。

英偉達高級可科學家 Jim Fan 認為,號稱史上最大更新 iOS 18 ,和 OpenAI 的合作可能會有三個層面:

放棄 Siri,OpenAI 為 iOS 提煉出一個純粹在設備上運行的小型 GPT-4o,可選擇付費升級使用雲服務。

原生功能將攝像頭或螢幕流輸入到模型中。晶片級支持神經音影片編解碼器。

與 iOS 系統級操作 API 和智能家居 API 集成。沒有人使用 Siri 快捷方式,但是是時候覆興了。這可能會成為一開始就擁有十億用戶的 AI 代理產品。這對智慧型手機來說,就像特斯拉那樣的全尺寸數據飛輪。

說到這裡,也不得不心疼明天要舉辦發布會的 Google 一秒。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新