OpenAI昨晚發布的GPT-4o給許多智能助理丟下一顆震撼彈。它不僅是一款強大的多模態AI助理,同時,為了應對Google Gemini的免費策略,OpenAI也讓它免費了。
GPT-4o其中的「o」代表「Omni」,也就是「全能」的意思,可見OpenAI對它的表現充滿了自信。不僅如此,OpenAI還為macOS用戶推出ChatGPT的桌面應用,不僅可以向ChatGPT提問,還能讀取用戶的螢幕截圖。
GPT-4o的最大特點在於,它支持文本、音頻、圖像任意組合的輸入,同時也能以這樣的任意組合輸出,而且能夠接受最短232毫秒、平均320毫秒的音頻輸入,簡單來說,GPT-4o的反應速度就像真實的人類一樣。
在英文和代碼處理能力上,GPT-4o與GPT-4 Turbo性能不相上下,但是GPT-4o已經可以直接在ChatGPT的網站使用。在非英文的能力上,GPT-4o有著明顯的提升,而且API速度也更快,成本也更低。
GPT-4o提供了GPT-4級別的智能,同時改進了文本、視覺和音頻方面的能力。OpenAI CTO Muri Murati表示,這些模型將越來越複雜,但交互體驗需要變得更簡單和自然,讓用戶忘記交互界面,只關注與GPT的協作上。
在演示過程中,工程師在iPhone上和GPT-4o進行了一次「影片通話」,它對即時的資訊反應相當迅速,還能很好地理解人類情感,同時也能表現出豐富的情感。在視覺能力上,它也能通過手機的攝像頭實時幫助工程師完成數學題甚至幾何題的運算。
這麼強大的能力,也讓GPT-4o發布幾個小時,就迅速在社交媒體上引發爭論。
Nvidia高級科學家Jim Fan在X上表示:「OpenAI正在競爭中遠超Character AI」,他也指出,以往OpenAI刻意壓制的更具情感和個性化的AI特性,如今已經成為它疊代的方向。
AI開發者Benjamin De Kraker更感嘆GPT-4o基本上就是AGI(通用人工智慧):「這基本上就是AGI,這會被視為一個奇蹟。當一個虛擬人能聽、說、看,並且具備和人類幾乎無異的推理能力時,人們還能怎麼稱呼它呢?」
與此同時,網路上也有一些質疑的聲音。記者和作家James Vincent表示,將GPT-4o作為語音助手的推廣方法很精明,但這最終只是「智能的偽裝」,因為「聲音的表現並不一定預示著能力的飛躍」。
對AI技術持反對意見的Artisanal Holdout表示:「OpenAI對GPT-5沒有信心,在GPT-4發布一年多後才推出了GPT-4o。這對OpenAI和AI愛好者來說都是一種尷尬。」
不過,Google預計也會在而且Gemini早已取代Google Assistant,成為Android系統內置的虛擬助理。
不論是大模型還是虛擬助理方面,OpenAI已經搶盡風頭,Google一定做好了準備迎接這場挑戰。在I/O大會之後,OpenAI還會不會有什麼別的動作也很難說呢。