ChatGPT重大更新：實現雙向互動「聽、說、看」

從本質上講，OpenAI正在為其聊天機器人賦予嘴巴和眼睛。

贊助商廣告

據悉，OpenAI正在更新ChatGPT，以允許人工智慧工具在與用戶的交互中做到「看到、聽到和對話」。本次更新推出後，使ChatGPT能夠響應圖像，理解口頭提示，並使用聊天機器人的新聲音與用戶進行來回對話。這些變化使ChatGPT功能更加類似於Siri或亞馬遜的Alexa，但是與Siri或Alexa不同，ChatGPT不需要喚醒詞來進行「召喚」。

總的來說，本次更新使得ChatGPT更具互動性，用戶可以拍一張照片並向ChatGPT詢問相關問題，不過本次更新並不是全部免費，圖像和語音功能將在接下來的幾周內，為每月20美元訂閱ChatGPT Plus和Enterprise版本用戶提供。

OpenAI在公告中表示：「語音和圖像為您提供了在生活中使用ChatGPT的更多方式。」「在旅行時拍一張地標的照片，並實時討論它的有趣之處。當你回到家時，拍下你的冰箱和食品儲藏室的照片，以弄清楚晚餐吃什麼（並詢問後續問題，以便按照食譜步驟製作）。晚餐後，至可以通過拍照、圈出問題集讓它來幫助您的孩子解決數學問題。」

「這不僅僅是因為打字很乏味，」OpenAI的產品負責人Joanne Jang在接受採訪時告訴記者：「你們現在可以進行雙向對話。」

顯然隨著不斷疊代，ChatGPT的功能在逐漸強大。此前福克斯新聞醫療撰稿人Marc Siegel博士在「The Big Money Show」中討論了ChatGPT在做出醫療決策方面的準確性，結果顯示如果ChatGPT扮演醫生，成功率達72%，它在前不久甚至幫助一個苦尋良醫許久的男孩找到了真實的病因，在全球引起巨大熱議。

贊助商廣告

針對本次的更新，據專業人士稱更新後的ChatGPT新語音功能，將由文本轉語音模型提供支持，該模型能夠從文本和幾秒鐘的樣本語音中生成類似人類的音頻。OpenAI還聘請專業配音演員來創作聲音，允許ChatGPT以五種不同的聲音說話，並利用OpenAI的開源語音識別系統Whisper將口語轉錄為文本。

不過也有人士指出，新語音技術存在一些風險，例如可能發生欺詐或冒充。OpenAI在聲明中表示：「新的語音技術能夠從幾秒鐘的真實語音中生成逼真的合成聲音，為許多創造性和可訪問性的應用程式打開了大門，然而，這些新功能也帶來了新的風險，例如惡意行為者冒充公眾人物或實施欺詐的可能性。」針對圖像方面，ChatGPT的新的基於視覺的模型能夠分析和響應圖像，但這種模型也帶來了新的挑戰，並且該公司「已採取技術措施來顯著限制ChatGPT分析和直接能力，因為這些系統應該尊重個人隱私。」

不過針對本次更新，在業內引起討論的同時，也有不少用戶表示「沒什麼新意和突破」，隨著OpenAI開發者大會的日益臨近，不知道急於「獨立」並在爭取創造大額營收的OpenAI又會做出什麼樣的舉措呢。