OpenAI API新增多項語音智能功能，助力開發者構建對話應用

OpenAI於周四宣布，其API將新增多項語音智能功能，旨在幫助開發者構建能夠與用戶進行語音對話、轉錄及翻譯的應用程序。

贊助商廣告

全新語音模型GPT-Realtime-2

OpenAI推出的全新語音模型GPT-Realtime-2，能夠生成逼真的語音模擬效果，與用戶進行自然對話。與前代產品GPT-Realtime-1.5不同，該模型搭載了GPT-5級別的推理能力，專為處理用戶提出的更複雜請求而設計。

實時翻譯功能GPT-Realtime-Translate

與此同時，OpenAI還推出了GPT-Realtime-Translate，顧名思義，該功能旨在提供能夠與用戶"保持同步"的實時對話翻譯服務。該功能支持超過70種輸入語言（即可識別理解的語言）以及13種輸出語言（即向用戶傳達內容所使用的語言）。

實時轉錄功能GPT-Realtime-Whisper

此外，OpenAI還發布了全新轉錄功能GPT-Realtime-Whisper，為用戶提供實時語音轉文字能力，可在對話進行的同時即時捕獲內容。

OpenAI對此表示："我們此次推出的這些模型，將實時音頻從簡單的問答式交互推向了真正能夠完成實際工作的語音界面——在對話展開的過程中，系統能夠聆聽、推理、翻譯、轉錄並採取相應行動。"

應用場景與潛在價值

這些功能的更新將惠及哪些群體？希望提升客服能力的企業是最顯而易見的受益方。不過，OpenAI同時指出，這些新功能將在教育、媒體、活動策劃、內容創作者平台等眾多領域發揮重要作用。

安全機制與濫用防範

儘管這些工具從企業應用角度來看極具價值，但潛在的濫用風險同樣不容忽視。對此，OpenAI表示已內置安全防護機制，以防止新功能被用於製造垃圾資訊、欺詐或其他形式的網路濫用行為。系統中設有特定觸發機制，"一旦檢測到對話內容違反有害內容準則，即可立即終止對話"。

定價方式

所有新增語音模型均已納入OpenAI的Realtime API。其中，Translate和Whisper按分鐘計費，而GPT-Realtime-2則按Token消耗量計費。

Q&A

Q1：GPT-Realtime-2與GPT-Realtime-1.5相比有哪些改進？

贊助商廣告

A：GPT-Realtime-2在前代產品的基礎上進行了重大升級，核心改進在於搭載了GPT-5級別的推理能力。這意味著新模型不僅能夠生成更逼真的語音模擬效果，還能處理用戶提出的更為複雜的請求，而不僅僅局限於簡單的問答式交互，真正實現了在對話過程中的聆聽、推理與行動能力。

Q2：GPT-Realtime-Translate支持哪些語言？

A：GPT-Realtime-Translate支持超過70種輸入語言，即系統可以識別和理解的語言；同時支持13種輸出語言，即系統向用戶傳達內容時所使用的語言。該功能旨在提供與用戶對話節奏保持同步的實時翻譯服務，適用於教育、媒體、活動策劃等多種場景。

Q3：OpenAI如何防止這些語音功能被濫用？

A：OpenAI已在系統中內置了專門的安全防護機制與特定觸發條件。一旦系統檢測到對話內容違反有害內容準則，即可自動終止對話。這些措施旨在防止相關功能被用於製造垃圾資訊、實施欺詐或從事其他形式的網路濫用行為，從而保障功能在合法合規的場景下使用。