OpenAI發布語音模型多語言無縫切換

OpenAI正式發布語音模型GPT-realtime。

據介紹，GPT-realtime是一款專注於語音AI Agent的多模態模型，能夠生成高度自然流暢的語音，精準還原人類語調、情感和語速的豐富變化。該模型支持圖像理解，並可結合語音或文本對話使用，非常適合應用於客服、教育、金融、醫療等領域，用於構建高質量的語音智能體。

贊助商廣告

官方表示，新模型在複雜指令遵循、工具精確調用以及生成更自然、更具表現力的語音方面表現卓越。尤其在重複字母與數字、逐字朗讀免責聲明、語句間無縫切換語言等場景中，GPT-realtime展現出優秀的適應能力。

該模型還具備出色的上下文理解能力，可準確捕捉非語言線索（如笑聲），並實時調整語音語氣，實現諸如「帶法國口音的友好語調」或「語速較快的專業語調」等多樣化表達。

此外，GPT-realtime新增了「Cedar」和「Marin」兩種語音風格，並對現有八種語音效果進行了全面優化。

Introducing gpt-realtime — our best speech-to-speech model for developers, and updates to the Realtime APIhttps://t.co/giS4K1yNh9
— OpenAI (@OpenAI) August 28, 2025

贊助商廣告

OpenAI發布語音模型 多語言無縫切換

OpenAI發布語音模型多語言無縫切換