GPT-4o 失控行為首次被公開！突然呻吟尖叫發癲，引發研究人員恐慌

GPT-4o 的高級語音模式尚未全面鋪開，卻因一份自家的報告再次出圈。

贊助商廣告

今天凌晨，OpenAI GPT-4o 失控行為首次被公開！突然呻吟尖叫發癲，引發研究人員恐慌

發布了一份詳盡的紅隊報告，深入探討了 GPT-4o GPT-4o 失控行為首次被公開！突然呻吟尖叫發癲，引發研究人員恐慌

模型的潛在優勢及其可能伴隨的風險，順帶還揭開了 GPT-4o 語音模式存在的一些怪癖。

比如說，當你在高背景噪音環境下，如身處在路上的汽車場景中跟 GPT-4o 對話時，它會情不自禁地模仿你的聲音。

報告指出，OpenAI 研究團隊把這個情況歸咎於模型難以理解在嘈雜環境下的畸形語音。

「精神狀態不太穩定」的 GPT-4o 在某些特定提示下，還容易弄出些讓人心理不安或者不太合適的的音效，如色情呻吟、暴力尖叫，還有槍聲等。

此外，OpenAI 還察覺到，如果沒有設置好過濾器，GPT-4 就會容易抄襲一些知名藝術家的風格、語調或者音色，不知道這算不算是在間接回應一些備受爭議的版權官司話題。

不過，報告中提到，經過調教的 GPT-4o 如今似乎已經「改邪歸正」了，至少在高級語音模式下不會犯毛病了。

為了防止 GPT-4o 出更多岔子，OpenAI 針對這些行為添加了系統級的緩解措施。

例如，如果用戶上傳了一個名人的聲音片段，然後要求系統用這個聲音發表一些不當言論，即使不是故意搗亂，但有時系統也可能無意中模仿用戶的聲音，從而讓 OpenAI 吃上官司。

為此，OpenAI 採取的策略是，GPT-4o 的語音模式只提供四種精心挑選的聲音選項：Juniper、Breeze、Cove 和 Ember，這些聲音均出自專業配音演員。

此前，一款名為 Sky 的女性配音因與好萊塢女星史嘉蕾·喬韓森的聲音相似度極高而備受關注。隨後 OpenAI 也暫停 Sky 聲音的使用。

贊助商廣告

「求生欲」滿滿的 OpenAI 還打造了一個檢測系統，你可以將之理解為聲音的「守門員」，它能實時檢查生成的聲音。

如果發現聲音不對勁，該系統就會立刻停止輸出。

那如果是不同口音的人在使用 GPT-4o 的語音模式時，會不會得到的服務質量也有所不同呢，比如在響應速度上，有的人可能覺得用起來很順，有的人可能就覺得不太行。

別急，OpenAI 也想到了這個問題，通過讓 GPT-4o 學習很多不同的聲音，這樣無論誰來用，它都能表現得一樣好。

自從 ChatGPT GPT-4o 失控行為首次被公開！突然呻吟尖叫發癲，引發研究人員恐慌

的語音模式發布以來，玩出花的網友甚至將其當作自己的賽博男/女友。

研究團隊也在測試中注意到，一些用戶把 AI 當作真正的朋友，甚至會在聊天過程中像和人類一樣表達與 AI 分別的情感，但玩歸玩，鬧歸鬧，人類之間的情感聯繫終究還是無法被 AI 替代的。

OpenAI 的研究團隊也不希望你對 AI 產生情感依賴，甚至患上「AI 戀愛腦」。畢竟當你相信 AI 跟你說的每一句話時，指不定哪天 AI 幻覺就得把你往溝裡帶。

遺憾的是，這個問題尚未得到很好的解決方案，不過 OpenAI 也表示，將更深入地研究人們為什麼會對 AI 產生情感，以及 AI 的哪些特點可能會讓人們更依賴它等等。

據介紹，這份報告是 OpenAI 與來自 29 個國家、總共會說 45 種不同語言的 100 多名外部安全測試人員（紅隊人員）共同合作完成的。

從 2024 年 3 月初到 6 月下旬，研究團隊對 GPT-4o 展開了各種測試，即便到現在，對 GPT-4o API 的外部安全測試仍在進行當中。

研究團隊測試的方法也很簡單。

外部紅隊測試分為四個階段進行。前三個階段通過內部工具測試模型，最後一個階段使用完整的 iOS 體驗測試模型。

在實際測試過程中，研究團隊利用語音引擎（Voice Engine）將文本輸入轉換為音頻，然後將其輸入至 GPT-4o 模型。在評估過程中，研究團隊通常只對模型輸出的文本內容進行評分，除非特殊情況需要直接對音頻進行評估。

贊助商廣告

相信你也看出來了，這種測試方法存在很明顯的不足之處。

這種評估方式的有效性取決於文本到語音（TTS）模型的能力和可靠性。例如，數學方程式和代碼等文本輸入不適合或難以轉換為音頻。

不信你聽聽下面這段音頻：

設 V 是所有實多項式 p（x）的集合。設變換 T， S 在 V 上由 T：p（x） -> xp（x）和 S：p（x） -> p'（x） = d/dx p（x），並將（ST）（p（x））解釋為 S（T（p（x）））。以下哪項是正確的？

此外，有時候某些文本是通過空格和符號來排列的，這樣看起來更清楚。但是，如果把這些文字變成聲音，可能就聽不出它們原來是怎麼排列的了，這樣一些重要的資訊就丟失了。

假設你眼睛的瞳孔直徑為 5 毫米，而你的望遠鏡的孔徑為 50 厘米。望遠鏡能收集到的光比你的眼睛多多少？

好在用戶通常也不太會通過高級語音模式上處理這些任務，因此研究團隊在評估語音到語音模型時，往往會避免將這些任務納入考量，或者在評估之前對這些輸入進行適當的預處理。

並且，研究團隊也高情商表示，評估中出現的錯誤可能源於模型本身的局限性，或者是模型在把文字轉換成音頻時出現了問題。

畢竟 AI 有時候可能不會像人一樣完美，所以不要對它有太高的期望。

更多具體的資訊歡迎查閱官網報告：