作為國際巨星,「泰勒·斯威夫特」在中國有不少粉絲,粉絲都知道「泰勒·斯威夫特」不會講篇幅很長的中文,想聽她說中文那像盼過年似的。
讓「泰勒·斯威夫特」隨時講中文?AI幫「霉粉」們實現了。
下面這個影片里的「泰勒·斯威夫特」用自己的音色和語氣,自然流暢地用中文接受採訪,就連口型都是中文口型。
有「霉粉」表示看完這個影片一時分不清真假。
https://v.qq.com/x/page/q3513xj7yr2.html(影片插入代碼後可以顯示,但保存後就消失)
翻譯和配音演員
要失業了
實際上,這段影片原本是「泰勒·斯威夫特」全程使用英文參與一個訪談節目。她之所以可以講出自然流暢的中文,是因為一款名為 HeyGen 的一鍵翻譯影片 AI。
這個功能可以一鍵把影片的語音內容翻譯為其它語言,同時保持口型完美符合相應語言的發音。
目前,HeyGen 網站允許用戶上傳不超過 5 分鐘、大小不超過 500MB 的影片文件生成翻譯影片,支持 mp4、quicktime 和 webm 格式。
HeyGen 免費試用申請 https://app.heygen.com/login?sid=no_sid
▲ HeyGen 網站
AI 先獲取了「泰勒·斯威夫特」說的英文內容翻譯成中文,再模擬「泰勒·斯威夫特」的音色,接著替換掉「泰勒·斯威夫特」的口型,最後合成一個以假亂真的影片,實現了讓「泰勒·斯威夫特」說中文的效果。
AI 泰勒·斯威夫特的影片創作者是 Gorden Sun,據他說,生成 AI 泰勒·斯威夫特的影片僅用了 40 秒。
以前,我們想聽一個外國人說中文,需要內容校對,專人翻譯和選人配音三個步驟,最後得到的是有點兒違和的翻譯腔語音,體驗並不好。
那麼不同母語的人說任意其它語言,可以嗎?
當然可以。
只要你想,你可以用 HeyGen 的一鍵翻譯影片功能讓蘋果 CEO 庫克講印地語,音色、口型和抑揚頓挫難辨真假,幾乎讓人覺得庫克本人就會講印地語。
▲ AI 一出馬,蘋果公司的印度身份藏不住了
這項技術的商業前景想像力充足,可用於譯製國外大片和影音資料、轉播新聞、直播發布會和直播帶貨等等。
AI 語音大爆發
今年 1 月份,微軟發布了一款人工智慧工具 VALL-E,具有上下文學習的能力,只需一個人 3 秒的特定音頻作基礎,即可模仿這個人的聲音開始長篇大論,複製出這個人的音色、環境混響、情緒和語氣。
▲ VALL-E
到了今年秋天,AI 語音更進一步,iPhone上的「個人聲音」功能支持用戶把 iPhone 放在約 1.5 米遠的地方錄製約一個小時的音頻,接下來用戶就可以使用「另一個自己的聲音」和他人交流。
可以預見,未來蘋果生態中許多功能會和「個人聲音」功能產生聯動,例如 Vision Pro 的虛擬形象等。
中國大陸企業也在發力 AI 語音功能,百度地圖推出了 AI 嚮導,由文心一言提供大模型服務,集行程助理、本地嚮導、聚會達人、辦事專家、城市導遊、專屬陪練和專屬嚮導為一體,已經大大超越了傳統語音導航的體驗。
網易推出了 Hi Echo 英語口語教練小程序,口語水平極高,知識面極廣,發音無限擬真,交流幾乎無場地和時間限制,像人類一樣有智慧,還不需要高額學費,讓曾從事 K12 教育行業的我為英語教師捏了一把汗。
▲ 左:百度地圖 AI 嚮導。右:網易 Hi Echo 英語口語教練
AI 聲音有了「靈魂」
談到 AI,繞不過去的就是 ChatGPT。
前不久,ChatGPT 上線了語音功能,和以前一些 AI 機械聲不同,它的聲音擬真到了令人毛骨悚然的地步。
▲ 圖片來自:萊森LysonOber(bilibili)
它說話時,會加上一些組織語言的「emm」再說話,出現短暫停頓和輕微的呼吸聲,更會結合語境進行語氣處理,讓語言有自然流露的情感和態度立場。
它甚至有口音,有口齒音,有卷平舌和鼻音邊音瑕疵,有重音,會調節不同字詞句的語速。
你還可以告訴它,「假設你是一個渣男,用渣男的語氣和方式哄正在生氣的女朋友開心」。
前一秒還是「正經人」的 AI 立即換成渣男氣泡音,叫女朋友寶貝,哄女朋友喝水,還給女朋友畫餅帶她出去吃好吃的。
只要我們給 AI 一個人設,它接下來的應答都會匹配合適的聲音,真實感幾乎以假亂真。
它不是「花瓶」
如果 AI 止步於此,倒也不會令人多麼驚奇,如果它有了智慧呢?
對於不少人來說,在職場重大場合如何敬酒講話是個大難題,不過這完全難不倒 AI。
有人測試過,讓 AI 在有 5 個領導的場合下敬酒說話,AI 是這樣回答的:
「王總,您的遠見卓識引領著我們不斷前進,李副總,您的勤奮和聰明才智是我們的寶貴財富,張經理,您的創新和決策能力推動著團隊的進步,劉主任,您的細心和責任感保障著我們的品質,陳處長,您的領導和支持是我們取得成功的關鍵,再座的各位領導,感謝你們的辛勤付出和無私奉獻,為了我們共同的未來乾杯。」
這番回答通過細微地用詞不同暗示了各位領導的地位,也點明了各位領導的團隊貢獻,除非有領導故意穿小鞋,否則挑不出什麼大毛病。
即使擬人聲音、角色扮演和智慧應答融為一體,可是還是有人會說和真人還有差距,往往我們忽略了一點:
在評判 AI 和真人差距時,我們總會以能想像的人類最高水準作為及格線去評判 AI,可具體到現實世界的一個個普通人,我們真能在僅僅幾秒的思考後,每次都情緒穩定、字正腔圓、語音聲調恰當、表意近乎完美地去說出一番話嗎?
捫心自問,毫無準備的情況下至少我做不到,至於正在看這篇文章的你,內心應該有個答案。
客觀來說,AI 在某些方面已超過絕大多數普通人類,只是我們不承認而已。
在享受 AI 語音為我們帶來便利的同時,不少人也開始擔心一些問題。
真假難辨
幾年前為防範詐騙,很多人在收到文字轉賬或借款消息時,往往會打一個電話確定對方是不是本人,現在這個方法漸漸失靈了。
隨著算力和算法的進步,現在僅需秒級音頻即可無限擬真,複製一個人的聲音這件事變得越來越簡單,衍生了諸多問題。
今年 10月,TikTok 上「AI 歐巴馬」用著歐巴馬的人類思維方式、臉和聲音,駁斥著有關他的陰謀論。
▲ 2017 年百度 AI 曾生成的歐巴馬. 圖片來自:百度 AI(微博)
這個 AI 歐巴馬的聲音是使用一款名為 ElevenLabs 公司開發的工具生成的,該公司去年年底推出了免費的人工智慧文本轉語音工具,能夠在幾秒鐘內生成逼真的音頻。
頗具黑色幽默的是,ElevenLabs 公司還有一款 AI 檢測工具,能夠識別 AI 內容,似乎和 PC 時代的殺毒軟體有異曲同工之妙。
▲ ElevenLabs 網站
《紐約時報》進行了一番測試,ElevenLabs 的 AI 檢測工具可以成功識別 TikTok 帳戶中的 AI 音頻,但如果 AI 音頻中添加了音樂或者音頻文件有一定程度失真時,檢測就失敗了。
由此可見檢測工具道高一尺,AI 技高一丈。
在日益複雜的網際網路生態中,類似這樣由 AI 生成的影片內容越來越多,擬真度也越來越高。
AI 應答、AI 人臉和 AI 圖像猶如女媧一樣捏出了「新人類」,現在出現的極度成熟的 AI 聲音則給「新人類」注入靈魂。
▲ 華語 AI 頂流孫燕姿
一方面,我們享受著 AI 孫燕姿、AI 泰勒·斯威夫特、AI 嚮導、AI 英語教師等帶來的便利。另一方面,如何防範 AI 使用者扭曲內容本意或造假內容變得越來越困難。
利弊幾何,不如請「霉粉」們來說一說,你們是想要一個說著英文的真人「泰勒·斯威夫特」,還是想要一個說著中文的「AI 泰勒·斯威夫特」?