你應該在短影片平台刷到過各種 AI 配音:猴哥、紫薇、四郎......
初聽有趣,但聽多了容易膩,因為真人不這麼講話,原型也不是每時每刻都處在半死不活或者被掐著脖子的狀態。
尤其當它們都在說「家人們誰懂啊」,會讓不慎刷到的人暴躁到崩潰,上演猴哥甩頭表情包:煩死了·GIF。
其實,AI 配音未必都這麼有特點,而是越來越像你我一樣普通,難以和真人分辨開來,這或許才是更可怕、也更有意思的。
不獨立行走的 AI,把人類嚇壞了
前段時間,X 上有個超火的「帶貨影片」,一個女子坐在汽車前排,直視著鏡頭,手舞足蹈、眉飛色舞地推銷濕巾。
大多數網友的關注點,不在於她帶了什麼貨,而是判斷她是不是真人。
他們看她的手和口型,數她瞪白眼的時間,甚至觀察她的髮絲、面部肌肉、臉頰光影,勢要找出證據把 AI 錘死。
為技術焦慮的悲觀主義者說,AI 都這麼真實了,人類要完蛋了。對技術半信半疑但維權意識強烈的網友說,這是真人的素材被盜了。
然而,兩種說法都不對,事情走向了最平淡的結局:影片主角真實存在,她叫 Ariel Marie,今年 24 歲,自願給 AI 打工。
去年 12 月,Marie 通過零工平台 Fiverr 接單,向法國 AI 公司 Arcads 提供了自己的聲音和肖像,按照對方的要求,錄製了 9 個不同場景的影片,包括邊走邊說的、坐在車裡的。
最近爆火的影片,她沒能第一個知道。等到出圈之後,朋友的朋友發來影片,問她是不是被 AI 偷臉了,她才了解到網友們都在關心自己是否是人類的一份子。
打開影片的瞬間,連 Marie 自己都愣了一下,冷靜下來細看,這個數字人是她又不是她,她不會這麼推銷產品。
Ariel Marie 本人
所以,影片並非純 AI,而是基於真人演員的預錄製,再使用了 DeepFake、AI 配音、口型匹配等技術。
AI 是否獨立行走,或許不重要,哪怕沒有從頭到尾使用 AI,只要最終效果逼真,也是成功的「造假」。網友們第一反應里的疑惑和惶恐,已經說明了問題所在。
AI 甚至不需要比真人做得更好,水平相當就能過關,比如作為綠幕素材插入影片,反而讓人覺得是刻意為之,粗製濫造的效果別有風味。

畢竟,我們刷短影片時,可能正處在最分心的狀態,坐在沙發,躺在床上,或者在廁所蹲坑,注意力不足以識別是不是 AI。
Marie 為 AI 拍攝的 5 個影片,報價和接單平台的普通影片差不多,15 秒廣告的起價約為 70 美元,60 秒廣告的起價約為 130 美元。
同時,Arcads 的套餐收費不低,每月 100 歐元 10 個影片,但創作者們還是能節省時間、金錢和精力。
他們輸入文字內容、挑選符合風格的演員,幾分鐘就能生成影片素材,比招聘真人要便宜,還不需要反覆溝通和寄出產品。
圖片來自:YouTube@Alex Cooper
自從 Marie 走紅,更多 AI 公司向她拋去了橄欖枝。人類成為 AI 產品的素材,或許也是一條短暫可行的生財之道。
AI 的言行舉止,更像普通人了
同在 AI 影片領域,之前讓泰勒·斯威夫特說中文爆火的 HeyGen,最近也整了新活。

他們的 AI 角色 Nik,在陽光正好的公園裡步履款款,邊走邊說左手插兜右手自然擺動,甚至還會走累了坐下,絲滑切換英語、德語和西班牙語。
效果已經有些難辨真假,不是只能在鏡頭前面正襟危坐、除了對口型八風不動的狀態了。
這說明 AI 角色在兩個方面取得了進步,一是可以識別和跟蹤用戶的身體動作,包括手部,二是在保持口型同步的同時,切換語言還能克隆用戶的語音語調。
其實,HeyGen 的 AI 角色也是取材於真人演員,默認的 AI 角色有上百個,擁有不同種族、年齡、手勢。
同時,HeyGen也支持我們定製自己的 AI 角色,但是對拍攝設備和場地的要求稍高。
所以在不久的未來,我們應該可以創建自己的數字替身,讓它精準地複製自己的動作和說話方式,同時又無痛掌握多國語言。
雖然最新的功能還沒有開放使用,但 HeyGen 放出了 Demo,歡迎網友們輸入文本隨意嘗試口型同步功能,我便讓 Nik 讀《岳陽樓記》,4 分鐘左右就生成完畢,效果有些幽默。
AI讀岳陽樓記
Nik 在普通話里混了外國口音,謫守的謫、浩浩湯湯的湯沒讀對,口型似乎對上了又沒有完全對上,更沒有投入什麼感情,看著他皺起的眉頭,仿佛他自己也越念越疑惑。
值得一提的是,HeyGen 背後有 OpenAI 的支持,他們的影片翻譯,使用了 OpenAI 前不久宣布的語音模型「Voice Engine」,既可以把聲音翻譯成多種語言,還保留母語的口音。
宣布,但不是對外發布,OpenAI 的理由是擔心濫用,畢竟門檻太低了——使用文本輸入和一個 15 秒音頻樣本,他們的模型就能生成與原始說話者非常相似的自然語音。
但 OpenAI 的普通話說得還不夠好,咬字奇怪,聲調讀不准,當然,考慮到是外國友人,帶點口音才顯得純正。
微軟,OpenAI 的金主,也在擬人語音方面頗有建樹,最近推出了 9 種更真實的 AI 語音,主要服務於對話場景,這和 ChatGPT 等更加通用的產品不同,更加強調人情味。
其中還有兩段中文,領先了 OpenAI,甚至不遜色普通話一級甲等的國人。
字正腔圓,沒有一點雜音,像播音主持專業畢業生坐在錄音棚聊天,咬字、語氣、笑聲、停頓都非常像真人,聽起來確實非常自然,在抖音和影片號前途無量。
以後我們看的五分鐘電影解說里的「注意看這個男人叫小帥」,或許不再那麼有機器味了。而在一些露臉的影片里,博主們也完全可以用自己的數字替身代勞。
那些相貌出眾但不真實的 AI 顏值博主會過時,難以分辨的 AI 普通人博主才是職業生涯長青的賽博打工人。
與其焦慮被偷家,不如自己擁抱數字替身
面對越來越「普通人」的 AI,深感焦慮的,除了怕被詐騙的大眾,還有從業者們,這直接關乎到他們的飯碗。
克隆聲音,從文本生成音頻,用你的聲音說出你不會說的話,正在變得越來越容易。OpenAI 語音模型所需的樣本,只有短短的 15 秒,短影片都比這長。
行業頭部或許還站如松坐如鐘,但剛入行、不出名、充當背景板的配音演員們懸起了心。
配音演員 Jared Butler 就是其中一位,他擅長模仿名人的聲音,曾是德普的「嘴替」,在《神鬼奇航 3:世界的盡頭》等大片為傑克船長配過音。

然而,比他更會模仿聲音的 AI 來了。Jared Butler 深感打擊:「你可能覺得,它們聽起來是糟糕的客服機器人,但我必須說,這項技術的準確性讓人恐懼。」
但也因為沒有什麼可以失去,對於一些配音演員來說,AI 反而是個就業機會。AI 公司們和這些配音演員,屬於雙向奔赴。
當對數據質量的要求越來越高,同時公開來源的數據搜集是否道德、是否經過本人同意存在輿論爭議,AI 公司和專業人士達成你情我願的合作,成了最穩妥的方式。
Replica Studio 是較為出名的一家 AI 語音技術公司,已經搭建起了一個遊戲角色語音庫。

與之合作的一位配音演員透露,對於每個角色,他都會錄製不同情緒的台詞,快樂的、悲傷的、壓力山大的。每種情緒大約有 7000 個單詞,最終的音頻數據集長達幾個小時。
雖然在短影片之外,AI 配音還不那麼普及,但嗅到危機的一些配音演員決定主動出擊,變相轉行,翻身做老闆,手把手教 AI 代替自己。
為《柏德之門 3》等遊戲大作配過音的配音演員 Cissy Jones,發現自己被偷了聲音對方還不道歉之後,怒而開了一家 AI 語音初創公司 Morpheme。
她保證和那些小偷的道德標準不一樣,在爭得演員同意之後,才創建他們的數字替身,讓他們從中盈利,演員們也可以選擇結束合作。
與此同時,Cissy Jones 自己也想省力,讓 AI 幫自己做最累的配音部分,尖叫聲、沉重的呼吸聲,諸如此類。

說回文章開頭提到的 AI 帶貨影片,起初,Ariel Marie 對 AI 只有一個模糊的概念。在貢獻自己的聲音和肖像之後,她問 Arcads 這些素材會用來做什麼。
對方回答,你的肖像會被放在網站上,讓別人輸入他們想說的話,然後你說給他們聽。這個簡單的答案,反而打動了 Ariel Marie,她覺得有點可怕,但更多是覺得,這太酷了。
AI 不會倒退,詐騙等負面影響可能也很難禁絕,但同時 AI 只會變得更好、更快、更便宜、更接近人類。
站在原地討論人的創造力和人性如何保留,或許是蒼白而無力的。我們在一次次案例里被迫承認,AI 在某些方面已超過普通人,比如我們無法在思考幾秒之後,就字正腔圓、情緒飽滿地說出幾十秒的話。
但在人與人之間,起跑線或許差別不大,焦慮的情緒彼此共鳴,如何讓 AI 為自己所用,如何避免 AI 剝奪自己,不排斥看到新的世界的機會,也是人類創作力的體現。