讓泰勒·斯威夫特說地道中文的 AI，又驚艷升級了

你應該在短影片平台刷到過各種 AI 配音：猴哥、紫薇、四郎......

贊助商廣告

初聽有趣，但聽多了容易膩，因為真人不這麼講話，原型也不是每時每刻都處在半死不活或者被掐著脖子的狀態。

尤其當它們都在說「家人們誰懂啊」，會讓不慎刷到的人暴躁到崩潰，上演猴哥甩頭表情包：煩死了·GIF。

其實，AI 配音未必都這麼有特點，而是越來越像你我一樣普通，難以和真人分辨開來，這或許才是更可怕、也更有意思的。

不獨立行走的 AI，把人類嚇壞了

前段時間，X 上有個超火的「帶貨影片」，一個女子坐在汽車前排，直視著鏡頭，手舞足蹈、眉飛色舞地推銷濕巾。

大多數網友的關注點，不在於她帶了什麼貨，而是判斷她是不是真人。

他們看她的手和口型，數她瞪白眼的時間，甚至觀察她的髮絲、面部肌肉、臉頰光影，勢要找出證據把 AI 錘死。

為技術焦慮的悲觀主義者說，AI 都這麼真實了，人類要完蛋了。對技術半信半疑但維權意識強烈的網友說，這是真人的素材被盜了。

然而，兩種說法都不對，事情走向了最平淡的結局：影片主角真實存在，她叫 Ariel Marie，今年 24 歲，自願給 AI 打工。

去年 12 月，Marie 通過零工平台 Fiverr 接單，向法國 AI 公司 Arcads 提供了自己的聲音和肖像，按照對方的要求，錄製了 9 個不同場景的影片，包括邊走邊說的、坐在車裡的。

最近爆火的影片，她沒能第一個知道。等到出圈之後，朋友的朋友發來影片，問她是不是被 AI 偷臉了，她才了解到網友們都在關心自己是否是人類的一份子。

打開影片的瞬間，連 Marie 自己都愣了一下，冷靜下來細看，這個數字人是她又不是她，她不會這麼推銷產品。

Ariel Marie 本人

所以，影片並非純 AI，而是基於真人演員的預錄製，再使用了 DeepFake、AI 配音、口型匹配等技術。

AI 是否獨立行走，或許不重要，哪怕沒有從頭到尾使用 AI，只要最終效果逼真，也是成功的「造假」。網友們第一反應里的疑惑和惶恐，已經說明了問題所在。

贊助商廣告

AI 甚至不需要比真人做得更好，水平相當就能過關，比如作為綠幕素材插入影片，反而讓人覺得是刻意為之，粗製濫造的效果別有風味。

畢竟，我們刷短影片時，可能正處在最分心的狀態，坐在沙發，躺在床上，或者在廁所蹲坑，注意力不足以識別是不是 AI。

Marie 為 AI 拍攝的 5 個影片，報價和接單平台的普通影片差不多，15 秒廣告的起價約為 70 美元，60 秒廣告的起價約為 130 美元。

同時，Arcads 的套餐收費不低，每月 100 歐元 10 個影片，但創作者們還是能節省時間、金錢和精力。

他們輸入文字內容、挑選符合風格的演員，幾分鐘就能生成影片素材，比招聘真人要便宜，還不需要反覆溝通和寄出產品。

圖片來自：YouTube@Alex Cooper

自從 Marie 走紅，更多 AI 公司向她拋去了橄欖枝。人類成為 AI 產品的素材，或許也是一條短暫可行的生財之道。

AI 的言行舉止，更像普通人了

同在 AI 影片領域，之前讓泰勒·斯威夫特說中文爆火的 HeyGen，最近也整了新活。

他們的 AI 角色 Nik，在陽光正好的公園裡步履款款，邊走邊說左手插兜右手自然擺動，甚至還會走累了坐下，絲滑切換英語、德語和西班牙語。

效果已經有些難辨真假，不是只能在鏡頭前面正襟危坐、除了對口型八風不動的狀態了。

這說明 AI 角色在兩個方面取得了進步，一是可以識別和跟蹤用戶的身體動作，包括手部，二是在保持口型同步的同時，切換語言還能克隆用戶的語音語調。

其實，HeyGen 的 AI 角色也是取材於真人演員，默認的 AI 角色有上百個，擁有不同種族、年齡、手勢。

同時，HeyGen也支持我們定製自己的 AI 角色，但是對拍攝設備和場地的要求稍高。

所以在不久的未來，我們應該可以創建自己的數字替身，讓它精準地複製自己的動作和說話方式，同時又無痛掌握多國語言。

雖然最新的功能還沒有開放使用，但 HeyGen 放出了 Demo，歡迎網友們輸入文本隨意嘗試口型同步功能，我便讓 Nik 讀《岳陽樓記》，4 分鐘左右就生成完畢，效果有些幽默。

贊助商廣告

AI讀岳陽樓記

Nik 在普通話里混了外國口音，謫守的謫、浩浩湯湯的湯沒讀對，口型似乎對上了又沒有完全對上，更沒有投入什麼感情，看著他皺起的眉頭，仿佛他自己也越念越疑惑。

值得一提的是，HeyGen 背後有 OpenAI 的支持，他們的影片翻譯，使用了 OpenAI 前不久宣布的語音模型「Voice Engine」，既可以把聲音翻譯成多種語言，還保留母語的口音。

宣布，但不是對外發布，OpenAI 的理由是擔心濫用，畢竟門檻太低了——使用文本輸入和一個 15 秒音頻樣本，他們的模型就能生成與原始說話者非常相似的自然語音。

但 OpenAI 的普通話說得還不夠好，咬字奇怪，聲調讀不准，當然，考慮到是外國友人，帶點口音才顯得純正。

微軟，OpenAI 的金主，也在擬人語音方面頗有建樹，最近推出了 9 種更真實的 AI 語音，主要服務於對話場景，這和 ChatGPT 等更加通用的產品不同，更加強調人情味。

其中還有兩段中文，領先了 OpenAI，甚至不遜色普通話一級甲等的國人。

字正腔圓，沒有一點雜音，像播音主持專業畢業生坐在錄音棚聊天，咬字、語氣、笑聲、停頓都非常像真人，聽起來確實非常自然，在抖音和影片號前途無量。

以後我們看的五分鐘電影解說里的「注意看這個男人叫小帥」，或許不再那麼有機器味了。而在一些露臉的影片里，博主們也完全可以用自己的數字替身代勞。

那些相貌出眾但不真實的 AI 顏值博主會過時，難以分辨的 AI 普通人博主才是職業生涯長青的賽博打工人。

與其焦慮被偷家，不如自己擁抱數字替身

面對越來越「普通人」的 AI，深感焦慮的，除了怕被詐騙的大眾，還有從業者們，這直接關乎到他們的飯碗。

克隆聲音，從文本生成音頻，用你的聲音說出你不會說的話，正在變得越來越容易。OpenAI 語音模型所需的樣本，只有短短的 15 秒，短影片都比這長。

行業頭部或許還站如松坐如鐘，但剛入行、不出名、充當背景板的配音演員們懸起了心。

贊助商廣告

配音演員 Jared Butler 就是其中一位，他擅長模仿名人的聲音，曾是德普的「嘴替」，在《神鬼奇航 3：世界的盡頭》等大片為傑克船長配過音。

然而，比他更會模仿聲音的 AI 來了。Jared Butler 深感打擊：「你可能覺得，它們聽起來是糟糕的客服機器人，但我必須說，這項技術的準確性讓人恐懼。」

但也因為沒有什麼可以失去，對於一些配音演員來說，AI 反而是個就業機會。AI 公司們和這些配音演員，屬於雙向奔赴。

當對數據質量的要求越來越高，同時公開來源的數據搜集是否道德、是否經過本人同意存在輿論爭議，AI 公司和專業人士達成你情我願的合作，成了最穩妥的方式。

Replica Studio 是較為出名的一家 AI 語音技術公司，已經搭建起了一個遊戲角色語音庫。

與之合作的一位配音演員透露，對於每個角色，他都會錄製不同情緒的台詞，快樂的、悲傷的、壓力山大的。每種情緒大約有 7000 個單詞，最終的音頻數據集長達幾個小時。

雖然在短影片之外，AI 配音還不那麼普及，但嗅到危機的一些配音演員決定主動出擊，變相轉行，翻身做老闆，手把手教 AI 代替自己。

為《柏德之門 3》等遊戲大作配過音的配音演員 Cissy Jones，發現自己被偷了聲音對方還不道歉之後，怒而開了一家 AI 語音初創公司 Morpheme。

她保證和那些小偷的道德標準不一樣，在爭得演員同意之後，才創建他們的數字替身，讓他們從中盈利，演員們也可以選擇結束合作。

與此同時，Cissy Jones 自己也想省力，讓 AI 幫自己做最累的配音部分，尖叫聲、沉重的呼吸聲，諸如此類。

贊助商廣告

說回文章開頭提到的 AI 帶貨影片，起初，Ariel Marie 對 AI 只有一個模糊的概念。在貢獻自己的聲音和肖像之後，她問 Arcads 這些素材會用來做什麼。

對方回答，你的肖像會被放在網站上，讓別人輸入他們想說的話，然後你說給他們聽。這個簡單的答案，反而打動了 Ariel Marie，她覺得有點可怕，但更多是覺得，這太酷了。

AI 不會倒退，詐騙等負面影響可能也很難禁絕，但同時 AI 只會變得更好、更快、更便宜、更接近人類。

站在原地討論人的創造力和人性如何保留，或許是蒼白而無力的。我們在一次次案例里被迫承認，AI 在某些方面已超過普通人，比如我們無法在思考幾秒之後，就字正腔圓、情緒飽滿地說出幾十秒的話。

但在人與人之間，起跑線或許差別不大，焦慮的情緒彼此共鳴，如何讓 AI 為自己所用，如何避免 AI 剝奪自己，不排斥看到新的世界的機會，也是人類創作力的體現。