Suno 爆火之後,又一個音樂界 ChatGPT 來了:Udio。
它由前 Google DeepMind 工程師開發,被矽谷知名風投 a16z、Instagram 創始人看好。
雖有爆款之相,但產品本身才能決定,Udio 可否在前輩的開荒後,再留下自己的痕跡。
體驗下來發現,Udio 的缺點和優點都很明顯,和 Suno 各有所長。同時,目前所有的 AI 音樂都是初聽還行,聽多了便會出現耳朵和大腦不耐受的情況。
人聲更清晰的賽博點唱機
先看看 Udio 官方精挑細選的作品,直觀感受好不好聽。
乍一聽,AI 擅長的音樂體裁挺多,很適合給團建和蹦迪熱場,但留不下什麼深刻印象。
反而是網友們的自發創作更有意思。從目前的熱門作品來看,相比 Suno,Udio 有兩個特點:一是人聲更加清晰,二是曲風的既視感更強,總感覺在哪裡聽過。
以下這首把競爭對手 Suno 唱進詞裡的復古歌曲,女聲比 Suno 更清晰,機器味也更少。
百老匯音樂劇版沙丘則靠創意取勝,合唱團讚美由甜茶飾演的主角保羅,融合了青少年流行、音樂劇旋律以及搖滾元素。
Udio 甚至還能模仿迪士尼歌舞片的風格,仿佛《美女與野獸》的貝兒、《阿拉丁》的茉莉公主、《冰雪奇緣》的艾莎在耳邊歌唱。
Udio 自己也以人聲為傲,表示 AI 會很多唱法,把高亢福音、沙啞藍調、夢幻流行、絲滑說唱一網打盡。
至於體裁和曲風方面,比較出乎意料的是,Udio 擅長古典,以下這首《C 大調快板合奏》和巴赫的布蘭登堡協奏曲非常相似。
按照 Udio 的規定,它和 Suno 一樣,不支持用某個藝術家的聲音生成歌曲。不過,Udio 可以用藝術家的風格作為提示詞,比如「貝多芬」。甚至有網友叫囂,如今自己也能成為古典作曲家了。
鄉村音樂也是 Udio 的舒適區,《Highway Lasts》這首,有些泰勒·斯威夫特早期專輯的味道,甚至音色和唱腔也莫名形似。
官方表示,Udio 擅長的流派和風格有很多,如電子舞曲、鋼琴爵士、新靈魂樂、極端金屬,也精通多種語言,支持生成日本流行樂、寶萊塢音樂、俄羅斯夢幻流行音樂。
凡事不能光看說了的,也要挖掘被隱藏的。Udio 沒有提及中文,可能是有意藏拙。
果然,讓 Udio 唱中文歌,有種霸王硬上弓的感覺,咬字不清晰又錯誤頻出,發音有點像塑料粵語,不知道是不是拿港台歌訓練的 AI,且素材不是很夠。
要不是我親手輸入了蘇軾《定風波》的「竹杖芒鞋輕勝馬......」,根本聽不懂女聲在唱什麼。
讓 AI 自動生成中文歌詞更是災難,時不時夾雜英語,且沒有什麼韻味。
Udio 生成的歌詞.
生成十幾遍才有一首咬字基本清晰的中文歌曲之後,我也變得佛系了。難聽,不想再聽,嘔啞嘲哳難為聽,但好不好聽已經沒法苛求。勉強寬慰自己,唱得還挺響亮和精神。
新手友好的開盲盒
Udio目前發布的是免費測試版,註冊賬號之後,每個人每月最多可以生成 1200 首歌曲,按照理想情況,40 秒內就能生成一首。
看著比 Suno 每天 50 個積分大氣多了,然而官網擠爆了,伺服器又不穩定,我的第一首歌三個多小時都沒生成完畢,再登上去查看居然原地消失,只能重新輸入提示詞,之後的節奏倒是很快,基本在 2 分鐘內就能生成。
而且,Udio 創作的片段,默認為 30 多秒,相比 Suno 的 2 分鐘,算是大打折扣。
這些是基礎設施和基本設定的問題,Udio 也有做得優秀的地方。
和 Suno 類似,Udio 的創作界面非常直觀,輸入提示詞,點擊生成,等待 AI 創作完畢。也與 Suno 一樣,Udio 通過 API 調用 ChatGPT 編寫歌詞。
除了讓 AI 自由發揮,Udio 也可以更加定製化,讓你輸入自己的歌詞,添加具體的流派標籤,選擇生成純音樂,或者包含歌詞和人聲的歌曲。

同時 Udio 不閒著,起到一個助手的作用,不斷地給你提建議,更加新手友好。
一方面,Udio 提醒你怎麼讓歌詞的效果更好,建議你加一些額外的標籤,比如[Verse](主歌)、[chorus](副歌),讓 AI 更好地理解歌曲的基本架構。
這點其實也寫在 Suno 的社區指南里,但初次嘗試的新手不一定明白,Udio 把建議寫在了輸入框旁邊,背後原因令人暖心。
另一方面,按照你的提示詞,Udio 會建議添加一些流派的標籤,比如當我想要生成中國風的音樂,Udio 建議添加「traditional pop」。

Udio 還有一個手動模式(manual mode),一般來說,Udio 會改寫我們的提示詞,提高生成的質量。
但在這種模式下,Udio 不會做中間商,而是讓你原汁原味地和模型交互,應該更適合那些本身就有音樂底子的創作人。
生成之後,Udio 還支持再加工,讓你擴展音軌的長度,添加[Intro](前奏)、[Outro](尾奏) 等部分,讓作品更加完整。

這個細節 Udio 也比 Suno 做得細緻,之前體驗 Suno 時,我不知道可以在最前面寫上[Intro](前奏),導致生成的歌曲一開始就是人聲,不太符合日常聽歌的習慣。
就算 Udio 的界面做得簡單,但所謂「創作」的過程,還是個開盲盒的過程,並且出錯概率體感比 Suno 要多,很容易讓人垂頭喪氣。
如果你對生成的效果不滿意,不如玩玩 Udio 的隨機提示詞,比如「一首關於搶劫失敗的合成流行音樂」「一首關於與時間賽跑的拉丁歌曲」「一首關於期待久別重逢的電子舞曲」。

抱著降低期待的心理,我們就不必將 AI 當作精準的創作工具。
如果我們在聚會、團建等場景需要歌曲調動一下氛圍,那基本就夠用了。這是普通音樂愛好者的赦免權,我們不必創作偉大的音樂,但可以多玩,看能不能生成自己喜歡的音樂。
允許 AI「創作」新的音樂
雖然 Udio 在 4 月 10 日才對外宣布,但這是一場事先張揚的發布,之前就有音樂泄露在 X,引起外界的關注和猜測。
類比是人類的習慣。「音樂界 ChatGPT」的名號已經被 Suno 用了,因為 Udio 可以根據文本提示,快速生成包含人聲的完整音軌,支持多種風格和流派,也領了一個網際網路稱號:「音樂界 Sora」。
預熱完了,Udio 終於露出廬山真面目,創始團隊裡有 4 位是 Google DeepMind 前員工。
和 Suno 一樣,Udio 也是希望音樂創作更大眾化,同時服務於音樂家,讓創作和分享音樂更簡單,讓想像力變現的門檻更低。

文字、圖片、音頻、影片,現在的我們其實已經見過了 AI 的各種文本生成。
在 Udio 團隊看來,從文本生成一首完整的歌曲,最有魔法的感覺,是個「wow event」(哇哦時刻)。
這是因為,音樂是我們更投入情感、也更願意花時間消費的領域。
Udio 的目標不僅是擁有一個創作音樂的工具,還要搭建一個圍繞它的、所有人都能參與的社區。當工具可以讓人更輕鬆地創作時,人們就會成為創造者和消費者的混合體。

Suno 首頁.
跟隨 Suno 的腳步,Udio 的頁面也向音樂軟體看齊了,有編輯精選、流行趨勢、熱門類別、熱門曲目等欄目分類。

Udio 首頁.
但從直觀的聽感來說,文生音樂的 AI 工具們都還不夠好。它們無法讓人忘記,這是機器製作的音樂,一旦聽久了,必須停下來緩緩,要不然便是頭昏腦脹。
當然,初出茅廬的 Udio 還只是 v1 模型,Suno 也只是 v3 版本,進步的空間都很大。
未來,Udio 的改進方向是,讓 AI 更加可控,服務於音樂人,包括導入外部曲目、添加參考人聲和更加精細的創作選項。
體驗 Suno 時,我們討論過「創作的幻覺」,音樂被簡化成了提示詞的遊戲,我們的主動權有限,也不能說自己「創作」了音樂。
Udio 給人的感覺也是如此,我們以普通人的角度體驗,樂趣只是暫時的,對音樂人的敬意反而更深。
與此同時,AI 音樂生成工具可能陷入和繪畫一樣的版權爭議,侵害音樂人的權益。就在最近,碧梨、水果姐等數百名音樂人聯名呼籲,不要用 AI 取代人類藝術家。

《滾石》雜誌發現,Udio 可能生成和已故歌手湯姆·佩蒂很相似的音色。Udio 回應,他們內置了一個過濾器,避免生成的聲音和真人音樂家相似,但不是百分百奏效。
然而,他們沒有正面回答,為什麼會出現這樣的情況,更沒有說清楚,訓練數據是什麼,有沒有拿受版權保護的音樂訓練。
迴避了版權問題的 Udio,選擇以另一個角度升華工具的意義:AI 的產出本身是「變革性的」。換句話說,模型正在從訓練數據中創造出新的東西。
Udio 解釋,他們的目標不是複製披頭士這樣的偉大樂隊,與其複製,不如直接聽披頭士。他們所做的,是讓 AI 理解音樂的基礎,然後創作新的音樂,既受到已有作品的啟發,又完全新穎。
言下之意,不原模原樣地反芻,就是創新。更多的人參與創作,就是創新。某種程度上,ChatGPT 已經實現這一點了,它可以為作家、藝術家所用,也融入我們的工作流里。
如果 AI 生成音樂的質量變得越來越好、並且越來越可控,它的「創新」能否被大多數人認同?這一切只能交給時間作答,到時候,AI 音樂的 GPT 時刻或許才真的到來。