音樂界 Sora 上線！AI音樂的 GPT 時刻到來了嗎？

Suno 爆火之後，又一個音樂界 ChatGPT 來了：Udio。

贊助商廣告

它由前 Google DeepMind 工程師開發，被矽谷知名風投 a16z、Instagram 創始人看好。

雖有爆款之相，但產品本身才能決定，Udio 可否在前輩的開荒後，再留下自己的痕跡。

體驗下來發現，Udio 的缺點和優點都很明顯，和 Suno 各有所長。同時，目前所有的 AI 音樂都是初聽還行，聽多了便會出現耳朵和大腦不耐受的情況。

人聲更清晰的賽博點唱機

先看看 Udio 官方精挑細選的作品，直觀感受好不好聽。

乍一聽，AI 擅長的音樂體裁挺多，很適合給團建和蹦迪熱場，但留不下什麼深刻印象。

反而是網友們的自發創作更有意思。從目前的熱門作品來看，相比 Suno，Udio 有兩個特點：一是人聲更加清晰，二是曲風的既視感更強，總感覺在哪裡聽過。

以下這首把競爭對手 Suno 唱進詞裡的復古歌曲，女聲比 Suno 更清晰，機器味也更少。

百老匯音樂劇版沙丘則靠創意取勝，合唱團讚美由甜茶飾演的主角保羅，融合了青少年流行、音樂劇旋律以及搖滾元素。

Udio 甚至還能模仿迪士尼歌舞片的風格，仿佛《美女與野獸》的貝兒、《阿拉丁》的茉莉公主、《冰雪奇緣》的艾莎在耳邊歌唱。

‍

Udio 自己也以人聲為傲，表示 AI 會很多唱法，把高亢福音、沙啞藍調、夢幻流行、絲滑說唱一網打盡。

至於體裁和曲風方面，比較出乎意料的是，Udio 擅長古典，以下這首《C 大調快板合奏》和巴赫的布蘭登堡協奏曲非常相似。

按照 Udio 的規定，它和 Suno 一樣，不支持用某個藝術家的聲音生成歌曲。不過，Udio 可以用藝術家的風格作為提示詞，比如「貝多芬」。甚至有網友叫囂，如今自己也能成為古典作曲家了。

鄉村音樂也是 Udio 的舒適區，《Highway Lasts》這首，有些泰勒·斯威夫特早期專輯的味道，甚至音色和唱腔也莫名形似。

官方表示，Udio 擅長的流派和風格有很多，如電子舞曲、鋼琴爵士、新靈魂樂、極端金屬，也精通多種語言，支持生成日本流行樂、寶萊塢音樂、俄羅斯夢幻流行音樂。

贊助商廣告

凡事不能光看說了的，也要挖掘被隱藏的。Udio 沒有提及中文，可能是有意藏拙。

果然，讓 Udio 唱中文歌，有種霸王硬上弓的感覺，咬字不清晰又錯誤頻出，發音有點像塑料粵語，不知道是不是拿港台歌訓練的 AI，且素材不是很夠。

要不是我親手輸入了蘇軾《定風波》的「竹杖芒鞋輕勝馬......」，根本聽不懂女聲在唱什麼。

讓 AI 自動生成中文歌詞更是災難，時不時夾雜英語，且沒有什麼韻味。

Udio 生成的歌詞.

生成十幾遍才有一首咬字基本清晰的中文歌曲之後，我也變得佛系了。難聽，不想再聽，嘔啞嘲哳難為聽，但好不好聽已經沒法苛求。勉強寬慰自己，唱得還挺響亮和精神。

新手友好的開盲盒

Udio目前發布的是免費測試版，註冊帳號之後，每個人每月最多可以生成 1200 首歌曲，按照理想情況，40 秒內就能生成一首。

看著比 Suno 每天 50 個積分大氣多了，然而官網擠爆了，伺服器又不穩定，我的第一首歌三個多小時都沒生成完畢，再登上去查看居然原地消失，只能重新輸入提示詞，之後的節奏倒是很快，基本在 2 分鐘內就能生成。

而且，Udio 創作的片段，默認為 30 多秒，相比 Suno 的 2 分鐘，算是大打折扣。

這些是基礎設施和基本設定的問題，Udio 也有做得優秀的地方。

和 Suno 類似，Udio 的創作界面非常直觀，輸入提示詞，點擊生成，等待 AI 創作完畢。也與 Suno 一樣，Udio 通過 API 調用 ChatGPT 編寫歌詞。

除了讓 AI 自由發揮，Udio 也可以更加定製化，讓你輸入自己的歌詞，添加具體的流派標籤，選擇生成純音樂，或者包含歌詞和人聲的歌曲。

同時 Udio 不閒著，起到一個助手的作用，不斷地給你提建議，更加新手友好。

一方面，Udio 提醒你怎麼讓歌詞的效果更好，建議你加一些額外的標籤，比如[Verse]（主歌）、[chorus]（副歌），讓 AI 更好地理解歌曲的基本架構。

這點其實也寫在 Suno 的社區指南里，但初次嘗試的新手不一定明白，Udio 把建議寫在了輸入框旁邊，背後原因令人暖心。

贊助商廣告

另一方面，按照你的提示詞，Udio 會建議添加一些流派的標籤，比如當我想要生成中國風的音樂，Udio 建議添加「traditional pop」。

Udio 還有一個手動模式（manual mode），一般來說，Udio 會改寫我們的提示詞，提高生成的質量。

但在這種模式下，Udio 不會做中間商，而是讓你原汁原味地和模型交互，應該更適合那些本身就有音樂底子的創作人。

生成之後，Udio 還支持再加工，讓你擴展音軌的長度，添加[Intro]（前奏）、[Outro]（尾奏）等部分，讓作品更加完整。

這個細節 Udio 也比 Suno 做得細緻，之前體驗 Suno 時，我不知道可以在最前面寫上[Intro]（前奏），導致生成的歌曲一開始就是人聲，不太符合日常聽歌的習慣。

就算 Udio 的界面做得簡單，但所謂「創作」的過程，還是個開盲盒的過程，並且出錯概率體感比 Suno 要多，很容易讓人垂頭喪氣。

如果你對生成的效果不滿意，不如玩玩 Udio 的隨機提示詞，比如「一首關於搶劫失敗的合成流行音樂」「一首關於與時間賽跑的拉丁歌曲」「一首關於期待久別重逢的電子舞曲」。

贊助商廣告

抱著降低期待的心理，我們就不必將 AI 當作精準的創作工具。

如果我們在聚會、團建等場景需要歌曲調動一下氛圍，那基本就夠用了。這是普通音樂愛好者的赦免權，我們不必創作偉大的音樂，但可以多玩，看能不能生成自己喜歡的音樂。

允許 AI「創作」新的音樂

雖然 Udio 在 4 月 10 日才對外宣布，但這是一場事先張揚的發布，之前就有音樂泄露在 X，引起外界的關注和猜測。

類比是人類的習慣。「音樂界 ChatGPT」的名號已經被 Suno 用了，因為 Udio 可以根據文本提示，快速生成包含人聲的完整音軌，支持多種風格和流派，也領了一個網際網路稱號：「音樂界 Sora」。

預熱完了，Udio 終於露出廬山真面目，創始團隊裡有 4 位是 Google DeepMind 前員工。

和 Suno 一樣，Udio 也是希望音樂創作更大眾化，同時服務於音樂家，讓創作和分享音樂更簡單，讓想像力變現的門檻更低。

文字、圖片、音頻、影片，現在的我們其實已經見過了 AI 的各種文本生成。

在 Udio 團隊看來，從文本生成一首完整的歌曲，最有魔法的感覺，是個「wow event」（哇哦時刻）。

這是因為，音樂是我們更投入情感、也更願意花時間消費的領域。

Udio 的目標不僅是擁有一個創作音樂的工具，還要搭建一個圍繞它的、所有人都能參與的社區。當工具可以讓人更輕鬆地創作時，人們就會成為創造者和消費者的混合體。

Suno 首頁.

跟隨 Suno 的腳步，Udio 的頁面也向音樂軟體看齊了，有編輯精選、流行趨勢、熱門類別、熱門曲目等欄目分類。

贊助商廣告

Udio 首頁.

但從直觀的聽感來說，文生音樂的 AI 工具們都還不夠好。它們無法讓人忘記，這是機器製作的音樂，一旦聽久了，必須停下來緩緩，要不然便是頭昏腦脹。

當然，初出茅廬的 Udio 還只是 v1 模型，Suno 也只是 v3 版本，進步的空間都很大。

未來，Udio 的改進方向是，讓 AI 更加可控，服務於音樂人，包括導入外部曲目、添加參考人聲和更加精細的創作選項。

體驗 Suno 時，我們討論過「創作的幻覺」，音樂被簡化成了提示詞的遊戲，我們的主動權有限，也不能說自己「創作」了音樂。

Udio 給人的感覺也是如此，我們以普通人的角度體驗，樂趣只是暫時的，對音樂人的敬意反而更深。

與此同時，AI 音樂生成工具可能陷入和繪畫一樣的版權爭議，侵害音樂人的權益。就在最近，碧梨、水果姐等數百名音樂人聯名呼籲，不要用 AI 取代人類藝術家。

《滾石》雜誌發現，Udio 可能生成和已故歌手湯姆·佩蒂很相似的音色。Udio 回應，他們內置了一個過濾器，避免生成的聲音和真人音樂家相似，但不是百分百奏效。

然而，他們沒有正面回答，為什麼會出現這樣的情況，更沒有說清楚，訓練數據是什麼，有沒有拿受版權保護的音樂訓練。

迴避了版權問題的 Udio，選擇以另一個角度升華工具的意義：AI 的產出本身是「變革性的」。換句話說，模型正在從訓練數據中創造出新的東西。

Udio 解釋，他們的目標不是複製披頭士這樣的偉大樂隊，與其複製，不如直接聽披頭士。他們所做的，是讓 AI 理解音樂的基礎，然後創作新的音樂，既受到已有作品的啟發，又完全新穎。

言下之意，不原模原樣地反芻，就是創新。更多的人參與創作，就是創新。某種程度上，ChatGPT 已經實現這一點了，它可以為作家、藝術家所用，也融入我們的工作流里。

如果 AI 生成音樂的質量變得越來越好、並且越來越可控，它的「創新」能否被大多數人認同？這一切只能交給時間作答，到時候，AI 音樂的 GPT 時刻或許才真的到來。

贊助商廣告