基於語音創建3D場景，NVIDIA Project Mellon開啟測試

去年，NVIDIA公布了一項基於自然語音交互的XR內容開發平台：Project Mellon。在近期舉行的GTC 2023上，該公司宣布Project Mellon的1.0版將面向開發者測試。據悉，該平台的特點就是通過自然語言，通過說話即可生成對應的3D內容，比以往通過代碼創建3D場景的形式要更輕鬆，更加易於使用，不僅對未來普通用戶也十分方便，同時對商業場景效率也會更高，例如在NIVIDIA Omniverse工業場景中也可方便的進行實時更改、審核等工作。

贊助商廣告

Project Mellon 1.0的關鍵特性如下：

輕量級、易於集成的Python庫
LLM，可準確理解自然語言
零樣本語言模型，無需特定命令訓練
自然語音指令支持會話和視覺上下文理解
可詢問有關命令和場景的問題，具有自然語言響應
可理解、執行命令的Python API
網頁端測試應用程序
ASR、TTS、LLM和神經機器翻譯（NMT）可在本地或遠程託管，響應時間低

隨著生成式AI技術發展，越來越多平台也開始嘗試用AI來輔助開發。與傳統手動編程相比，生成式AI速度更快、使用更自然，可一定程度上加速應用開發流程。對於AR/VR來講，生成式AI未來可能會成為豐富內容生態的重要工具。此前，Meta也曾展示一種利用AI語音助手來實時構建虛擬世界的技術：Builder Bot，你只需要對它說「沙灘」、「樹」、「野餐布」等語音指令，就能將不同的場景元素召集到你周圍。

細節方面，Project Mellon實際上是一個輕量級的Python套件，主要由三部分組成：Project Mellon SDK、NVIDIA Riva語音AI，以及NVDIA NeMo大型語言模型（LLM）。在一些演示中，開發者們可以用語音來改變VR中3D模型的顏色和動作，這種功能也可以用來簡化應用的UX，意味著XR應用無需培訓用戶如何操作，允許用戶直接用自然語言交互，也無需記憶特定指令。