去年,NVIDIA公布了一項基於自然語音交互的XR內容開發平台:Project Mellon。在近期舉行的GTC 2023上,該公司宣布Project Mellon的1.0版將面向開發者測試。據悉,該平台的特點就是通過自然語言,通過說話即可生成對應的3D內容,比以往通過代碼創建3D場景的形式要更輕鬆,更加易於使用,不僅對未來普通用戶也十分方便,同時對商業場景效率也會更高,例如在NIVIDIA Omniverse工業場景中也可方便的進行實時更改、審核等工作。
Project Mellon 1.0的關鍵特性如下:
- 輕量級、易於集成的Python庫
- LLM,可準確理解自然語言
- 零樣本語言模型,無需特定命令訓練
- 自然語音指令支持會話和視覺上下文理解
- 可詢問有關命令和場景的問題,具有自然語言響應
- 可理解、執行命令的Python API
- 網頁端測試應用程序
- ASR、TTS、LLM和神經機器翻譯(NMT)可在本地或遠程託管,響應時間低

隨著生成式AI技術發展,越來越多平台也開始嘗試用AI來輔助開發。與傳統手動編程相比,生成式AI速度更快、使用更自然,可一定程度上加速應用開發流程。對於AR/VR來講,生成式AI未來可能會成為豐富內容生態的重要工具。此前,Meta也曾展示一種利用AI語音助手來實時構建虛擬世界的技術:Builder Bot,你只需要對它說「沙灘」、「樹」、「野餐布」等語音指令,就能將不同的場景元素召集到你周圍。
細節方面,Project Mellon實際上是一個輕量級的Python套件,主要由三部分組成:Project Mellon SDK、NVIDIA Riva語音AI,以及NVDIA NeMo大型語言模型(LLM)。在一些演示中,開發者們可以用語音來改變VR中3D模型的顏色和動作,這種功能也可以用來簡化應用的UX,意味著XR應用無需培訓用戶如何操作,允許用戶直接用自然語言交互,也無需記憶特定指令。