最新 AI 工具和功能加速 RTX AI PC 上的 Windows 應用開發
生成式 AI 賦能的筆記本電腦和 PC 正在推動遊戲、內容創作、生產力和程序開發更進一步。目前,超過 600 款 Windows 應用和遊戲已在全球超過 1 億台 GeForce RTX AI PC 上本地運行 AI,提供快速、可靠的低延遲體驗。
在 Microsoft Ignite 大會上,NVIDIA 與微軟聯合推出多個工具,幫助 Windows 開發者在 RTX AI PC 上快速構建和優化 AI 賦能的應用,使本地 AI 更加便捷。這些新工具使應用和遊戲開發者能夠利用強大的 RTX GPU 加速 AI 智能體、應用助手和數字人等應用的複雜 AI 工作流。
RTX AI PC 通過多模態小語言模型為數字人賦能
我們來認識一下 James,一個熟知 NVIDIA 及其產品的交互式數字人。James 將 NVIDIA NIM 微服務、NVIDIA ACE 和 ElevenLabs 數字人技術相結合,可提供自然的沉浸式交互體驗。
NVIDIA ACE 是一套數字人技術,可以讓智能體、助手和虛擬形象栩栩如生。為了深度理解資訊,以更強的情境感知能力做出響應,數字人必須能夠像人一樣在視覺上感知世界。
提升數字人交互的真實感,需要能夠感知和理解周圍環境更細微差別的技術。為此,NVIDIA 開發了多模態小語言模型,可同時處理文本和圖像資訊,在角色扮演方面表現出色,並針對響應速度進行了優化。
NVIDIA 即將推出的 Nemovision-4B-Instruct 模型利用最新的 NVIDIA VILA 和 NVIDIA NeMo 框架進行蒸餾、剪枝和量化,使其體積小到足以在 RTX GPU 上以開發者所需的精度運行。該模型使數字人能夠理解現實世界和螢幕上的視覺圖像,以做出相關的響應。多模態作為智能體工作流的基礎,讓我們得以窺見未來,屆時數字人只需極少的用戶輔助,即可進行推理並採取行動。
NVIDIA 還推出了 Mistral NeMo Minitron 128k Instruct 系列模型,這是一套專為優化的高效數字人交互而設計的長上下文小語言模型。這一系列模型提供 8B、4B 和 2B 參數版本的靈活選項,以平衡在 RTX AI PC 上運行的速度、顯存用量和模型精度。模型單次推理可以處理大量數據,無需進行數據分割和重組。這些模型提供 GGUF 格式,為低功耗設備的效率進行優化,並與多種編程語言兼容。
利用面向 Windows 的 NVIDIA TensorRT Model Optimizer 加速生成式 AI
將模型引入 PC 環境時,開發者面臨著有限的顯存和計算資源,這為本地運行 AI 提出了挑戰。開發者希望模型可以被更多人使用,同時精度損失最小。
今天,NVIDIA 公布了 NVIDIA TensorRT Model Optimizer (ModelOpt) 的更新,為 Windows 開發者提供了針對 ONNX Runtime 部署的模型優化方案。藉助最新更新,TensorRT ModelOpt 可將模型優化為 ONNX 格式,以便使用 CUDA、TensorRT 和 DirectML 等 GPU 運行後端在 ONNX 運行時環境中部署模型。
最新更新使模型可優化為 ONNX 檢查點,以便通過 CUDA、TensorRT 和 DirectML 等執行提供商在 ONNX 運行時環境中部署模型,從而提高整個 PC 生態系統的精度和吞吐量。
在部署時,與 FP16 模型相比,這些模型可將顯存占用減少 2.6 倍。這可提高吞吐量,同時精度損失降到最低,使其能夠在更多的 PC 上運行。
詳細了解從 Windows RTX AI PC 到 NVIDIA Blackwell 驅動的 Azure 伺服器等 Microsoft 系統開發者如何改變用戶日常與 AI 交互的方式。