英偉達已經充實了完整的軟體技術棧,旨在簡化面向企業客戶的定製模型開發與部署流程。這是否代表著AI Nervana目標的實現?AMD和英特爾又該如何與之抗衡?
為了推動企業客戶擁抱AI,其准入門檻與經濟效益必須進一步優化。英偉達為此重新發布了AI Foundry項目,旨在幫助企業適應並採用AI以滿足自身業務需求,同時擺脫從頭開始的複雜步驟以及數額可觀的資金投入。
這個時機選得恰到好處,目前投資者越來越擔心企業可能很難從AI投資當中獲得良好回報。如果沒有企業採用,AI技術將遭遇失敗,我們也將再次身陷AI寒冬。為了駁斥這種觀點,英偉達計劃在下一次財報電話會議上分享關於企業投資回報率的故事。而此番公布的AI Foundry加NIM組合,也許會成為大多數企業後續前進的標準路線。雖然這個故事中的許多組件來自開源社區,但其只能在英偉達GPU上運行。而且據我們所知,還沒有哪家晶片廠商擁有與NIM或者AI Foundry相近的方案選項。
AI Foundry究竟是什麼?
英偉達AI Foundry是一整套軟體、模型與專家服務的組合,旨在幫助企業輕鬆起步並完成自己的AI探索之旅。那這樣的定位是否會讓英偉達與IBM和埃森哲等生態系統諮詢合作夥伴發生衝突?畢竟埃森哲一直在使用英偉達AI Foundry改造其內部企業職能,並藉助自己學習到的知識建立起了Accenture AI Refinery來幫助客戶完成同樣的探索。此外,德勤也正在摸索類似的前進道路。
自定義模型的創建工作流程。
根據英偉達就Foundry項目發表的博文介紹,「如同台積電根據其他廠商的設計圖製造晶片一樣,英偉達AI Foundry的定位也是為其他公司提供基礎設施與工具以開發並定製AI模型——具體組件包括DGX Cloud、基礎模型、英偉達NeMo軟體、英偉達專業知識以及生態系統工具和支持。」
英偉達Foundry最初於2023年年底推出,當時主要面向微軟Azure託管AI。在此之後,英偉達招募了數十家合作夥伴幫助其交付這套平台,包括亞馬遜雲科技、Google Cloud和Oracle Cloud,以及數十家生成式AI公司、模型開發商、集成商以及OEM夥伴。
隨著新合作夥伴的湧現,英偉達AI Foundry的生態系統也迎來了蓬勃發展。
英偉達AI Foundry服務匯聚了打造特定數據集或者企業定製化模型所必需的三大要素——英偉達AI基礎模型集合、英偉達NeMo框架及工具,以及英偉達DGX Cloud AI超級計算服務。三者合一,將為企業提供一套用於構建定製化生成式AI模型的端到端解決方案。
但說到這裡,很多朋友可能想到了RAG——這不就是檢索增強生成的作用嗎?沒錯,RAG確實能夠很好地將企業中的特定數據添加到大模型當中,但英偉達表示,Foundry所生成的定製模型在準確度方面要比簡單掛載RAG的方案高出十個百分點。這10%的差異,足以決定一套模型到底足夠投入生產,還是被徹底扔進垃圾堆。
還有NIM
NIM提供的則是必要構建塊,能夠大大簡化並擴展Foundry能夠發揮作用的領域範圍。英偉達分享了其面向各個領域打造的50多個NIM。有些朋友可能不太熟悉,NIM是指英偉達NIM Factory構建的容器化推理處理微服務,而擁有AI許可證的企業客戶還能訪問ai.nvidia.com上不斷增長的NIM資源庫。
英偉達NIM正在迅速增長,涵蓋了大多數主要的數據和AI模式。
就在Foundry發布的同時,恰逢Meta推出了自己的開源大模型Llama 3.1 405B——這是首個能夠與OpenAI、谷歌乃至其他廠商的頂尖閉源AI模型相媲美的開放模型,在常識、可操縱性、數學、工具使用以及多語言翻譯等方面均具備最先進的能力。Meta認為最新一代的Llama將激發新的應用與建模範式,包括用於改進和訓練較小模型的合成數據生成,以及模型蒸餾功能。英偉達Foundry還支持Nemotron、谷歌DeepMind的CodeGemma、CodeLlama、谷歌DeepMind的Gemma、Mistral、Mixtral、Phi-3、StarCoder2等項目。
藉此良機,英偉達表示其經過優化的NIM能夠提高Llama 3.1等模型的性能。英偉達TensorRT-LLM等推理解決方案則可提高Llama 3.1模型的效率,從而最大限度降低延遲並儘可能提高吞吐量,幫助企業更快生成token,最終降低在生產環境下運行大模型的總成本。
相較於Meta公布的Llama 3.1,NIM在同等硬體上能夠實現更強的性能。
英偉達此次還發布了四項新的NeMo Retriever NIM微服務,使得企業能夠擴展至「代理AI」工作流程(即AI應用程序在最少干預或者監督之下準確運行),同時提供最高精度的檢索增強生成(RAG)功能。這些新的NeMo Retriever嵌入和重新排名的NIM微服務目前已經全面開放:
NV-EmbedQA-E5-v5是一種流行的社區基礎嵌入模型,針對文本問答檢索進行了優化。
NV-EmbedQA-Mistral7B-v2是一種流行的多語言社區基礎模型,針對文本嵌入進行了微調,能夠實現高精度問答功能。
Snowflake-Arctic-Embed-L是一種經過優化的社區模型。
NV-RerankQA-Mistral4B-v3是一種流行的社區基礎模型,針對文本重新排名進行了微調,旨在實現高精度問答能力。
英偉達在相關博文當中解釋道,「NeMo Retriever兼具雙方面優勢,既通過使用嵌入NIM來廣泛進行數據檢索,同時又使用重新排序的NIM以修剪結果的相關性。NeMo Retriever能夠幫助開發人員構建起相應管線,確保為自己的企業提供最有用、最準確的結果。」
NIM應用示例:醫療保健聊天機器人
這裡來看相關示例。假設我們想要構建一款數字助手來幫助患者獲取個性化資訊。英偉達展示了如何將3個代理智能體加9個NIM來構建一款助手應用程序。整個效果與Nervana的目標非常接近,且遠遠走出了競爭對手所能交付的一切實際產品。
可以使用一組NIM來創建醫療保健數字助手。
總結
雖然競爭對手仍在努力提高加速器的性能和連接能力,但英偉達已經開闢出支持AI採用的軟體新賽道。目前來看,市面上似乎並不存在NIM或者Foundry項目的直接競爭對手。當然,Transformer Engine和TensorRT-LLM也同樣獨樹一幟,相較於不具備此類功能的GPU可實現2到4倍的性能增益。
隨著企業努力適應並採用匹配其業務和應用程序的定製化模型,英偉達正在開拓一條通往企業級AI的新捷徑。
至於定價問題,NIM已經包含在各GPU的Enterprise AI許可證之內;而Foundry則須根據客戶的實際情況單獨定價,不在Enterprise AI的服務範圍。