為「代理式AI」裝上「護欄」 NVIDIA打造「三重防線」

從自動化走向智能化，AI正以前所未有的方式釋放其潛力，逐步轉型為具備解決複雜問題能力的「知識機器人」，為全球數十億知識工作者描繪了新的圖景。

贊助商廣告

然而，這場技術革命的「B面」，隱含的「副作用」愈加難以預測。在提升全球生產力的同時，代理式AI所承載的責任和潛在風險正呈指數級增長。

如何確保這些智能體不偏離道德和規範的軌道，防止其輸出有害或不當的結果，是對信任、物理安全、網路安全乃至社會責任感的全面考驗。

當AI的「達摩克利斯之劍」懸於頂上，一場「信任危機」之戰正緩緩開啟。

NVIDIA 打造「三重防線」鑄造AI之「盾」

面對AI這把雙刃劍，我們既要規避其鋒芒，也要為其鑄造「護盾」。而NVIDIA 正在構築起應對這場「信任危機」的堅韌「護盾」——NVIDIA NeMo Guardrails。

NVIDIA NeMo Guardrails微服務並非簡單的技術補丁，而是一個開源工具集，作為NVIDIA NeMo的重要組成部分，NVIDIA NeMo Guardrails可以為大語言模型（LLM）應用集成和管理AI護欄，確保AI在預設的安全參數內運行，避免失控和誤用。

NVIDIA NeMo Guardrails的強大之處在於其可擴展性和靈活性。它不僅僅是一套固定的規則，而是一個能夠編排多重「AI護欄」的平台，涵蓋內容安全、主題控制、PII檢測、RAG執行和越獄預防等關鍵領域。

藉助Colang和LangChain等工具，NVIDIA NeMo Guardrails能夠靈活地定義對話流程，並與各種LLM和框架無縫兼容。這種模組化、易於實施的架構，為構建安全、可靠和高度定製化的人工智慧應用提供了有力支撐，無論是支持 RAG 的AI代理、智能副駕駛還是聊天機器人，都能從中獲益。

截取自：NVIDIA部落格

為了幫助企業在代理式AI在大規模運行時受控，NVIDIA最近宣布在其 NVIDIA NeMo Guardrails平台上新增三項NIM 微服務，這些微服務專門針對 AI 安全和內容審核中的常見挑戰，提供一系列實用的解決方案。

贊助商廣告

其中，內容安全NIM微服務可以在AI響應之前，對其內容進行審核，檢測是否存在潛在的有害資訊。這項服務有助於防止AI生成有偏見或有害的輸出結果, 確保回答符合道德標準。

話題控制NIM微服務旨在確保聊天內容保持在預先設定的話題範圍內。這意味著，聊天機器人能夠更有效地引導用戶在特定話題上進行交流，避免偏離原定主題，提高溝通的有效性。

越獄檢測NIM微服務則用於識別和阻止用戶嘗試繞過AI安全特性的行為，增加對越獄企圖的防護, 同時確保在對抗性場景中保持 AI的完整性。

尤其值得一提的是，內容安全NIM微服務背後，是NVIDIA精心打造的Aegis內容安全數據集。這款人工標註數據集，包含了超過35000個樣本，針對AI安全和越獄企圖進行了精準標記，為內容安全微服務的訓練提供了堅實的基礎。

「這是同類數據集中質量最高的數據源之一。」NVIDIA企業AI模型、軟體與服務副總裁Kari Briski這樣說。

面對人工智慧的前沿——「代理式AI」的應用。NVIDIA 方面表示，由於「一刀切」的方法無法有效保護和控制複雜的代理式AI工作流, 通過應用多個輕量級專業模型作為護欄, 開發者可以彌補在只採取較為通用的全局策略和保護措施時可能出現的漏洞。開發者可以使用NIM微服務構建更加安全、可信的代理式AI。並部署在汽車、金融、醫療、製造、零售等行業的客戶服務中, 提高客戶的滿意度和信任度。

值得強調的是，NVIDIA NeMo Guardrails能以最小的延遲提升系統保障能力。實驗表明，即使增加到5個護欄，延遲也僅增加約 0.5 秒（從 0.75 秒到 1.25 秒），而合規性卻顯著提升了50%（從 1X 到 1.5X）。相比之下，僅增加1個護欄就會導致0.25秒的延遲增加（從0.75秒到1秒），合規性僅提升10%。這突顯了NeMo Guardrails在保障系統性能的同時，有效提高安全性和合規性的「性價比」。

然而，僅僅擁有強大的「護盾」還不夠，還需要能夠發現潛在威脅的「偵察兵」。

贊助商廣告

NVIDIA 深諳此道。因此，NVIDIA Research團隊開發了開源套件NVIDIA Garak，用於LLM和應用漏洞掃描。

藉助NVIDIA Garak，開發者可以通過評估數據泄露、提示注入、代碼幻覺、越獄場景等問題，排查隱藏的漏洞，及時發現並解決使用LLM的系統中所存在的潛在漏洞。通過生成不當或不正確輸出結果的測試用例，使開發者更有效地發現並解決AI模型中的潛在弱點，從而提高模型的穩健性與安全性，防患於未然。

行業巨頭「搶裝」 NVIDIA NeMo Guardrails

這場「信任危機」的終結之戰，並非孤軍奮戰。眾多行業領導者和合作夥伴已經率先行動，通過將NVIDIA NeMo Guardrails 融入到其AI戰略中，共同構築「可信 AI」的未來。

全球領先的傳媒企業軟體與服務提供商Amdocs，是先行者之一。目前，Amdocs已經將NVIDIA NeMo Guardrails 集成到 amAIz 平台，以增強該平台的『可信AI』體驗的安全性、可靠性和可擴展性。

在汽車領域，Cerence AI 選擇將 NVIDIA NeMo Guardrails 應用於其車載系統，確保了其CaLLM語言模型能夠準確理解情境，有效過濾不當內容，同時為汽車製造商提供定製化的內容安全保障。

家居裝飾零售商巨頭勞氏公司（Lowe’s）也將NVIDIA NeMo Guardrails應用於客戶服務創新。這一技術的加入顯著提升了AI回答的安全性和準確性，讓他們能夠為客戶提供更專業、更可靠的服務支持。持續提升客戶服務體驗。

值得注意的是，對於勞氏公司等零售商而言，還可以通過NVIDIA 在NRF展會上宣布推出的建立在NVIDIA AI Enterprise 和 NVIDIA Omniverse平台上的「零售購物助理」 AI Blueprint，打造出人工智慧驅動的數字助理，提高客戶滿意度和生產力。目前，該「零售購物助理」 AI Blueprint也整合了NeMo Guardrails微服務，旨在為數字購物創造更加可靠、可控的客戶交互。

諮詢行業的領軍企業Taskus、Tech Mahindra和Wipro也紛紛將NeMo Guardrails集成到其解決方案中，為企業客戶提供更加安全、可靠、可控的生成式AI應用。

贊助商廣告

事實上，憑藉其領先的開放性和可擴展性，NVIDIA NeMo Guardrails構建了一個強大的生態系統，與ActiveFence、Hive、Fiddler、Weights & Biases等領先的AI安全模型、防護提供商和開發工具深度集成，共同應對AI安全領域的各種挑戰。

對於開發者而言，也可以通過 NeMo Guardrails 開源社區，通過編排多項AI軟體策略( rail)提高LLM 應用的安全性和可控性。NVIDIA方面稱，rail與 NVIDIA NIM微服務一同組成了一個強大的AI系統構建框架，可在不影響安全和性能的情況下進行大規模部署。

目前，NVIDIA NeMo Guardrails微服務以及用於編排rail 的NVIDIA NeMo Guardrails和NVIDIA Garak套件已向開發者和企業開放。開發者可按照官網的教學使用NVIDIA NeMo Guardrails。

寫在最後

康德在《純粹理性批判》強調理性的界限。對比來看，AI作為生產力的新形態，其發展也存在界限，其體現在推動社會進步的「正題」和潛在風險的「反題」之間。

NVIDIA NeMo Guardrails正為AI勾勒出運行的邊界，讓AI即可以最大限度地發揮其能動性，同時不會逾越倫理與安全的紅線。同時，NVIDIA通過構建「三重防線」，幫助行業更好駕馭AI，在保障安全的前提下最大程度釋放AI的潛力和價值。

如今的AI，正在逐漸在自由與約束之間找到平衡點。