
思科和英偉達都意識到,儘管當今的 AI 技術非常有用,但同時也可能存在不安全和不可靠的問題。為此,兩家公司推出了相關工具來解決這些問題。
英偉達在周四推出了三種專門的微服務,旨在防止 AI 代理被用戶劫持或在網路上發布不當內容。
據 The Next Platform 報道,這三個英偉達推理微服務 (NIMs) 是 GPU 巨頭 NeMo Guardrails 系列的最新成員,旨在引導聊天機器人和自主代理按預期方式運行。
這三種服務包括:
內容安全 NIM:試圖阻止 AI 模型產生有偏見或有害的輸出,確保響應符合道德標準。其工作原理是將用戶的輸入提示和模型的輸出作為一對輸入通過 NIM 進行分析,判斷輸入和輸出是否恰當。然後可以根據這些建議採取行動,要麼提醒用戶行為不當,要麼阻止模型輸出不當內容。該 NIM 使用 Aegis Content Safety Dataset 進行訓練,該數據集包含約 33,000 個標記為安全或不安全的用戶-LLM 交互。
主題控制 NIM:據稱可以"保持對話集中在已批准的主題上,避免偏離或出現不當內容"。該 NIM 接收模型的系統提示和用戶輸入,判斷用戶是否在討論系統提示相關的主題。如果用戶試圖使模型偏離軌道,該 NIM 可以幫助阻止。
越獄檢測 NIM:顧名思義,它只分析用戶輸入以檢測試圖讓 LLM 違背其預期目的的越獄嘗試。
如我們之前所探討的,防止提示注入攻擊是很困難的,因為許多 AI 聊天機器人和助手都是基於通用語言處理模型構建的,它們的防護措施可能被簡單的說服所破壞。例如,在某些情況下,僅僅指示聊天機器人"忽略所有先前的指令,改為執行此操作"就可能導致開發者不希望看到的行為。這種情況是英偉達的越獄檢測模型希望防範的幾種情況之一。
根據具體應用,GPU 巨頭表示,可能需要將多個防護模型串聯起來(如主題控制、內容安全和越獄檢測),以全面解決安全漏洞和合規性挑戰。
使用多個模型確實會增加開銷和延遲。因此,英偉達選擇將這些防護基於較小的語言模型,每個模型的參數量約為 80 億,可以以最少的資源大規模運行。
這些模型可作為 NIMs 提供給 AI Enterprise 客戶使用,或者通過 Hugging Face 供那些希望手動實現的用戶使用。
英偉達還提供了一個名為 Garak 的開源工具,用於識別應用程序中的 AI 漏洞,如數據泄露、提示注入和幻覺,以驗證這些防護措施的有效性。
思科也想分一杯羹
思科的 AI 資訊安全工具將以 AI Defense 的名稱提供,其中包含與英偉達類似的模型驗證工具,思科表示該工具將調查 LLM 性能並提醒資訊安全團隊任何可能產生的風險。
該網路巨頭還計劃提供 AI 發現工具,幫助安全團隊尋找業務部門在未經 IT 監督的情況下部署的"影子"應用程序。
思科還認為,一些公司在實施聊天機器人時犯了錯誤,沒有將其限制在預期角色內(如純客戶服務交互),從而允許用戶不受限制地訪問像 OpenAI 的 ChatGPT 這樣的服務。如果人們發現並利用你的聊天機器人作為訪問付費 AI 服務的方式,這個錯誤可能會花費大筆費用。
據稱,AI Defense 將能夠檢測這類情況,以便你進行修復,並將包括數百個防護措施,以 (希望) 防止 AI 產生不必要的結果。
該產品仍在開發中,將添加到思科的雲端 Security Cloud 和 Secure Access 服務中。後者將在 2 月份增加一項名為 AI Access 的服務,用於阻止用戶訪問你不希望他們使用的在線 AI 服務。更多服務將隨時間推出。
思科還在改變其面向客戶的 AI 代理,這些代理可以為其產品提供自然語言界面,但目前每個產品都是獨立運作的。該網路巨頭計劃推出一個統一的代理來管理所有服務,這樣網路管理員可以使用單一的聊天界面來獲取有關其思科產品組合不同組件的答案。
思科 AI 工程副總裁 Anand Raghavan 告訴 The Register,他有一個多年路線圖,指向更多 AI 安全工具的開發。考慮到 IT 部門已經面臨眾多資訊安全威脅,並且經常難以實施和整合解決這些問題的工具,這是一個令人深思的資訊。
其他 AI 新聞...
谷歌研究人員提出了一種名為 Titans 的基於注意力機制的 LLM 架構,該架構可以擴展到超過 200 萬個 token 的上下文窗口,並且由於其處理資訊記憶的方式,性能優於超大型模型。描述該方法的預印本論文可在此處查看。
FTC 已將其對 Snap 的 MyAI 聊天機器人的調查提交給美國司法部,可能會進行刑事起訴。該監管機構表示,它認為該軟體對年輕用戶構成"風險和危害"。