宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

CIO指南:採用開源生成式AI需要注意的十件事

2024年05月28日 首頁 » 熱門科技

開源生成式AI模型是可以免費下載的、大規模使用而無需增加API調用成本的,並且可以在企業防火牆後面安全運行。但你不要放鬆警惕,風險仍然存在,有些風險不僅被放大了,而且針對生成式AI的新風險正在出現。

CIO指南:採用開源生成式AI需要注意的十件事

如今似乎任何人都可以製作AI模型,即使你沒有訓練數據或者編程能力,也可以採用你最喜歡的開源模型,對其進行調整,然後以新名稱發布。

根據斯坦福大學今年4月發布的「AI Index Report」報告顯示,2023年有149個基礎模型發布,其中三分之二是開源的,並且還有數量驚人的變體。Hugging Face目前追蹤到僅在文本生成方面就有超過80000個大型語言模型,所幸的是,它有一個排行榜,讓你可以根據模型在各種基準上的得分情況快速對模型進行排序。這些模型雖然落後於大型商業模型,但正在迅速得到改進。

安永美洲公司的生成式AI負責人David Guarrera表示,在研究開源生成式AI時,排行榜是一個很好的起點,他表示,HuggingFace的基準測試尤其出色。

「但不要低估參與其中並使用這些模型的價值,因為這些模型是開源的,所以很容易做到這一點,也很容易將它們替換掉。」他說,開源模型與封閉的商業替代方案之間的性能差距正在縮小。

Uber Freight公司工程負責人Val Marchevsky表示:「開源非常棒,我發現開源非常有價值。」他說,開源模型不僅在性能上趕上了專有模型,而且有些模型提供了閉源模型無法比擬的透明度。一些開源模型可以讓你看到什麼用於推理,什麼不用於推理,可審計性對於防止幻覺是很重要的。」

當然,還有價格上的優勢。「如果你的數據中心恰好有容量,為什麼還要花錢找別人呢?」他說。

企業已經非常熟悉使用開源代碼了。根據Synopsys今年2月發布的開源安全和風險分析報告顯示,有96%的商業代碼庫都包含開源組件。

有了這些經驗,企業應該知道該怎麼做才能確保他們使用的是經過適當許可的代碼,如何檢查漏洞,如何保持所有內容都已經修補並保持最新狀態。不過,其中一些規則和最佳實踐存在可能會被忽視的特殊細微差別,以下就是最主要的幾條。

1、奇怪的新許可條款

不同開源許可證類型的情況非常複雜。一個項目用於商業用途是否安全,還是僅對於非商業實施是安全的?可以修改和分發嗎?可以安全地合併到專有代碼庫中嗎?如今,隨著AI時代的到來,一些新的問題開始湧現。首先,有一些新的許可證類型僅在非常寬鬆的範圍下開放源代碼。

以Llama許可為例。Llama系列模型是目前最好的開源大型語言模型之一,但Meta官方將其描述為「定製的商業許可,平衡模型的開放訪問與責任和保護,以幫助解決潛在的濫用問題」。

企業可以在商業用途中使用這些模型,也可以讓開發者在Llama基本模型的基礎上創建和分發額外的工作,但不允許他們使用Llama輸出的內容來改進其他Llama,除非本身就是Llama衍生品。如果企業或其附屬機構的每月用戶數超過700人,那麼他們必須申請Meta可能授予、也可能不授予的許可。如果他們使用Llama 3,則必須在顯著位置添加「Built with Llama 3」。

同樣地,Apple剛剛在「Apple示例代碼許可」下發布了OpenELM,該許可也是為此而開發的,僅涵蓋版權許可,而不包括專利權。

Apple和Meta都沒有使用普遍接受的開源許可,但代碼實際上是開放的。Apple公司實際上不僅發布了代碼,還發布了模型權重、訓練數據集、訓練日誌和預訓練配置。這給我們帶來了開源許可的另一個方面:傳統的開源軟體就是代碼,事實上它是開源的,意味著你可以看到它的功能以及其中是否存在潛在的問題或漏洞。

然而,生成式AI不僅僅是代碼,還包括了訓練數據、模型權重和微調。所有這些對於理解模型的工作原理和識別潛在偏差都至關重要。例如,根據地平論訓練的模型將無法回答科學問題,或者由朝鮮黑客微調的模型可能無法正確識別惡意軟體。那麼開源大型語言模型會發布所有這些資訊嗎?這要取決於型號,甚至取決於型號的具體版本,因為這是沒有標準的。

卡內基梅隆大學AI教授、普華永道前全球AI負責人Anand Rao表示:「有時他們會提供代碼,但如果沒有進行微調,你可能會花很多錢才能獲得相當的性能。」

2、技能短缺

開源通常是一種自己動手的工作。企業可以下載代碼,但他們需要內部專業知識或聘請顧問才能使一切正常運行,這是生成式AI領域的一個大問題。沒有人擁有多年的經驗,因為這項技術太新了。Rao表示,如果一家企業剛剛開始使用生成式AI,或者想要快速發展,那麼從專有平台開始會更安全。

他說:「下載開源版本需要專業知識。」但他補充道,一旦企業完成了概念驗證,將模型部署到生產中,賬單就開始堆積起來,那麼可能是時候考慮開源的替代方案了。

缺乏行業專業知識也給開源AI領域帶來了另一個問題。開源的主要優勢之一是有很多人查看代碼、發現編程錯誤、安全漏洞和其他弱點。但這種開源安全的「千眼」方法,只有在事實上有一千隻眼睛能夠理解他們所看到的內容時才是有效的。

3、「越獄」

眾所周知,大型語言模型很容易受到「越獄」的影響,用戶會給出巧妙的提示,誘騙它違反指導方針,例如生成惡意軟體。對於商業項目,背後有積極主動的廠商,他們可以識別這些漏洞並在出現時將其關閉。此外,廠商還可以訪問用戶發送到模型公共版本的提示,以便他們可以監控可疑活動的跡象。

惡意行為者不太可能購買在私有環境中運行的企業版本產品,在私有環境中,提示不會共享給廠商以改進模型。而企業團隊中可能沒有專人負責尋找開源項目中的越獄跡象。不良行為者可以免費下載這些模型並在自己的環境中運行,以測試潛在的黑客行為。壞人在越獄方面也取得了先機,因為他們可以看到系統提示模型使用的資訊,以及模型開發人員可能構建的任何其他護欄。

Rao說:「這不僅僅是要試錯。」例如,攻擊者可以分析訓練數據,找出讓模型錯誤識別圖像的方法,或者在遇到看似無害的提示時偏離正軌。

如果AI模型在輸出內容中添加水印,惡意行為者則可能會分析代碼以對過程進行逆向工程,去除水印。攻擊者還可以分析模型或其他支持代碼和工具來查找漏洞區域。

全球數字化轉型諮詢公司Nortal的高級數據科學家和能力負責人Elena Sügis表示:「您可能會因為請求而使基礎設施不堪重負,這樣模型就不會出現這種情況。當模型是更大系統中的一個組成部分,並且其輸出內容被系統的另一部分使用時,如果我們可以攻擊模型輸出內容的方式,就會破壞整個系統,這對企業來說可能是存在風險的。」

4、訓練數據的風險

有不少藝術家、作家和其他版權所有者正在起訴大型AI企業。但是,如果他們認為自己的智慧財產權受到開源模式的侵犯,而唯一財力雄厚的企業是將該模式融入其產品或服務的企業,該怎麼辦?企業用戶會被起訴嗎?

安永的Guarrera表示:「這是一個潛在的問題,沒有人真正知道一些懸而未決的訴訟將如何展開。」他說,我們可能會迎來一個必須對數據集進行補償的世界。「大型科技企業更有能力在這方面投入資金,並在版權可能帶來的風暴中存活下來。」

Sügis表示,大型商業廠商不僅有錢用於購買培訓數據和打官司,他們還有錢用於高質量的數據集。免費的公共數據集不僅僅包含未經許可使用的受版權保護的內容,還充滿了不準確和有偏見的資訊、惡意軟體和其他可能降低輸出質量的材料。

「很多模型開發者都在談論使用精選數據,這比你用整個網際網路來訓練它要貴得多。」

5、新的攻擊領域

生成式AI項目不僅僅是代碼,還有更多的潛在領域。大型語言模型可能會在多個方面受到不良行為者的攻擊。他們可能會滲透到管理不善的項目開發團隊中,向軟體本身添加惡意代碼。但Sügis說,他們也可能毒害訓練數據、微調或權重。

「黑客可能會使用惡意代碼示例重新訓練模型,從而侵入用戶的基礎設施,或者用假新聞和錯誤資訊來訓練它。」

另一個攻擊媒介是模型的系統提示。

「這通常對用戶是隱藏的,系統提示可能有護欄或安全規則,允許模型識別不需要或不道德的行為。」

她說,專有模型不會透露模型的系統提示,並且訪問這些內容可能會讓黑客弄清楚如何攻擊模型。

6、缺少護欄

一些開源團體可能會從哲學上反對在他們的模型上設置護欄,或者他們可能認為模型在沒有任何限制的情況下會表現得更好。有些則是專門為惡意目的而創建的。那些想要使用大型語言模型的企業可能不一定知道他們的模型屬於哪一類。Nortal公司的Sügis表示,目前還沒有獨立機構評估開源AI模型的安全性。她表示,歐洲的《人工智慧法案》將要求提供部分此類文件,但其大部分條款要到2026年才會生效。

「我會嘗試獲取儘可能多的文檔,測試和評估模型,並在公司內部實施一些防護措施。」

7、缺乏標準

用戶驅動的開源項目通常是基於標準的,因為企業用戶更喜歡標準和互操作性。事實上,根據Linux基金會去年發布的一項針對近500名技術專業人士的調查顯示,71%的人更喜歡開放標準,而只有10%的人更喜歡封閉標準。另一方面,生產專有軟體的企業可能更願意讓客戶鎖定在他們的生態系統中。但如果你期望開源生成式AI都是基於標準的,那你就錯了。

事實上,當大多數人談論AI標準的時候,他們談論的是道德、隱私和可解釋性等問題。這方面有很多工作正在開展,例如去年12月發布的人工智慧管理系統ISO/IEC 42001標準。4月29日,NIST發布了人工智慧標準計劃草案,其中涵蓋了很多內容,首先是創建一種用於談論AI的通用語言,還主要關注風險和治理問題,但在技術標準方面沒有太多內容。

「這是一個令人難以置信的新興領域,」雲原生計算基金會首席資訊官兼生態系統負責人Taylor Dolezal說。「我看到一些圍繞數據分類的討論,關於為訓練數據、API和提示制定標準格式。」但到目前為止,這還只是討論而已。

他說,矢量資料庫已經有了一個通用的數據標準,但還沒有標準的查詢語言。那麼自主代理的標準又是如何呢?

「我還沒有看到,但我很想看到,找出一些方法,不僅讓代理們可以執行他們的特定任務,而且還要將這些任務結合在一起。」

他說,創建代理最常用的工具LangChain與其說是一個標準,不如說是一個框架。他說,用戶企業——即創造標準需求的公司——還沒有準備好。「大多數最終用戶在開始嘗試之前都不知道自己想要什麼。」

相反,他表示,人們更有可能將OpenAI等主要廠商的API和接口視為新的、事實上的標準。「這就是我看到的情況。」

8、缺乏透明度

你可能認為開源模型從定義上來說是更加透明的,但情況可能並非總是如此。分析引擎和記分牌平台Vero AI的首席執行官Eric Sydell表示,大型商業項目可能有更多的資源用於創建文檔。Vero AI最近發布了一份報告,根據可見性、完整性、立法準備、透明度情況等方面對主要的生成式AI模型進行評分,谷歌的Gemini和OpenAI的GPT-4排名最高。

「僅僅因為它們是開源的,並不一定意味著它們提供了有關模型背景及其開發方式的相同資訊,目前,更大型的商業模型在這方面做得更好。」

以偏見為例。

「我們發現排名中前兩個封閉模型有相當多的文檔,並投入了時間探索這個問題,」他說。

9、血統問題

開源項目有很多分支是很常見的,但當這種情況發生在AI時代時,你就會面臨傳統軟體所沒有的風險。網路安全廠商Sonatype的產品高級副總裁Tyler Warde舉例說,一個基礎模型使用了一個有問題的訓練數據集,有人從中創建了一個新模型,那麼新模型就會繼承這些問題。

「這個模型會有很多黑匣子方面的內容,」他說。

事實上,這些問題可能會追溯到幾個級別,並且不會在最終模型的代碼中可見。當一家企業下載模型供自己使用時,模型就會進一步從原始來源中刪除。最初的基本模型可能已經解決了問題,但是,根據透明度和上下游溝通的程度,開發最後一個模型的開發人員甚至可能不知道問題得到了修復。

10、新的影子IT

那些使用開源組件作為軟體開發過程一部分的企業,擁有適當的流程來審查庫並確保組件是最新的。他們確保項目得到良好的支持,安全問題得到處理,並且軟體具有適當的許可條款。

然而,對於生成式AI,負責審查的人可能不知道要關注什麼。最重要的是,生成式AI項目有時是不符合標準軟體開發流程的,可能來自數據科學團隊或臭鼬工廠。開發人員可能會下載模型來玩,最終得到更廣泛的使用。或者,企業用戶自己可能會遵循在線教學並設置自己的AI,完全繞過IT。

生成式AI的最新進展——自主代理,有可能將巨大的力量交給這些系統,將這種影子IT的潛在風險提高到一個新的高度上。

Corelight公司開源高級總監Kelley Misata表示:「如果您打算進行試驗,請創建一個容器,以安全的方式進行試驗。」她說,這應該屬於公司風險管理團隊的責任,而CIO應該確保開發人員和整個企業了解這個流程。

「他們是最有能力塑造文化的人,讓我們充分利用開源提供的創新和所有偉大之處,但同時要睜大眼睛去探索。」

兩全其美?

一些公司正在尋求開源的低成本、透明度、隱私和控制時,也希望有廠商提供治理、長期可持續性和支持。在傳統的開源世界中,有很多廠商這樣做,例如Red Hat、MariaDB、Docker、Automattic等。

「他們為大型企業提供一定程度的安全保障,」AArete公司數據科學和分析副總裁Priya Iragavarapu表示。「這幾乎是降低風險的一種方式。」

她表示,在生成式AI領域,此類廠商並不多,但情況正在開始發生變化。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新