AI
Salesforce近期發布的一項調查顯示,超過半數的美國辦公室職員自認為是AI懷疑者,而新興經濟體的人們則對AI持有更高的信任度。
美國職場對AI的質疑並不僅僅源於對失業的擔憂,還涵蓋了員工體驗、培訓缺失以及採用AI技術的準備程度等方面。美國員工認為AI工具或試點項目失敗的三大主要原因,包括輸出結果過於通用、培訓不足,以及對輸出結果缺乏信任。
對智能體AI試點項目及轉型舉措的不信任情緒正在進一步蔓延,多項研究表明,AI智能體的生產部署失敗率居高不下。
埃森哲最新研究指出,企業必須通過AI投資持續展現早期成果,才能積累推進勢頭。關鍵在於從孤立的AI應用轉向系統性AI。研究發現,成功的智能體AI項目需要以乾淨的數據為基礎構建強大的數據底座,從而提供準確的上下文;同時還需要在治理和語義一致的數據上加大投入,並配備現代化的AI增強雲技術棧、AI防護機制以及重新設計的工作流程。
Informatica針對首席數據官開展的一項調查顯示,超過半數的智能體AI採用者將數據質量和數據檢索問題列為部署的主要障礙。
儘管企業採用智能體AI的案例中不乏試點和生產部署失敗的記錄,但也有大量智能體AI部署取得了成功。目前,超過80%的美國政府機構已在使用AI智能體。一項新調查顯示,大多數政府領導者認為,到2030年,公共部門將由人類與AI智能體協同工作。IDC聚焦公共部門準備情況的研究也表明,智能體AI在政府領域已不再處於實驗階段,而是成為領導層的戰略要務。
Salesforce在智能體AI生產部署方面積累了極為寶貴的經驗。在超過兩萬次智能體AI生產部署中,Salesforce總結出了許多常見錯誤,包括過度依賴語言模型、依賴策略編碼而非複雜的提示邏輯,以及上下文工程薄弱等。但其中最重要的一條經驗是:傳統軟體在上線前完成了90%的工作,而AI智能體在部署到生產環境之後,才真正開始90%的工作,包括對其進行管理和持續優化。
企業真正意義上的智能體AI轉型,需要遵循一套規則,以確保構建出智能、可擴展且值得信賴的成果體系。
Salesforce執行副總裁兼首席市場戰略官John Taschek長期研究和制定這套規則,旨在對AI智能體成功完成生產部署所需的核心能力進行基準評估。Taschek的研究涵蓋了對數千次智能體AI部署的觀察,以及與行業分析師、高管、董事會成員和智能體AI先行者社區的深入交流。
這套由Taschek制定的"企業智能體AI轉型12條準則"不依附於任何特定廠商或技術方案,具有高度的中立性與通用性。其靈感來源於電腦科學家Edgar F. Codd博士於1985年提出的關係型資料庫管理系統12條準則。
對這12條準則的遵循,必須以有據可查的能力為基礎,包括技術資料、第三方分析、收益評述或經過驗證的實施成果,且所有證據必須及時更新,涵蓋最新能力,並以架構為導向,而非停留於簡單的表述層面。
這套準則還支持一種注重結果的評估模型,能夠區分技術可能性與實際部署能力、客戶採納情況和可量化業務影響之間的差異。此外,整套準則和框架還必須具備風險意識,能夠識別失敗案例、實施與治理層面的缺口,以及客戶反映的挑戰。以下是智能體AI的12條準則:
準則一:統一數據溯源
每一條數據都必須具備完整的可追溯歷史,包括數據來源、變更過程和使用權限,不允許有來源不明的數據進入智能體。
準則二:實時數據訪問接地
智能體必須基於實時數據運行,而非過時的數據快照。依據過期資訊做出決策是設計缺陷,而非小問題。
準則三:語義元數據
智能體需要理解數據的含義,而不僅僅是原始數值。"高風險客戶"或"合格賬戶"等概念必須有明確的正式定義,而不能由模型自行猜測。
準則四:可觀測性與行為可追溯性
智能體的每一個決策都應被記錄並能夠得到解釋,確保在事後可以回溯並理解其行為原因。
準則五:持續對抗性驗證
不僅要在上線時進行測試,還需持續針對邊緣案例、異常輸入和對抗性場景進行測試,將其視為常態化的"紅隊"演練。
準則六:多步推理與目標分解
智能體必須能夠將複雜目標拆解為多個步驟並逐步執行,在過程中隨情況變化靈活調整,而不是簡單地按腳本執行。
準則七:混合確定性治理
AI推理具有概率性,但某些規則不可突破。法律、財務和安全方面的防護措施必須硬編碼,智能體在架構層面就不應有能力違反這些規則。
準則八:無感知編排
來自不同廠商和模型的智能體需要協同工作,而無需為每種搭配定製特定的對接方案,應在編排層面避免廠商鎖定。
準則九:人機協同與共情機制
智能體應與人類協作,而非取代人類。當置信度較低或檢測到情緒化場景時,應優雅地將任務移交給人類,並完整傳遞上下文,而非生硬地中斷交接。
準則十:主權代理
企業必須始終掌握控制權,涵蓋數據儲存位置、模型選擇、身份認證和策略管理。外部智能體只能獲得受限且可審計的訪問權限,任何實體默認均不受信任。
準則十一:基於結果的對等評估
衡量智能體的標準應是業務成果,例如影響的營收、解決的問題和節省的時間,而不是完成的任務數量,評判基準是真實世界的實際影響。
準則十二:可信代理
這是權重最高的準則。智能體必須通過公平性測試、知情同意執行、幻覺防範和可解釋性建設,贏得採取行動的資格。
大多數智能體AI試點項目的失敗,並非AI本身的失敗,而是架構層面的失敗——團隊在缺乏完整基礎的情況下,試圖構建參與系統。最常見的單一失敗原因,是在雜亂、孤立或陳舊的數據之上直接部署AI智能體。沒有統一的數據(準則一),智能體就無法追溯其行動依據;沒有實時數據訪問(準則二),智能體只能基於過時的數據快照做出決策;沒有語義元數據(準則三),智能體就無法理解數據的真實含義。這正是許多AI智能體試點在受控環境中表現出色,卻在面對生產數據時一敗塗地的根本原因。
當智能體AI試點給出錯誤或異常的答案時,團隊往往發現對問題毫無頭緒。如果缺乏可觀測性和行為可追溯性(準則四),沒有人能夠解釋究竟發生了什麼,也就無從調試、辯護或改進。試點失敗,往往不是因為AI出錯,而是因為它是一個"黑盒"。試點通常在受控環境中使用乾淨、具有代表性的數據進行驗證,很少會遭遇對抗性輸入、邊緣案例或惡意行為者(準則五)。持續對抗性驗證往往被跳過,因為它看起來像是額外的工作。演示通常展示的是單步任務,而真實的企業工作是多步驟且充滿歧義的。當AI智能體面臨真正的多步挑戰(準則六)時,包括依賴關係、上下文切換和相互衝突的信號,它要麼悄然失敗,要麼需要人工持續介入。
在沒有發生事故之前,防護措施往往形同虛設。團隊會以"拖慢進度"為由跳過混合確定性治理(準則七),轉而依賴模型"自行判斷"哪些事不該做。隨後,AI智能體便可能批准不該批准的事項,或違反相關策略。治理措施只有在事故發生後才被動添加,其代價遠高於從一開始就將其納入架構的成本。成功的AI智能體生產部署要求智能體能夠與其他智能體及人類協同工作,這涉及無感知編排(準則八)和人機協同(準則九)。
許多AI試點在使用廠商託管模型時,沒有充分考慮數據儲存位置、訪問控制和權屬問題。主權代理(準則十)方面的顧慮,尤其是在受監管的行業中,往往在後期才浮現,進而觸發法律和採購審查,導致生產部署被擱置甚至終止。當AI智能體進入生產環境後,業務負責人必須能夠量化部署前後的業務影響。如果缺乏基於結果的對等評估(準則十一),擴大智能體AI部署規模的理由就只是一種主觀感受,而非數據支撐。預算決策者會追問:"我們究竟取得了什麼成果?"但卻得不到任何答案。
最後,AI生產部署的失敗,往往是因為信任從未被真正建立起來。大多數試點只關注能力和速度,卻忽視了公平性測試、知情同意執行、幻覺防範和可解釋性建設等核心工作。一旦出現問題,便沒有任何可以依託的信任架構。在受監管或面向客戶的場景中,一個錯誤的輸出結果,就足以終結整個項目。
智能體AI的12條準則並非顛倒過來就能奏效。那些成功的智能體AI試點和生產部署,無一例外地將數據質量、治理機制和人機協作視為前提條件,而非事後補救。
Q&A
Q1:智能體AI試點項目失敗最常見的原因是什麼?
A:大多數智能體AI試點失敗並非AI本身的問題,而是架構層面的缺陷。最常見的原因是在雜亂、孤立或陳舊的數據之上直接部署AI智能體。沒有統一的數據溯源,智能體無法追溯其行動依據;沒有實時數據訪問,決策就會基於過時資訊;沒有語義元數據,智能體則無法理解數據的真實含義。這也是許多試點在受控環境中表現良好,卻在真實生產數據面前失敗的根本原因。
Q2:智能體AI的12條準則是誰制定的,適用於哪些企業?
A:這套準則由Salesforce執行副總裁兼首席市場戰略官John Taschek制定,靈感來源於電腦科學家Edgar F. Codd於1985年提出的關係型資料庫管理系統12條準則。這套準則不依附於任何特定廠商或技術方案,具有高度中立性與通用性,適用於所有希望推進智能體AI生產部署的企業,也可作為評估AI智能體核心能力的基準框架。
Q3:為什麼"可信代理"被列為12條準則中權重最高的一條?
A:可信代理被列為權重最高的準則,是因為大量AI生產部署的失敗根源在於信任從未被真正建立。許多試點只關注能力和速度,卻跳過了公平性測試、知情同意執行、幻覺防範和可解釋性建設等關鍵環節。一旦出現問題,便沒有可依託的信任架構。尤其在受監管或面向客戶的場景中,一個錯誤的輸出結果就可能終結整個項目,因此信任是智能體AI能夠持續運行的根本保障。






