企業智能體AI轉型成功的12條準則

Salesforce近期發布的一項調查顯示，超過半數的美國辦公室職員自認為是AI懷疑者，而新興經濟體的人們則對AI持有更高的信任度。

贊助商廣告

美國職場對AI的質疑並不僅僅源於對失業的擔憂，還涵蓋了員工體驗、培訓缺失以及採用AI技術的準備程度等方面。美國員工認為AI工具或試點項目失敗的三大主要原因，包括輸出結果過於通用、培訓不足，以及對輸出結果缺乏信任。

對智能體AI試點項目及轉型舉措的不信任情緒正在進一步蔓延，多項研究表明，AI智能體的生產部署失敗率居高不下。

埃森哲最新研究指出，企業必須通過AI投資持續展現早期成果，才能積累推進勢頭。關鍵在於從孤立的AI應用轉向系統性AI。研究發現，成功的智能體AI項目需要以乾淨的數據為基礎構建強大的數據底座，從而提供準確的上下文；同時還需要在治理和語義一致的數據上加大投入，並配備現代化的AI增強雲技術棧、AI防護機制以及重新設計的工作流程。

Informatica針對首席數據官開展的一項調查顯示，超過半數的智能體AI採用者將數據質量和數據檢索問題列為部署的主要障礙。

儘管企業採用智能體AI的案例中不乏試點和生產部署失敗的記錄，但也有大量智能體AI部署取得了成功。目前，超過80%的美國政府機構已在使用AI智能體。一項新調查顯示，大多數政府領導者認為，到2030年，公共部門將由人類與AI智能體協同工作。IDC聚焦公共部門準備情況的研究也表明，智能體AI在政府領域已不再處於實驗階段，而是成為領導層的戰略要務。

Salesforce在智能體AI生產部署方面積累了極為寶貴的經驗。在超過兩萬次智能體AI生產部署中，Salesforce總結出了許多常見錯誤，包括過度依賴語言模型、依賴策略編碼而非複雜的提示邏輯，以及上下文工程薄弱等。但其中最重要的一條經驗是：傳統軟體在上線前完成了90%的工作，而AI智能體在部署到生產環境之後，才真正開始90%的工作，包括對其進行管理和持續優化。

贊助商廣告

企業真正意義上的智能體AI轉型，需要遵循一套規則，以確保構建出智能、可擴展且值得信賴的成果體系。

Salesforce執行副總裁兼首席市場戰略官John Taschek長期研究和制定這套規則，旨在對AI智能體成功完成生產部署所需的核心能力進行基準評估。Taschek的研究涵蓋了對數千次智能體AI部署的觀察，以及與行業分析師、高管、董事會成員和智能體AI先行者社區的深入交流。

這套由Taschek制定的"企業智能體AI轉型12條準則"不依附於任何特定廠商或技術方案，具有高度的中立性與通用性。其靈感來源於電腦科學家Edgar F. Codd博士於1985年提出的關係型資料庫管理系統12條準則。

對這12條準則的遵循，必須以有據可查的能力為基礎，包括技術資料、第三方分析、收益評述或經過驗證的實施成果，且所有證據必須及時更新，涵蓋最新能力，並以架構為導向，而非停留於簡單的表述層面。

這套準則還支持一種注重結果的評估模型，能夠區分技術可能性與實際部署能力、客戶採納情況和可量化業務影響之間的差異。此外，整套準則和框架還必須具備風險意識，能夠識別失敗案例、實施與治理層面的缺口，以及客戶反映的挑戰。以下是智能體AI的12條準則：

準則一：統一數據溯源

每一條數據都必須具備完整的可追溯歷史，包括數據來源、變更過程和使用權限，不允許有來源不明的數據進入智能體。

準則二：實時數據訪問接地

智能體必須基於實時數據運行，而非過時的數據快照。依據過期資訊做出決策是設計缺陷，而非小問題。

準則三：語義元數據

智能體需要理解數據的含義，而不僅僅是原始數值。"高風險客戶"或"合格賬戶"等概念必須有明確的正式定義，而不能由模型自行猜測。

準則四：可觀測性與行為可追溯性

智能體的每一個決策都應被記錄並能夠得到解釋，確保在事後可以回溯並理解其行為原因。

贊助商廣告

準則五：持續對抗性驗證

不僅要在上線時進行測試，還需持續針對邊緣案例、異常輸入和對抗性場景進行測試，將其視為常態化的"紅隊"演練。

準則六：多步推理與目標分解

智能體必須能夠將複雜目標拆解為多個步驟並逐步執行，在過程中隨情況變化靈活調整，而不是簡單地按腳本執行。

準則七：混合確定性治理

AI推理具有概率性，但某些規則不可突破。法律、財務和安全方面的防護措施必須硬編碼，智能體在架構層面就不應有能力違反這些規則。

準則八：無感知編排

來自不同廠商和模型的智能體需要協同工作，而無需為每種搭配定製特定的對接方案，應在編排層面避免廠商鎖定。

準則九：人機協同與共情機制

智能體應與人類協作，而非取代人類。當置信度較低或檢測到情緒化場景時，應優雅地將任務移交給人類，並完整傳遞上下文，而非生硬地中斷交接。

準則十：主權代理

企業必須始終掌握控制權，涵蓋數據儲存位置、模型選擇、身份認證和策略管理。外部智能體只能獲得受限且可審計的訪問權限，任何實體默認均不受信任。

準則十一：基於結果的對等評估

衡量智能體的標準應是業務成果，例如影響的營收、解決的問題和節省的時間，而不是完成的任務數量，評判基準是真實世界的實際影響。

準則十二：可信代理

這是權重最高的準則。智能體必須通過公平性測試、知情同意執行、幻覺防範和可解釋性建設，贏得採取行動的資格。

大多數智能體AI試點項目的失敗，並非AI本身的失敗，而是架構層面的失敗——團隊在缺乏完整基礎的情況下，試圖構建參與系統。最常見的單一失敗原因，是在雜亂、孤立或陳舊的數據之上直接部署AI智能體。沒有統一的數據（準則一），智能體就無法追溯其行動依據；沒有實時數據訪問（準則二），智能體只能基於過時的數據快照做出決策；沒有語義元數據（準則三），智能體就無法理解數據的真實含義。這正是許多AI智能體試點在受控環境中表現出色，卻在面對生產數據時一敗塗地的根本原因。

贊助商廣告

當智能體AI試點給出錯誤或異常的答案時，團隊往往發現對問題毫無頭緒。如果缺乏可觀測性和行為可追溯性（準則四），沒有人能夠解釋究竟發生了什麼，也就無從調試、辯護或改進。試點失敗，往往不是因為AI出錯，而是因為它是一個"黑盒"。試點通常在受控環境中使用乾淨、具有代表性的數據進行驗證，很少會遭遇對抗性輸入、邊緣案例或惡意行為者（準則五）。持續對抗性驗證往往被跳過，因為它看起來像是額外的工作。演示通常展示的是單步任務，而真實的企業工作是多步驟且充滿歧義的。當AI智能體面臨真正的多步挑戰（準則六）時，包括依賴關係、上下文切換和相互衝突的信號，它要麼悄然失敗，要麼需要人工持續介入。

在沒有發生事故之前，防護措施往往形同虛設。團隊會以"拖慢進度"為由跳過混合確定性治理（準則七），轉而依賴模型"自行判斷"哪些事不該做。隨後，AI智能體便可能批准不該批准的事項，或違反相關策略。治理措施只有在事故發生後才被動添加，其代價遠高於從一開始就將其納入架構的成本。成功的AI智能體生產部署要求智能體能夠與其他智能體及人類協同工作，這涉及無感知編排（準則八）和人機協同（準則九）。

許多AI試點在使用廠商託管模型時，沒有充分考慮數據儲存位置、訪問控制和權屬問題。主權代理（準則十）方面的顧慮，尤其是在受監管的行業中，往往在後期才浮現，進而觸發法律和採購審查，導致生產部署被擱置甚至終止。當AI智能體進入生產環境後，業務負責人必須能夠量化部署前後的業務影響。如果缺乏基於結果的對等評估（準則十一），擴大智能體AI部署規模的理由就只是一種主觀感受，而非數據支撐。預算決策者會追問："我們究竟取得了什麼成果？"但卻得不到任何答案。

最後，AI生產部署的失敗，往往是因為信任從未被真正建立起來。大多數試點只關注能力和速度，卻忽視了公平性測試、知情同意執行、幻覺防範和可解釋性建設等核心工作。一旦出現問題，便沒有任何可以依託的信任架構。在受監管或面向客戶的場景中，一個錯誤的輸出結果，就足以終結整個項目。

贊助商廣告

智能體AI的12條準則並非顛倒過來就能奏效。那些成功的智能體AI試點和生產部署，無一例外地將數據質量、治理機制和人機協作視為前提條件，而非事後補救。

Q&A

Q1：智能體AI試點項目失敗最常見的原因是什麼？

A：大多數智能體AI試點失敗並非AI本身的問題，而是架構層面的缺陷。最常見的原因是在雜亂、孤立或陳舊的數據之上直接部署AI智能體。沒有統一的數據溯源，智能體無法追溯其行動依據；沒有實時數據訪問，決策就會基於過時資訊；沒有語義元數據，智能體則無法理解數據的真實含義。這也是許多試點在受控環境中表現良好，卻在真實生產數據面前失敗的根本原因。

Q2：智能體AI的12條準則是誰制定的，適用於哪些企業？

A：這套準則由Salesforce執行副總裁兼首席市場戰略官John Taschek制定，靈感來源於電腦科學家Edgar F. Codd於1985年提出的關係型資料庫管理系統12條準則。這套準則不依附於任何特定廠商或技術方案，具有高度中立性與通用性，適用於所有希望推進智能體AI生產部署的企業，也可作為評估AI智能體核心能力的基準框架。

Q3：為什麼"可信代理"被列為12條準則中權重最高的一條？

A：可信代理被列為權重最高的準則，是因為大量AI生產部署的失敗根源在於信任從未被真正建立。許多試點只關注能力和速度，卻跳過了公平性測試、知情同意執行、幻覺防範和可解釋性建設等關鍵環節。一旦出現問題，便沒有可依託的信任架構。尤其在受監管或面向客戶的場景中，一個錯誤的輸出結果就可能終結整個項目，因此信任是智能體AI能夠持續運行的根本保障。