2026年2月,來自MIT、哈佛、斯坦福等高校的研究團隊發布了《2025 AI Agent Index》。這份報告對全球30個最具代表性的AI Agent產品進行了系統性記錄,橫跨法律、技術能力、自主性與控制、生態交互、評估和安全六大維度,共整理了1350個資訊欄位。報告的數據截止於2025年12月31日。

這不是一份普通的行業綜述。研究團隊逐一聯繫了所有被納入的公司,給了他們四周時間核實和糾正標註內容——結果只有23%的公司作出某種形式的回應,真正提供實質性意見的僅有4家。這個回應率,本身就說明了問題。
報告裡有些數字讓人難以忽視:在安全、評估與社會影響相關的240個資訊欄位中,有133個——超過一半——完全沒有公開資訊可查。
「Agent熱」到底有多熱
2025年研究論文中提到"AI Agent"或"Agentic AI"的數量,比2020年到2024年五年總和還多出兩倍以上。

麥肯錫在2025年6到7月對1993家企業做了調查,結果顯示62%的受訪組織已經在試驗AI Agent。麥肯錫還估計,到2030年,AI Agent可能會自動化掉美國經濟中價值2.9萬億美元的工作量。
被納入這份Index的30個產品,有24個是在2024至2025年間發布或完成重大agentic功能更新的。早期產品如ChatGPT(2022年)和Perplexity(2022年)是後來才加上了agentic能力。
研究團隊把這30個產品分成三類:聊天界面型(12個,比如Claude、ChatGPT Agent、Manus AI)、瀏覽器操控型(5個,比如Perplexity Comet、ChatGPT Atlas、Opera Neon),以及企業工作流型(13個,比如Microsoft Copilot Studio、Salesforce Agentforce、ServiceNow AI Agents)。
誰在做,誰在掌控
地理分布上,21個產品來自美國公司,5個來自中國,其餘4個分布在德國(SAP、n8n)、挪威(Opera)和開曼群島(Manus)。

這裡有個明顯的分裂:中國公司基本不公開AI安全框架和合規標準。 5家中國公司中,只有1家(Z.ai)發布了AI安全框架,合規標準文檔同樣只有1家。報告團隊特別說明,這可能只是因為中文文檔沒有被檢索到,但他們專門找了中國AI生態專家核查,包括中文文檔,結論依然如此。
相比之下,美國公司中76%有AI安全框架,75%有合規標準記錄。
整體來看,30個產品里只有15個引用了AI安全框架,比如Anthropic的負責任擴展政策(RSP)、OpenAI的準備框架,或微軟的負責任AI標準。10個產品完全沒有安全框架文檔。
「自主程度」的光譜研究團隊用了Feng等人提出的五級自主性框架來標註每個產品:L1是"用戶全程操控",L5是"AI全程自主運行,用戶只能旁觀"。

聊天型Agent通常在L1到L3之間,以輪次交互為主。Anthropic Claude、Google Gemini、OpenAI ChatGPT都是用戶發一條,AI執行一次,然後等下一條。但同一個產品內部,自主程度差異可以很大——比如"普通聊天"是L1,"深度研究模式"可以到L3甚至L5。
瀏覽器型Agent的自主程度最高,達到L4到L5。 Perplexity Comet和Browser Use一旦收到任務就自主運行,執行過程中用戶基本無法介入或中止。這類產品也是報告中安全問題最集中的。
企業型Agent存在"設計階段"和"部署階段"的自主性分裂。 設計時,用戶用可視化畫布手動配置觸發器和動作(L1到L2);一旦部署,這些Agent就會在沒有任何人工介入的情況下自動響應郵件、資料庫變更等事件(L3到L5)。
安全資訊:沉默的大多數這是報告裡最值得停留的部分。

133個安全相關欄位沒有任何公開資訊。瀏覽器型Agent的安全資訊缺失率達到64%,企業型Agent達到63%,就連相對透明的聊天型Agent,缺失率也有43%。
在30個產品中:
報告把這種現象稱為"弱版本的安全洗白"(a weaker form of safety washing)——企業的安全和倫理框架停留在高層敘述,缺乏實證數據支撐,而且是選擇性披露。
有意思的是,另一邊的情況剛好相反:9個產品發布了能力基準測試(比如GUI操控或代碼生成的跑分),但這些相同的產品往往缺乏安全評估的披露。能力數據發得越多,安全資訊反而越少。
在網路上的行為:誰在扮人瀏覽器型Agent對網際網路生態的影響,是報告專門拿出來討論的另一個議題。
傳統的robots.txt協議讓網站可以告訴爬蟲"不要抓取這裡"。但在Agent時代,這套協議正在失效。報告發現:
Perplexity對此有自己的說法:AI助手"就像人類助手"在代替用戶獲取內容,所以不應受到爬蟲限制。但Cloudflare記錄到Perplexity使用了未申報的爬蟲,用通用Chrome簽名繞過封鎖。亞馬遜已經就Perplexity Comet不聲明自己是AI Agent的行為提出法律威脅。
在所有30個產品中,只有ChatGPT Agent使用了HTTP請求的密碼學簽名(RFC 9421),這是唯一能在技術層面證明"這個請求來自AI Agent"的機制。其餘產品的行為痕跡在網路上難以被核實或追溯。
評估困境:誰來負責報告揭示了一個結構性難題。
絕大多數Agent依賴OpenAI、Anthropic、Google這三家的基礎模型,外面套一層調用框架和編排層。這創造了一條依賴鏈:模型提供商 → 編排平台 → Agent構建者 → 終端部署。每個環節都只控制整個系統的一部分(見報告Figure 7)。
這帶來兩個問題:一是沒有任何單一主體能清楚地負責整個系統的安全;二是"針對模型的評估"在很多情況下不等於"針對Agent的評估"——Agent的風險來自規劃能力、工具訪問權限、記憶機制和系統提示的組合,而不只是底層模型的能力。
企業級Agent構建平台(如Zapier、Salesforce)通常把安全防護責任轉移給終端用戶:你要配置哪些guardrail,你自己決定。報告認為,監管者和買家很可能從"模型層面的文檔"獲得錯誤的安全保證。






