剛剛，OpenAI發布首個AI智能體！自動幫你訂餐購物，直播翻車，使用前需要知道這些細節

今天凌晨，OpenAI CEO Sam Altman 宣布了兩個重磅消息。

贊助商廣告

一個是 ChatGPT 用戶不僅將獲得 o3-mini 的免費試用機會，Plus 付費訂閱會員還將享有更多使用額度。

big news: the free tier of chatgpt is going to get o3-mini!

(and the plus tier will get tons of o3-mini usage)
— Sam Altman (@sama) January 23, 2025

另一個則是備受期待的首個智能體產品——Operator 研究預覽版正式亮相。好消息是，它能幫你自動網購了，但壞消息是，它可能比較容易「翻車」。

剛剛，OpenAI發布首個AI智能體！自動幫你訂餐購物，直播翻車，使用前需要知道這些細節

OpenAI 總裁 Greg Brockman 在 X 平台發文稱：「Operator–一種能夠使用自己的瀏覽器為你執行任務的智能體。2025 年將是智能體之年。」

Operator — research preview of an agent that can use its own browser to perform tasks for you.

2025 is the year of agents. https://t.co/8zYQErDIaC pic.twitter.com/cPdbM1Dd5p
— Greg Brockman (@gdb) January 23, 2025

贊助商廣告

OpenAI 讓 AI 學會「用電腦」了？這是邁向 AGI 的第一步

作為 OpenAI 首款真正模擬人類操作網頁瀏覽器的 AI 助手，Operator 能夠自動完成預訂旅行住宿、餐廳預約和在線購物等複雜任務。

用戶可以在多個類別中選擇不同的自動化任務，涵蓋購物、配送、餐飲和旅行等領域。

這項功能將率先向訂閱 200 美元 Pro 計劃的美國用戶開放，隨後逐步擴展至 Plus、Team 和 Enterprise 級別用戶。

API 預計將在數周內推出。

用戶可通過 operator.chatgpt.com 訪問該服務，OpenAI 計劃後續將其整合到 ChatGPT，不過，ChatGPT 在今天凌晨又崩了。

簡單來說，當用戶啟用 Operator 時，系統會彈出一個小窗口，展示專用 Web 瀏覽器的操作界面，並實時說明正在執行的任務。在此期間，允許用戶隨時接管控制。

技術層面，Operator 採用遠程雲端瀏覽器執行任務，無需依賴網站 API。

它通過截圖識別界面元素，規劃後續動作，形成「觀察-計劃-執行」的閉環，直至完成任務。系統支持多任務並行處理，運行效率高，且能保持登錄狀態。

贊助商廣告

OpenAI 已與 DoorDash、Instacart、Priceline、StubHub 和 Uber 等公司建立合作。

Instacart 首席產品官 Daniel Danker 就指出「OpenAI 的 Operator 是一項技術突破，它使訂購雜貨等流程變得異常簡單。」

按照慣例，OpenAI 也同期召開了一場發布會。Sam Altman 與 Yash Kumar、Casey Chu 和 Reiichiro Nakano 一起介紹和演示 Operator。

演示涵蓋了多個實際應用場景，比如通過 OpenTable 為 Beretta 餐廳預訂雙人座位，原定 7 點檔位不可用後改訂 7:45。

使用 Instacart 購物系統識別購物清單——雞蛋、菠菜、蘑菇、雞腿、薯片，並中途接管添加更多雞蛋等商品。

在 StubHub 上試圖搜索並選購預算 500 美元以下的勇士隊比賽門票；預約清潔服務；以及計劃通過 DoorDash 點餐，訂購燒烤披薩等。

贊助商廣告

理想很美好，現實很骨感，Operator 目前最大的問題還是不夠穩定。剛開始演示時還算順利，但中後期的演示過程中遭遇連環「翻車」，甚至未能成功加載相關網頁。

或許是為了確保演示成功，眼瞅著演示人員輸入的提示詞是越來越長。

X 平台大 V @rowancheung 也提前體驗並分享了對 Operator 的觀察。

比方說 Operator 雖然在 ChatGPT 中運行，但功能完全不同，主要專注於網頁操作（點擊、滾動、輸入）而非生成長文本。目前系統仍存在限制，包括部分網站會隱藏 AI 訪問，合作夥伴集成有限。

他指出 Operator 需要特定的使用方法來優化效果，就像 GPT-4 適合 CoT 提示一樣，但目前對 Operator 的最佳使用方式研究還很初步。

不過，他還是挺看好這項技術能幫助人們自動化處理枯燥工作，從而將時間用於更有價值的事務。

此前有消息稱，Operator 在執行任務時使用的截圖內容可能被惡意利用，導致「提示注入攻擊」，存在嚴重的安全隱患。

因此，確保 Operator 的安全使用是首要任務。

根據官方博客，OpenAI 主要是通過多層保護措施防止濫用並確保用戶牢牢控制 Operator。

接管模式：Operator 在瀏覽器中輸入敏感資訊（例如登錄憑據或支付資訊）時要求用戶接管。在接管模式下，運營商不會收集或截圖用戶輸入的資訊。

用戶確認：在完成任何重大操作（例如提交訂單或發送電子郵件）之前，Operator 應請求批准。

任務限制：Operator 經過培訓可以拒絕某些敏感任務，例如銀行交易或需要高風險決策的任務，例如對工作申請做出決定。

監視模式：在特別敏感的網站上，例如電子郵件或金融服務，Operator 需要對其行為進行密切監督，以便用戶能夠直接發現任何潛在的錯誤。

此外，OpenAI 針對 Operator 實施了全面的隱私和安全保護措施。在隱私管理方面，用戶可以選擇退出模型訓練，一鍵刪除瀏覽數據和歷史對話，並註銷所有網站。

贊助商廣告

為防範惡意網站的攻擊，系統建立了多層防禦機制，包括檢測並忽略提示注入、監控可疑行為和建立威脅識別管道。同時，Operator 設有審核系統來拒絕有害請求和不當內容，對違規行為發出警告或撤銷訪問權限。

「體驗報告」公布，Operator 背後的 CUA 技術有多強？

Computer-Using Agent (CUA)是支撐 Operator 的核心技術，它融合了 GPT-4o 的視覺識別能力和基於強化學習的高級推理功能。

CUA 通過訓練掌握了與圖形用戶界面（GUI）交互的能力，能像人類一樣操作螢幕上的按鈕、菜單和文本框，無需依賴特定的作業系統或網路 API。

據悉，其創新之處在於採用通用界面方法，讓 AI 能像人類般操作各類軟體工具，突破了傳統 AI 難以應對的眾多細分應用場景。

不過 OpenAI 坦言 CUA 還有許多需要改進的地方，比如目前就沒法保證在所有場景下都能穩定運行。

OpenAI 在 Operator 中部署的 CUA 系統展示了不同場景下的性能表現。比如它在基礎網頁操作和重複性任務方面表現出色，如搜索篩選、創建購物清單和音樂播放列表等任務的成功率達到 10/10。

在電商網站搜索商品時也保持 9/10 的高成功率。但在處理複雜的房產搜索等任務時，成功率降至 3/10。

測試還發現提示詞的質量會顯著影響任務成功率，例如場地預訂任務中，添加具體時間和操作指引後，成功率從 3/10 提升至 8/10。

系統在處理不熟悉的 UI 界面和文本編輯時表現欠佳，常出現試錯和低效操作，文本編輯任務的成功率僅為 4/10。

為了更好地量化 Operator 的性能指標，發布會上的演示人員也提到了 OS World 測試和 Web Arena 測試。

OS World 用於評估 AI 智能體在 Linux 等作業系統上的導航能力， Operator 得分 38.1%，高於其他公開系統但低於人類水平(72.4%)。

Web Arena 則是測試評估 AI 智能體在電商網站和社交論壇等網站的導航能力， Operator 得分 58.1%，同樣超過其他公開 AI 系統但未達人類水平。

贊助商廣告

安全方面，演示環節介紹了三個主要的安全考慮方向。首先是系統拒絕執行有害任務，使用審核模型和後續檢測，並隱藏特定網站。

其次對於模型可能存在的錯誤，系統在進行購買、預訂等關鍵操作前必須獲得用戶確認，限制高風險任務如銀行交易，並在敏感網站啟用觀察模式。

特別是針對網站對抗性攻擊（如提示注入、越獄和釣魚），系統設計了謹慎導航機制識別並忽略提示注入，實時監控模型檢測可疑內容，並建立檢測管道快速識別可疑訪問模式。

最後系統設有注入監控器(prompt injection monitor)，類似防病毒軟體，實時監控模型檢測可疑內容，發現可疑行為時會暫停執行。

考慮到無法預見所有安全隱患，OpenAI 只能先從小規模部署開始，通過持續收集反饋來完善安全機制。

ChatGPT 的崛起已經證明，偉大的產品往往誕生於無數次「不完美」的嘗試。

OpenAI 也坦然承認目前由 CUA 支持的 Operator 只是一項早期技術，雖然在特定場景已證明有用，但仍需通過用戶反饋持續改進。

並且，他們計劃提高系統在不熟悉界面的適應能力，增強文本編輯精確度，優化對不同提示詞的理解能力，並擴展可靠任務的範圍。

Altman 曾在月初的博客文章中表示，OpenAI 已經有信心構建通用人工智慧（AGI），並預測 2025 年第一批 AI 智能體將「加入勞動力大軍」。

贊助商廣告

包括智譜昨天也宣布推出了 GLM-PC。

這是基於智譜多模態大模型 CogAgent，全球首個面向公眾、回車即用的電腦智能體（agent）。它能像人類一樣「觀察」和「操作」電腦，協助用戶高效完成各類電腦任務。

可預見的是，這些智能體在未來將具備強大的自主決策和任務執行能力，能夠處理複雜任務，甚至在某些領域替代人類工作，並從根本上改變企業的生產方式和產出。

在 OpenAI 的五級 AGI 路線圖中，智能體正是處於 L3 級別，其特點是不僅能思考，還能代表用戶採取行動，執行複雜任務。

這樣看來， Operator 不僅是 OpenAI 智能體邁出的第一步，也將是邁向 AGI 的重要一步。