今天凌晨,OpenAI CEO Sam Altman 宣布了兩個重磅消息。
一個是 ChatGPT 用戶不僅將獲得 o3-mini 的免費試用機會,Plus 付費訂閱會員還將享有更多使用額度。
big news: the free tier of chatgpt is going to get o3-mini!
— Sam Altman (@sama) January 23, 2025
(and the plus tier will get tons of o3-mini usage)
另一個則是備受期待的首個智能體產品——Operator 研究預覽版正式亮相。好消息是,它能幫你自動網購了,但壞消息是,它可能比較容易「翻車」。

OpenAI 總裁 Greg Brockman 在 X 平台發文稱:「Operator–一種能夠使用自己的瀏覽器為你執行任務的智能體。2025 年將是智能體之年。」
Operator — research preview of an agent that can use its own browser to perform tasks for you.
— Greg Brockman (@gdb) January 23, 2025
2025 is the year of agents. https://t.co/8zYQErDIaC pic.twitter.com/cPdbM1Dd5p
OpenAI 讓 AI 學會「用電腦」了?這是邁向 AGI 的第一步
作為 OpenAI 首款真正模擬人類操作網頁瀏覽器的 AI 助手,Operator 能夠自動完成預訂旅行住宿、餐廳預約和在線購物等複雜任務。
用戶可以在多個類別中選擇不同的自動化任務,涵蓋購物、配送、餐飲和旅行等領域。

這項功能將率先向訂閱 200 美元 Pro 計劃的美國用戶開放,隨後逐步擴展至 Plus、Team 和 Enterprise 級別用戶。
API 預計將在數周內推出。
用戶可通過 operator.chatgpt.com 訪問該服務,OpenAI 計劃後續將其整合到 ChatGPT,不過,ChatGPT 在今天凌晨又崩了。

簡單來說,當用戶啟用 Operator 時,系統會彈出一個小窗口,展示專用 Web 瀏覽器的操作界面,並實時說明正在執行的任務。在此期間,允許用戶隨時接管控制。
技術層面,Operator 採用遠程雲端瀏覽器執行任務,無需依賴網站 API。
它通過截圖識別界面元素,規劃後續動作,形成「觀察-計劃-執行」的閉環,直至完成任務。系統支持多任務並行處理,運行效率高,且能保持登錄狀態。

OpenAI 已與 DoorDash、Instacart、Priceline、StubHub 和 Uber 等公司建立合作。
Instacart 首席產品官 Daniel Danker 就指出「OpenAI 的 Operator 是一項技術突破,它使訂購雜貨等流程變得異常簡單。」
按照慣例,OpenAI 也同期召開了一場發布會。Sam Altman 與 Yash Kumar、Casey Chu 和 Reiichiro Nakano 一起介紹和演示 Operator。
演示涵蓋了多個實際應用場景,比如通過 OpenTable 為 Beretta 餐廳預訂雙人座位,原定 7 點檔位不可用後改訂 7:45。

使用 Instacart 購物系統識別購物清單——雞蛋、菠菜、蘑菇、雞腿、薯片,並中途接管添加更多雞蛋等商品。

在 StubHub 上試圖搜索並選購預算 500 美元以下的勇士隊比賽門票;預約清潔服務;以及計劃通過 DoorDash 點餐,訂購燒烤披薩等。

理想很美好,現實很骨感,Operator 目前最大的問題還是不夠穩定。剛開始演示時還算順利,但中後期的演示過程中遭遇連環「翻車」,甚至未能成功加載相關網頁。
或許是為了確保演示成功,眼瞅著演示人員輸入的提示詞是越來越長。
X 平台大 V @rowancheung 也提前體驗並分享了對 Operator 的觀察。
比方說 Operator 雖然在 ChatGPT 中運行,但功能完全不同,主要專注於網頁操作(點擊、滾動、輸入)而非生成長文本。目前系統仍存在限制,包括部分網站會隱藏 AI 訪問,合作夥伴集成有限。

他指出 Operator 需要特定的使用方法來優化效果,就像 GPT-4 適合 CoT 提示一樣,但目前對 Operator 的最佳使用方式研究還很初步。
不過,他還是挺看好這項技術能幫助人們自動化處理枯燥工作,從而將時間用於更有價值的事務。
此前有消息稱,Operator 在執行任務時使用的截圖內容可能被惡意利用,導致「提示注入攻擊」,存在嚴重的安全隱患。
因此,確保 Operator 的安全使用是首要任務。
根據官方博客,OpenAI 主要是通過多層保護措施防止濫用並確保用戶牢牢控制 Operator。
接管模式:Operator 在瀏覽器中輸入敏感資訊(例如登錄憑據或支付資訊)時要求用戶接管。在接管模式下,運營商不會收集或截圖用戶輸入的資訊。
用戶確認:在完成任何重大操作(例如提交訂單或發送電子郵件)之前,Operator 應請求批准。
任務限制:Operator 經過培訓可以拒絕某些敏感任務,例如銀行交易或需要高風險決策的任務,例如對工作申請做出決定。
監視模式:在特別敏感的網站上,例如電子郵件或金融服務,Operator 需要對其行為進行密切監督,以便用戶能夠直接發現任何潛在的錯誤。
此外,OpenAI 針對 Operator 實施了全面的隱私和安全保護措施。在隱私管理方面,用戶可以選擇退出模型訓練,一鍵刪除瀏覽數據和歷史對話,並註銷所有網站。
為防範惡意網站的攻擊,系統建立了多層防禦機制,包括檢測並忽略提示注入、監控可疑行為和建立威脅識別管道。同時,Operator 設有審核系統來拒絕有害請求和不當內容,對違規行為發出警告或撤銷訪問權限。
「體驗報告」公布,Operator 背後的 CUA 技術有多強?
Computer-Using Agent (CUA)是支撐 Operator 的核心技術,它融合了 GPT-4o 的視覺識別能力和基於強化學習的高級推理功能。
CUA 通過訓練掌握了與圖形用戶界面(GUI)交互的能力,能像人類一樣操作螢幕上的按鈕、菜單和文本框,無需依賴特定的作業系統或網路 API。
據悉,其創新之處在於採用通用界面方法,讓 AI 能像人類般操作各類軟體工具,突破了傳統 AI 難以應對的眾多細分應用場景。

不過 OpenAI 坦言 CUA 還有許多需要改進的地方,比如目前就沒法保證在所有場景下都能穩定運行。
OpenAI 在 Operator 中部署的 CUA 系統展示了不同場景下的性能表現。比如它在基礎網頁操作和重複性任務方面表現出色,如搜索篩選、創建購物清單和音樂播放列表等任務的成功率達到 10/10。
在電商網站搜索商品時也保持 9/10 的高成功率。但在處理複雜的房產搜索等任務時,成功率降至 3/10。

測試還發現提示詞的質量會顯著影響任務成功率,例如場地預訂任務中,添加具體時間和操作指引後,成功率從 3/10 提升至 8/10。
系統在處理不熟悉的 UI 界面和文本編輯時表現欠佳,常出現試錯和低效操作,文本編輯任務的成功率僅為 4/10。
為了更好地量化 Operator 的性能指標,發布會上的演示人員也提到了 OS World 測試和 Web Arena 測試。
OS World 用於評估 AI 智能體在 Linux 等作業系統上的導航能力, Operator 得分 38.1%,高於其他公開系統但低於人類水平(72.4%)。
Web Arena 則是測試評估 AI 智能體在電商網站和社交論壇等網站的導航能力, Operator 得分 58.1%,同樣超過其他公開 AI 系統但未達人類水平。

安全方面,演示環節介紹了三個主要的安全考慮方向。首先是系統拒絕執行有害任務,使用審核模型和後續檢測,並隱藏特定網站。
其次對於模型可能存在的錯誤,系統在進行購買、預訂等關鍵操作前必須獲得用戶確認,限制高風險任務如銀行交易,並在敏感網站啟用觀察模式。
特別是針對網站對抗性攻擊(如提示注入、越獄和釣魚),系統設計了謹慎導航機制識別並忽略提示注入,實時監控模型檢測可疑內容,並建立檢測管道快速識別可疑訪問模式。
最後系統設有注入監控器(prompt injection monitor),類似防病毒軟體,實時監控模型檢測可疑內容,發現可疑行為時會暫停執行。
考慮到無法預見所有安全隱患,OpenAI 只能先從小規模部署開始,通過持續收集反饋來完善安全機制。

ChatGPT 的崛起已經證明,偉大的產品往往誕生於無數次「不完美」的嘗試。
OpenAI 也坦然承認目前由 CUA 支持的 Operator 只是一項早期技術,雖然在特定場景已證明有用,但仍需通過用戶反饋持續改進。
並且,他們計劃提高系統在不熟悉界面的適應能力,增強文本編輯精確度,優化對不同提示詞的理解能力,並擴展可靠任務的範圍。
Altman 曾在月初的博客文章中表示,OpenAI 已經有信心構建通用人工智慧(AGI),並預測 2025 年第一批 AI 智能體將「加入勞動力大軍」。

包括智譜昨天也宣布推出了 GLM-PC。
這是基於智譜多模態大模型 CogAgent,全球首個面向公眾、回車即用的電腦智能體(agent)。它能像人類一樣「觀察」和「操作」電腦,協助用戶高效完成各類電腦任務。
可預見的是,這些智能體在未來將具備強大的自主決策和任務執行能力,能夠處理複雜任務,甚至在某些領域替代人類工作,並從根本上改變企業的生產方式和產出。
在 OpenAI 的五級 AGI 路線圖中,智能體正是處於 L3 級別,其特點是不僅能思考,還能代表用戶採取行動,執行複雜任務。
這樣看來, Operator 不僅是 OpenAI 智能體邁出的第一步,也將是邁向 AGI 的重要一步。