OpenAI 推出 Operator 代理：自動化網路任務的新嘗試

OpenAI 於周四推出了一款名為 Operator 的人工智慧代理，這款由人類指導的 AI 代理能夠自主使用網路瀏覽器完成各種在線任務，儘管其完成效果可能參差不齊。

贊助商廣告

根據 OpenAI CEO Sam Altman、軟體工程師 Yash Kumar、研究員 Casey Chu 和技術人員 Reiichiro Nakano 的演示，Operator 代理可以執行需要多個步驟且具有特定參數的在線活動，比如通過 OpenTable 在指定時間段內預訂餐廳，或在給定價格範圍內查找特定演出者的音樂會門票。

就像用戶向 ChatGPT 提問一樣，用戶可以向 Operator 發出指令，讓它作為個人助手在網路上執行任務。

雖然個人可以自己完成這些任務而無需額外費用，但每月支付 200 美元的美國 ChatGPT Pro 訂閱用戶可以使用 Operator，儘管其可靠性相對較低。OpenAI 的 Plus、Team 和 Enterprise 層級的訂閱用戶將在系統完善後獲得訪問權限。

Operator 類似於 Anthropic 的電腦使用 API，它結合了 Playwright 和 Selenium 等軟體框架實現的瀏覽器自動化功能，以及用於評估網站文字和圖像的文本機器學習模型和電腦視覺模型。

其總體目標是實現網路任務自動化，使人們從枯燥的工作中解放出來...或者徹底擺脫就業。

OpenAI 在一份說明中解釋道："Operator 可以處理各種重複性瀏覽器任務，如填寫表格、訂購雜貨，甚至創建表情包。能夠使用與人類日常交互相同的界面和工具擴展了 AI 的實用性，幫助人們在日常任務上節省時間，同時為企業開啟新的互動機會。"

這些互動機會目前需要與 OpenAI 進行協商。該公司表示正在與 "DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uber 等公司合作，確保 Operator 能夠滿足現實需求，同時尊重既定規範。"

換句話說，OpenAI 的 Operator 可能無法很好地與那些不期望頻繁自動化接觸的網路服務進行交互。但隨著基於代理的交互變得普及，OpenAI 和類似的代理提供商可能會降低搜索作為營銷和銷售渠道的價值，因為自動化連接服務和通過 API 建立的合作夥伴優先關係有可能減少人工查詢的需求。

贊助商廣告

OpenAI 的代理基於一個名為 Computer-Using Agent (CUA) 的模型，該模型結合了 GPT-4o 的電腦視覺功能和關於如何處理圖形用戶界面 (GUI) 的訓練。TikTok 母公司字節跳動最近發布了一個類似的開源項目 UI-TARS，用於實現 GUI 交互自動化。

根據 OpenAI 的數據，CUA 在 OSWorld 基準測試中完整電腦使用任務的成功率為 38.1%，在 WebArena 上的成功率為 58.1%，在 WebVoyager 上基於網路任務的成功率為 87%。因此，在使用 Operator 時要做好可能無法成功預訂餐廳或訂購雜貨的心理準備。

CUA 的電腦視覺模式通過捕獲和存儲螢幕截圖工作，它利用這些截圖執行鏈式思維"推理"來完成請求的任務。熟悉 Microsoft 最新版 Windows 中 Recall 功能螢幕捕獲爭議的人可能會對 OpenAI 如何處理截圖數據有所擔憂。

The Register 向 OpenAI 詢問以尋求澄清，但尚未收到回復。該公司表示，在 ChatGPT 設置中禁用"為所有人改進模型"（默認開啟）將阻止 Operator 中的數據用於訓練其模型。

用戶通過文本提示輸入任務，AI 代理會嘗試完成該任務，將其分解為一系列步驟，並在需要用戶登錄、提供支付詳細資訊或解決驗證碼時等待用戶干預——如果允許的話，當前的電腦視覺模型可以相當有效地完成這些任務。

OpenAI 表示："我們知道不法分子可能會試圖濫用這項技術。這就是為什麼我們設計 Operator 拒絕有害請求並阻止不允許的內容。我們的審核系統可以對重複違規發出警告，甚至撤銷訪問權限，我們還集成了額外的審查流程來檢測和處理濫用行為。"

根據 ChatGPT 製造商的說法，Operator 被設計用來防範可能試圖通過隱藏提示、惡意代碼或網路釣魚企圖誤導 AI 代理的對抗性網站。據稱該 AI 代理被設計成能夠檢測並忽略提示注入攻擊。據說它在"監控模型"的監督下運行，該模型監視可疑行為，並輔以涉及人工審查和自動化流程的異常檢測。

儘管如此，OpenAI 承認，"沒有系統是完美的，這仍然是一個研究預覽版。"

贊助商廣告

Operator 的推出正值 AI 行業領袖所稱的"代理時代"，在這個時代，生成式 AI 模型應用多模態文本、音頻和視覺能力與其他計算系統交互，以處理需要某種形式推理和進度評估的多步驟任務。

雖然 AI 代理在理論上聽起來很有前景，但在實踐中卻有些令人失望——可能是因為複雜任務中的每一步都增加了失敗的機會。例如，最近對 AI 代碼助手 Devin 的評估表明，要使這些系統可靠還需要做更多工作。