剛剛，Codex大更新，你在電腦的操作正在成為AI經驗包

你坐在電腦前幹活，旁邊有個傢伙一聲不吭盯著你。你點哪它看哪，你填什麼它記什麼，等你做完，它說一句：下次這活我來。

贊助商廣告

這就是 Codex 剛剛發布的重磅功能，叫 Record & Replay。

Show Codex a workflow once. Reuse it as a skill. Record & Replay lets you show Codex a recurring task, like filing an expense report or submitting a time-off request. Codex turns that demo into an inspectable, editable skill. You control when recording starts and stops.

翻譯過來就是錄製加復現。

你把一套操作完整演示一遍，Codex 在旁邊觀察學習，然後把整套流程打包成一個 skill（技能）。下回要干同樣的活，新開個對話，讓它調這個 skill，再告訴它這次哪裡不一樣，剩下的它自己搞定。

圖形界面，這個原本為了讓人類擺脫命令行而發明的偉大創造，現在有望成了 AI 接管電腦的現成基礎設施。

「學徒」模式上線，Codex 開始複製你的工作流

當然，不是所有任務都適合這麼玩。

Record & Replay 瞄準的是那種重複、看個人偏好、說不清楚但做一遍你就懂的活。適用場景有這麼幾個：報銷、訂停車位、建一個配置正確的 issue、發影片、拉周期性報表。

這些活有個共同點。要麼步驟又固定又繁瑣，要麼裡頭藏著一堆只有你自己知道的隱性規則。

比如文件該怎麼命名、某個欄位默認填什麽、到了某個岔路口該往哪走。這種東西你要用文字一條條寫清楚給 AI，成本極高。不如直接做一遍，讓它自己看。

操作過程也比想像中省事，主要拆成了七步。

先在 Codex 應用里打開 Plugins（插件），搜索並添加 Record & Replay 插件。

贊助商廣告

然後它來要錄製權限，你準備好了就點同意。

剩下的就是你在 Mac 上正常把活干一遍。

這期間 Codex 全程觀察，學這套操作要點哪些地方、動哪些窗口的內容。

贊助商廣告

錄製會一直開著，直到你主動停止。所以記住，專心做那一個任務就行，別錄著錄著開始干別的。

幹完從菜單欄或懸浮層停止，或者直接跟 Codex 說一聲已經錄完。

錄完之後 Codex 會復盤一遍剛捕捉到的流程，自己起草一個 skill。這個 skill 里寫得很清楚：什麼時候該用這套流程、需要哪些輸入、按什麼步驟走、做完怎麼驗證結果。

你要是覺得它寫得不夠好，還能讓它再打磨。

幾條錄製建議值得照做：

演示儘量短而完整；錄之前先把目標和那些每次會變的輸入告訴 Codex；用真實輸入，但密碼和敏感數據千萬別錄進去；錄完後補上那些重要的隱性偏好，比如命名規範、欄位默認值、決策點怎麼選；流程做完就停，別拖到無關的收尾動作上。

至於，下次復現就簡單了。新開對話，讓它調這個 skill，把這次的具體值餵給它，比如要傳哪個文件、建哪個 issue、報表要哪段時間。

有個關鍵設定需要注意：Codex 會把這個 skill 當作可復用的上下文（reusable context）。

什麼意思呢？這個 skill 不是一段寫死的腳本，而是一份它每次都能拿來參考、再結合當前環境靈活執行的說明書。所以同一個 skill，這次傳 A 文件、下次傳 B 文件，它都能套著用。

具體幹活的時候，它會調動當前環境裡能用的工具，包括 Computer Use、瀏覽器操作和已安裝的插件，把流程跑完。

Codex 到底怎麼「用電腦」

來看一次公開演示。

這回 Codex 要學的是上傳 YouTube 影片的完整流程。它的工作方式是盯著用戶在 YouTube Studio 里操作，把點擊、選文件、敲文字這一整串動作全捕捉下來。

諸如選影片文件、填標題和描述、傳縮略圖、加字幕、設隱私選項等等，Codex 全記下來了，隨後展示了獨立復現的能力。

更有意思的是，它不只是機械地照著步驟復讀，還試圖搞懂背後的邏輯和門道。

比如什麼時候該把影片設成 Private、什麼時候設 Unlisted，怎麼管 .mp4 影片文件和 .srt 字幕文件這種成對的東西，元數據欄位該怎麼填，字幕怎麼跟影片對上號。

贊助商廣告

它甚至現場處理了一次報錯：

缺 Python 環境的時候，它直接從已安裝的 skill 位置讀資訊，自己適配過去了。而這一整段錄下來，轉譯成一個隨時能調用的 skill。

換句話說，Codex 一旦學會，理論上就能在沒人盯著的情況下反覆執行。對那些天天要傳一堆影片的內容工作流來說，這事確實有用。

要搞懂它憑什麼能復現，得先看 Codex 到底怎麼操作電腦。

OpenAI 工程師 Jason 之前梳理過 Codex 用電腦的三條路，能力有重疊，各有各的地盤。總原則是：能用插件或 MCP 就先用，視覺控制留給結構化工具夠不著的邊角。

第一種叫 Computer Use，覆蓋面最廣。

它能在 macOS 和 Windows 上看見並操作圖形界面，通過窗口、菜單、鍵盤、剪貼板來動那些授權過的應用。

代價是慢，因為它得看界面、判斷點哪、等響應、再確認狀態，一步一回頭。但好處也明顯，那些沒有 API 的應用它也能對付，比如 Spotify、Xcode、系統設置、iOS 模擬器，甚至能通過 iPhone 鏡像去操作 iPhone。

在 macOS 上它還能後台跑，你能同時干別的。它信任邊界也最寬，凡涉及錢、賬戶、支付、憑據的改動，建議你全程在場盯著。

這也解釋了為什麼 Record & Replay 只能跟著 Computer Use 一起開啟。它錄下來的操作要復現，靠的就是 Computer Use 這套看界面、動滑鼠鍵盤的底層能力。

Three Ways Codex Can Use a Computer

第二種是 Chrome 擴展。

它接管你已經登錄好的 Chrome，適合那種靠賬號、cookie、已認證標籤頁的任務，比如 Gmail、Salesforce、內部儀錶盤。它能玩多標籤，把同一個任務的好幾個標籤頁串成一個完整工作流來理解。

代價是它帶著你的身份在動，網站會把它的點擊和提交都當成你本人，所以發送、發布、購買這種步驟一般得先過你審核。

第三種是應用內瀏覽器。

它活在 Codex 對話內部，跟你共享同一個渲染頁面，特別適合開發調試 Web 應用。它最大的特點是隔離，不碰你的瀏覽器配置、cookie、擴展和登錄會話。

贊助商廣告

需要的時候這是限制，不需要的時候反而是個乾淨的邊界。開發者能讓它改代碼、操作頁面、截圖、修完再跑一遍，形成一個緊密的反饋循環，還能直接點頁面元素留設計意見。

另外還有個叫 Appshot 的機制，它不操作電腦，只負責把 Codex 的注意力指到你眼前的東西上。在 Mac 上連按兩下 CMD 鍵，它就抓最前面那個窗口，把圖像和文字附進對話。你對著一個報錯、一封郵件、一個看不懂的表單直接發問就行。

用 Jason 的話說，Appshot 負責指方向，瀏覽器、Chrome 擴展和 Computer Use 負責動手。而 Record & Replay 錄下來的 skill，正是可以隨時調動上面任意一種或幾種方式來復現。

OpenAI might swallow up every piece of software eventually.

人類操作軟體的經驗，正在變成 AI 技能

從今年以來，Codex 的發布節奏仍在不斷加速，許多人都不知道的是，Codex 應用、CLI 和 SDK 不是只能配 OpenAI 自家模型。

在 config.toml 里配一下 model_providers，你可以把 Codex 指向 Ollama、LM Studio 這類本地開源模型，也能接 Mistral、Azure、Amazon Bedrock 這些第三方。傳個 --oss 參數就能跑本地 provider，不指定的話默認走 oss_provider。

Reminder that you can use the Codex App, CLI and SDK with any open source model, not just with OpenAI models.

贊助商廣告

https://developers.openai.com/codex/config-advanced#oss-mode-local-providers

也就是說，Record & Replay 這種能力，載體本身是個對模型開放的客戶端。

它也有適用範圍。Record & Replay 是從一次演示里快速造 skill 的捷徑，但如果你想把一個穩定的包發給整個團隊、捆綁好幾個 skill、加應用集成或 MCP 伺服器、管安裝元數據，那就別停在錄製層面，老實打包成獨立插件。

還有幾個上手前最好先知道的限制。

Record & Replay 目前只在 macOS 上能用，首發不覆蓋歐盟、英國和瑞士，而且必須先開啟 Computer Use 功能。

如果你是組織管理員，還有個坑得避開：

要是你們用 requirements.toml 統一管 Codex，那 [features].computer_use 這一項是連 Record & Replay 一起管的。

https://developers.openai.com/codex/record-and-replay

哪天把 computer_use 設成 false，你會發現這倆功能一起消失。所以要是你發現「我這兒壓根看不到 Record & Replay」，先去查這一項是不是被關了。

「Record & Replay」的上線，看起來只是一個錄製和復現操作的小功能，但放到更大的背景里，它代表的是 AI 與軟體交互方式的一次變化。

過去，自動化的基礎是 API。軟體必須先開放接口，把能力封裝成機器能夠調用的服務，自動化工具和 AI 才能接手流程。沒有 API，沒有結構化入口，很多任務就無法實現自動化。

因此，傳統自動化的邊界，往往取決於軟體願意開放多少能力。

但現在，OpenAI 試圖繞開這層限制。它不再要求軟體專門為 AI 提供接口，而是讓 AI 直接學習人類使用軟體的方式。人能看懂按鈕、菜單和窗口，它也去理解；人能完成點擊、輸入和切換頁面，它也去執行。

這意味著，AI 的工作對象開始從 API 擴展到整個圖形界面。換言之，「Computer Use」負責賦予 AI 操作電腦的能力，而「Record & Replay」則負責把人的操作經驗沉澱成可復用的技能。

贊助商廣告

這背後對應的，其實是作業系統角色的變化。過去，作業系統是所有軟體的組織者。我們在 Mac 或 Windows 上安裝各種應用，再由人自己在不同軟體之間切換、複製、整理和傳遞資訊。

人始終是連接各個軟體的中間層。

而當 AI 能夠跨應用觀察、理解並執行任務時，它開始承擔這層角色。對於用戶來說，關注點逐漸從「如何操作軟體」，轉向「想完成什麼事情」。

報銷軟體怎麼填、影片後台怎麼配置、多個系統之間如何來回切換，這些細節理論上都可以交給 AI 處理。照這樣發展下去，未來真正頻繁使用軟體的，未必是人，而是 AI。

對於 AI 來說，漂亮的界面沒有意義，複雜的菜單也沒有意義。它更關心的是：這個軟體能不能完成任務、能不能被調用、能不能穩定執行流程。

從這個角度看，「Record & Replay」真正有意思的地方，不是又多了一個自動化功能，而是它透露出一種新的趨勢：人正在從軟體的直接操作者，逐漸變成軟體能力的訓練者。

今天我們學習怎麼使用工具，未來或許更重要的一項能力，是教會 AI 使用工具。