你坐在電腦前幹活,旁邊有個傢伙一聲不吭盯著你。你點哪它看哪,你填什麼它記什麼,等你做完,它說一句:下次這活我來。
這就是 Codex 剛剛發布的重磅功能,叫 Record & Replay。

翻譯過來就是錄製加復現。
你把一套操作完整演示一遍,Codex 在旁邊觀察學習,然後把整套流程打包成一個 skill(技能)。下回要干同樣的活,新開個對話,讓它調這個 skill,再告訴它這次哪裡不一樣,剩下的它自己搞定。
圖形界面,這個原本為了讓人類擺脫命令行而發明的偉大創造,現在有望成了 AI 接管電腦的現成基礎設施。
「學徒」模式上線,Codex 開始複製你的工作流
當然,不是所有任務都適合這麼玩。
Record & Replay 瞄準的是那種重複、看個人偏好、說不清楚但做一遍你就懂的活。適用場景有這麼幾個:報銷、訂停車位、建一個配置正確的 issue、發影片、拉周期性報表。
這些活有個共同點。要麼步驟又固定又繁瑣,要麼裡頭藏著一堆只有你自己知道的隱性規則。
比如文件該怎麼命名、某個欄位默認填什麽、到了某個岔路口該往哪走。這種東西你要用文字一條條寫清楚給 AI,成本極高。不如直接做一遍,讓它自己看。

操作過程也比想像中省事,主要拆成了七步。
先在 Codex 應用里打開 Plugins(插件),搜索並添加 Record & Replay 插件。

然後它來要錄製權限,你準備好了就點同意。

剩下的就是你在 Mac 上正常把活干一遍。

這期間 Codex 全程觀察,學這套操作要點哪些地方、動哪些窗口的內容。

錄製會一直開著,直到你主動停止。所以記住,專心做那一個任務就行,別錄著錄著開始干別的。
幹完從菜單欄或懸浮層停止,或者直接跟 Codex 說一聲已經錄完。

錄完之後 Codex 會復盤一遍剛捕捉到的流程,自己起草一個 skill。這個 skill 里寫得很清楚:什麼時候該用這套流程、需要哪些輸入、按什麼步驟走、做完怎麼驗證結果。
你要是覺得它寫得不夠好,還能讓它再打磨。
幾條錄製建議值得照做:
演示儘量短而完整;錄之前先把目標和那些每次會變的輸入告訴 Codex;用真實輸入,但密碼和敏感數據千萬別錄進去;錄完後補上那些重要的隱性偏好,比如命名規範、欄位默認值、決策點怎麼選;流程做完就停,別拖到無關的收尾動作上。
至於,下次復現就簡單了。新開對話,讓它調這個 skill,把這次的具體值餵給它,比如要傳哪個文件、建哪個 issue、報表要哪段時間。

有個關鍵設定需要注意:Codex 會把這個 skill 當作可復用的上下文(reusable context)。
什麼意思呢?這個 skill 不是一段寫死的腳本,而是一份它每次都能拿來參考、再結合當前環境靈活執行的說明書。所以同一個 skill,這次傳 A 文件、下次傳 B 文件,它都能套著用。
具體幹活的時候,它會調動當前環境裡能用的工具,包括 Computer Use、瀏覽器操作和已安裝的插件,把流程跑完。
Codex 到底怎麼「用電腦」
來看一次公開演示。
這回 Codex 要學的是上傳 YouTube 影片的完整流程。它的工作方式是盯著用戶在 YouTube Studio 里操作,把點擊、選文件、敲文字這一整串動作全捕捉下來。
諸如選影片文件、填標題和描述、傳縮略圖、加字幕、設隱私選項等等,Codex 全記下來了,隨後展示了獨立復現的能力。
更有意思的是,它不只是機械地照著步驟復讀,還試圖搞懂背後的邏輯和門道。
比如什麼時候該把影片設成 Private、什麼時候設 Unlisted,怎麼管 .mp4 影片文件和 .srt 字幕文件這種成對的東西,元數據欄位該怎麼填,字幕怎麼跟影片對上號。
它甚至現場處理了一次報錯:
缺 Python 環境的時候,它直接從已安裝的 skill 位置讀資訊,自己適配過去了。而這一整段錄下來,轉譯成一個隨時能調用的 skill。
換句話說,Codex 一旦學會,理論上就能在沒人盯著的情況下反覆執行。對那些天天要傳一堆影片的內容工作流來說,這事確實有用。

要搞懂它憑什麼能復現,得先看 Codex 到底怎麼操作電腦。
OpenAI 工程師 Jason 之前梳理過 Codex 用電腦的三條路,能力有重疊,各有各的地盤。總原則是:能用插件或 MCP 就先用,視覺控制留給結構化工具夠不著的邊角。
第一種叫 Computer Use,覆蓋面最廣。
它能在 macOS 和 Windows 上看見並操作圖形界面,通過窗口、菜單、鍵盤、剪貼板來動那些授權過的應用。
代價是慢,因為它得看界面、判斷點哪、等響應、再確認狀態,一步一回頭。但好處也明顯,那些沒有 API 的應用它也能對付,比如 Spotify、Xcode、系統設置、iOS 模擬器,甚至能通過 iPhone 鏡像去操作 iPhone。
在 macOS 上它還能後台跑,你能同時干別的。它信任邊界也最寬,凡涉及錢、賬戶、支付、憑據的改動,建議你全程在場盯著。
這也解釋了為什麼 Record & Replay 只能跟著 Computer Use 一起開啟。它錄下來的操作要復現,靠的就是 Computer Use 這套看界面、動滑鼠鍵盤的底層能力。

第二種是 Chrome 擴展。
它接管你已經登錄好的 Chrome,適合那種靠賬號、cookie、已認證標籤頁的任務,比如 Gmail、Salesforce、內部儀錶盤。它能玩多標籤,把同一個任務的好幾個標籤頁串成一個完整工作流來理解。
代價是它帶著你的身份在動,網站會把它的點擊和提交都當成你本人,所以發送、發布、購買這種步驟一般得先過你審核。
第三種是應用內瀏覽器。
它活在 Codex 對話內部,跟你共享同一個渲染頁面,特別適合開發調試 Web 應用。它最大的特點是隔離,不碰你的瀏覽器配置、cookie、擴展和登錄會話。
需要的時候這是限制,不需要的時候反而是個乾淨的邊界。開發者能讓它改代碼、操作頁面、截圖、修完再跑一遍,形成一個緊密的反饋循環,還能直接點頁面元素留設計意見。
另外還有個叫 Appshot 的機制,它不操作電腦,只負責把 Codex 的注意力指到你眼前的東西上。在 Mac 上連按兩下 CMD 鍵,它就抓最前面那個窗口,把圖像和文字附進對話。你對著一個報錯、一封郵件、一個看不懂的表單直接發問就行。
用 Jason 的話說,Appshot 負責指方向,瀏覽器、Chrome 擴展和 Computer Use 負責動手。而 Record & Replay 錄下來的 skill,正是可以隨時調動上面任意一種或幾種方式來復現。

人類操作軟體的經驗,正在變成 AI 技能
從今年以來,Codex 的發布節奏仍在不斷加速,許多人都不知道的是,Codex 應用、CLI 和 SDK 不是只能配 OpenAI 自家模型。
在 config.toml 里配一下 model_providers,你可以把 Codex 指向 Ollama、LM Studio 這類本地開源模型,也能接 Mistral、Azure、Amazon Bedrock 這些第三方。傳個 --oss 參數就能跑本地 provider,不指定的話默認走 oss_provider。

🔗 https://developers.openai.com/codex/config-advanced#oss-mode-local-providers
也就是說,Record & Replay 這種能力,載體本身是個對模型開放的客戶端。
它也有適用範圍。Record & Replay 是從一次演示里快速造 skill 的捷徑,但如果你想把一個穩定的包發給整個團隊、捆綁好幾個 skill、加應用集成或 MCP 伺服器、管安裝元數據,那就別停在錄製層面,老實打包成獨立插件。
還有幾個上手前最好先知道的限制。
Record & Replay 目前只在 macOS 上能用,首發不覆蓋歐盟、英國和瑞士,而且必須先開啟 Computer Use 功能。
如果你是組織管理員,還有個坑得避開:
要是你們用 requirements.toml 統一管 Codex,那 [features].computer_use 這一項是連 Record & Replay 一起管的。


🔗 https://developers.openai.com/codex/record-and-replay
哪天把 computer_use 設成 false,你會發現這倆功能一起消失。所以要是你發現「我這兒壓根看不到 Record & Replay」,先去查這一項是不是被關了。
「Record & Replay」的上線,看起來只是一個錄製和復現操作的小功能,但放到更大的背景里,它代表的是 AI 與軟體交互方式的一次變化。
過去,自動化的基礎是 API。軟體必須先開放接口,把能力封裝成機器能夠調用的服務,自動化工具和 AI 才能接手流程。沒有 API,沒有結構化入口,很多任務就無法實現自動化。
因此,傳統自動化的邊界,往往取決於軟體願意開放多少能力。
但現在,OpenAI 試圖繞開這層限制。它不再要求軟體專門為 AI 提供接口,而是讓 AI 直接學習人類使用軟體的方式。人能看懂按鈕、菜單和窗口,它也去理解;人能完成點擊、輸入和切換頁面,它也去執行。

這意味著,AI 的工作對象開始從 API 擴展到整個圖形界面。換言之,「Computer Use」負責賦予 AI 操作電腦的能力,而「Record & Replay」則負責把人的操作經驗沉澱成可復用的技能。
這背後對應的,其實是作業系統角色的變化。過去,作業系統是所有軟體的組織者。我們在 Mac 或 Windows 上安裝各種應用,再由人自己在不同軟體之間切換、複製、整理和傳遞資訊。
人始終是連接各個軟體的中間層。
而當 AI 能夠跨應用觀察、理解並執行任務時,它開始承擔這層角色。對於用戶來說,關注點逐漸從「如何操作軟體」,轉向「想完成什麼事情」。

報銷軟體怎麼填、影片後台怎麼配置、多個系統之間如何來回切換,這些細節理論上都可以交給 AI 處理。照這樣發展下去,未來真正頻繁使用軟體的,未必是人,而是 AI。
對於 AI 來說,漂亮的界面沒有意義,複雜的菜單也沒有意義。它更關心的是:這個軟體能不能完成任務、能不能被調用、能不能穩定執行流程。
從這個角度看,「Record & Replay」真正有意思的地方,不是又多了一個自動化功能,而是它透露出一種新的趨勢:人正在從軟體的直接操作者,逐漸變成軟體能力的訓練者。
今天我們學習怎麼使用工具,未來或許更重要的一項能力,是教會 AI 使用工具。






