和 Codex
、Claude Code 等 Coding Agent 溝通,很多時候就像站在許願池邊,對著池子裡的王八扔硬幣,嘴裡念念有詞,關鍵它還真給你兌現願望。
、Claude Code 等 Coding Agent 溝通,很多時候就像站在許願池邊,對著池子裡的王八扔硬幣,嘴裡念念有詞,關鍵它還真給你兌現願望。因此,對很多不懂代碼的人來說,Codex 帶來的亢奮感是肉眼可見的——
它讓人第一次感覺,自己也能指揮電腦幹活。

🔗 https://x.com/zhongerxin/status/2068027614300893383
近半年以來,社交媒體上,圍繞 Codex 的玩法越來越野。有人讓它寫網頁,有人讓它做報表,有人讓它管文件,還有網友 @zhongerxin 折騰出了一種更直觀的玩法:
把畫布塞進 Codex。
他基於 tldraw
改造了一個叫 Cowart
的本地無限畫布插件,讓 Codex 不只讀文字提示詞,也能看到用戶在畫布上的箭頭、批註和位置標記。其作用在於讓 AI 改圖時,能夠指哪打哪。
改造了一個叫 Cowart
的本地無限畫布插件,讓 Codex 不只讀文字提示詞,也能看到用戶在畫布上的箭頭、批註和位置標記。其作用在於讓 AI 改圖時,能夠指哪打哪。逃離聊天框,Canvas 才是 AI 的應許之地
介紹 Cowart 之前,得先提一下 tldraw。
tldraw 可以理解為一塊跑在瀏覽器里的無限白板。
它基於 React 構建,提供完整的畫布引擎,內置白板工具、壓感繪圖、幾何圖形、富文本、箭頭、形狀吸附、圖片與影片支持,以及圖像導出等能力。

Github 地址 🔗 https://github.com/tldraw/tldraw
開發者可以基於它自定義形狀、工具、綁定關係和 UI 組件,把它擴展成各種不同類型的畫布應用。
Cowart 做的事情,就是基於 tldraw 搭了一個本地可視化畫布,讓用戶在畫布里構思、標註和生成圖片,再把標註交給 Codex 繼續修改。
玩法也不複雜。
安裝 Cowart 時,可以直接把下面這段話發給 Codex,讓它自動完成插件安裝:

請從 https://github.com/zhongerxin/cowart.git 安裝 Cowart Codex 插件。
請 clone 倉庫到 ~/plugins/cowart,確認 .codex-plugin/plugin.json 存在,
把插件加入 personal marketplace,先運行 codex plugin marketplace add ~,
再運行 codex plugin add cowart@personal。
安裝後請校驗插件,並告訴我是否需要開啟一個新對話來加載新技能和 MCP 工具。
安裝完成後,通常需要開啟一個新的 Codex 對話,讓新的 skill 和 MCP 工具完整加載。使用時,可以直接在 Codex 中輸入:
幫我打開 Cowart 畫布。

實測中,Cowart 會啟動一個本地網頁服務,並在對話里給出預覽入口。然後接下來的操作就非常簡單了。
比如調用 Cowart 插件,繼續在對話中輸入:
幫我生成一張達芬奇原汁原味風格的《蒙娜麗莎》油畫

隨後,Codex 生成圖片,並把它放進 Cowart 畫布,右側畫布中可以看到生成後的《蒙娜麗莎》圖片。後續修改可以直接圍繞這張圖進行。
接下來,我在 Cowart 畫布里對這張圖做兩處標註。
第一處,在人物眼睛位置畫箭頭,並寫上「給眼睛戴上墨鏡」。第二處,在手部位置畫箭頭,並寫上「手裡拿著一杯果汁」。

標註完成後,把這張 Cowart 標註截圖發給 Codex,並輸入:
使用我的 Cowart 標註截圖,生成一張乾淨的修訂版圖片,並將它放在原圖旁邊。

Codex 隨後根據標註截圖生成新的修訂圖。

2002 年史匹柏的《關鍵報告》里,湯姆·克魯斯飾演的角色站在懸浮螢幕前,用手勢拖拽、圈選、調取數據。原本抽象的檢索、判斷和資訊整理,被拍成了一種直接的空間操作:看到哪裡,手伸過去,資訊就跟著移動。

Cowart 的畫布標註當然沒有那麼科幻,但它對應的交互直覺是一致的。
過去用戶得把腦子裡的畫面翻譯成一長串提示詞,現在只要把箭頭畫到圖上,把要求寫在旁邊。AI 看到的不再只是「把這裡改一下」這樣的模糊描述,還有位置、方向和上下文關係。
再來看一個商品圖製作的案例。

依舊是讓 Cowart 先生成一張極簡風格的空白牛皮紙外帶咖啡杯,放在木質桌面上;隨後在背景區域標註「背景換為露營地」,在杯身中間標註「加上一個柴犬 logo」。

最終的結果也不出所料。
當 Cowart 把 AI 改圖裡的位置描述變成了畫布標註,用戶也不需要反覆解釋「左上角」「中間偏右」「手的位置」這類空間關係,直接在圖上指給 Codex 看即可。
Cowart 這套「畫布加標註加生圖」的交互,也不只是綁定在 Codex 上。只要 Agent 客戶端能調用本地 MCP 工具、能訪問本地畫布服務、能使用圖像生成能力,類似玩法就可以遷移過去。
開發者 Chloe Tian(@tllll64)就搞了個 WorkBuddy 適配版,感興趣的可以試試。

Github 地址🔗 https://github.com/tllll64/cowart_workbuddy
不過,儘管 Cowart 未來可期,但目前體驗還比較粗糙的:
響應慢,從開畫布到生成、修改都得等;額度消耗高,多試幾個版本成本肉眼可見地往上漲;還容易斷聯——畫布、本地服務和 MCP 工具偶爾不同步,Codex 無法讀取選區或插入結果,得重開畫布或重啟對話才能緩過來。
Codex 正在變成打工人的 AI「工作檯」
Codex 的插件和應用案例,其實一直被市場低估。翻一翻 OpenAI 官網也能發現許多有趣案例,覆蓋收件箱管理、電腦自動操作、前端開發、遊戲開發、原生應用開發、生產系統維護等一系列場景。
在這些案例里,Codex 承擔的任務已經不只是寫幾段代碼。它可以幫用戶管理收件箱,找出重要郵件,並按照用戶的語氣草擬回復;可以在 Mac 上點擊、輸入和操作應用;
可以跟隨一個長期目標,持續處理複雜任務;也可以清洗表格數據、查詢 CSV 和電子表格、審查 GitHub pull request、根據截圖生成前端界面,甚至自動生成 slide decks。

🔗 https://developers.openai.com/codex/use-cases
OpenAI 發布的《How OpenAI uses Codex》白皮書顯示,Codex 已在安全、產品工程、前端、API、基礎設施和性能等團隊中日常使用,基於內部訪談與數據總結。其主要應用可歸為七類:

🔗 https://cdn.openai.com/pdf/6a2631dc-783e-479b-b1a4-af0cfbd38630/how-openai-uses-codex.pdf
最佳實踐包括:先用 Ask Mode 規劃,再用 Code Mode 執行;優化運行環境與權限配置;Prompt 類似 GitHub Issue,需提供充分上下文。團隊還將任務隊列當作輕量 backlog,藉助 AGENTS.md 提供長期上下文,複雜任務用 Best-of-N 生成多方案篩選。

Cowart 這類功能插件本質上也契合這個方向。
對話是線性的,而創造往往是空間性的、發散的。用戶在畫布上指出位置,Codex 調用本地工具讀取狀態、生成圖片、插入畫布,並把結果保存在當前項目目錄中。
往後看,很多輕量功能可能不會以獨立應用的形態存在,而是成為 Agent 可以調用的一組本地能力,並被裝進同一個工作流里。
當畫布、表格、網頁、郵件、代碼倉庫等等桌面環境都能被 Agent 理解和調用,Codex 也就演變成了一個可以被不斷加裝能力的本地工作檯。
至於現在該準備點什麽?或許就是備好自己的想像力,往 AI「許願池」里,投下一枚枚更大膽的硬幣。






