上個月剛充了 ChatGPT Plus,這個月又買了 Cursor
Pro,OpenClaw 也研究的差不多了。我們對 AI 的期待,說起來非常簡單:給最好的方案、最準確的代碼、最精確的回答。
然後我們再用輸出質量來評判一個 AI 值不值得續費。
但為什麼總覺得 AI 不夠好用呢?
Swansea 大學一項迄今最大規模的人機協作創意實驗剛剛告訴你:你對 AI 的期待從根上就是錯的。
800 個人設計了一輛虛擬汽車
這不是問卷調查,是一個真正的設計任務。研究者開發了一個叫「Genetic Car Designer
」的在線工具,放在遊戲平台 itch,讓參與者設計一輛二維汽車,目標很簡單:在 30 秒內跑得越遠越好。
車身由多邊形頂點定義,輪子有位置、半徑、質量、轉速和懸掛頻率五個自由度。最簡單的配置有 9 個可調參數,最複雜的可以到 85 個。

系統有兩種 AI 建議模式。一種是 MAP-Elites
算法驅動的方案,按速度、輪徑、幾何形狀三個維度,展示一系列多樣化的設計方案。這些方案里有高性能的、有奇怪的,也有明顯跑不遠的。另一種是隨機歷史記錄,什麼設計都有,毫無章法,充當對照組。
參與者可以自由選擇看不看這些建議,用不用它們。沒有強制流程,沒有規定時間,隨時可以退出。實驗設計的精妙之處在於:它不告訴你 AI 在幫你,只是把方案擺在那裡,看你怎麼反應。
808 個有效 session 里,50%的參與者完全是被動的。打開工具後就讓算法自己跑,全程不參與。36%只用了設計編輯器,手動調參數。只有 14%打開了 AI 方案並且與之互動。
但這 14%的人,產出了最好的設計。
看到「爛設計」的人,反而做得更好
數據很清楚。看過至少一個 AI 方案的人,平均在任務上花了 22.5 分鐘,是沒看過方案的人(9.4 分鐘)的 2.4 倍。設計質量提升幅度達到 373%,將近沒看方案的人(197%)的兩倍。主動跟方案互動、選取設計反饋給算法的人,提升更是高達 420%,是純被動參與者(124%)的 3.4 倍。所有比較均通過了嚴格的統計檢驗(Mann-Whitney U, p
更有意思的是 MAP-Elites 方案和隨機方案之間的對比。參與者在兩種方案上花的觀看時間沒有顯著差異,但從 MAP-Elites 方案里選出來實際使用的設計數量,顯著多於隨機對照組。
這意味著「結構化多樣性」,也就是好的、怪的、差的方案按維度排列在一起,比一鍋亂燉的隨機建議,產生了更強的創意激發效果。

最反直覺的發現,藏在實驗室研究里。
研究者另外招募了 12 名工程專業學生做了一組對照更嚴格的實驗:固定賽道、固定參數、固定時長(40 代算法疊代),只保留兩個方案(MAP-Elites vs 隨機),雙盲標記為「Insights 1」和「Insights 2」。
75%的人在 MAP-Elites 方案上花了更多時間,所有參與互動的人也都從 MAP-Elites 里選了更多設計。但問他們「哪個方案更有用」,答案卻是分裂的。25%的人甚至認為隨機方案更好,儘管他們的實際行為證明他們從 MAP-Elites 里獲益更多。

論文的解釋是:行為參與和情緒參與是分離的。你在認知上確實受到了幫助,但你不一定「感覺」到這種幫助。這指向了一個更深層的機制,論文稱之為「過早固化
」(early fixation)。
當你只看到好方案,你傾向於直接複製;當你看到一堆參差不齊的方案,你被迫開始自己思考,因為沒有哪個方案可以直接拿來用。爛設計不是噪音,是認知摩擦
。它攔住了你的第一反應,逼你繞遠路。而繞遠路,恰恰是創造力的產生條件。

其中有一位參與者的反饋很有代表性:「我發現方案在後期更有用,當我自己做的修改不再產生更好結果的時候。」這正好印證了研究者的判斷。多樣化建議的價值不在起步階段,而在你自以為找到最優解、實際上已經陷入局部最優的時候。更有參與者說自己會刻意挑差方案來看,「用來探索新想法」。
你花錢買的不是答案
一個 AI 給你的爛答案,竟然比好答案更有價值。這項研究還揭示了一個 AI 產品經理們,可能不太願意面對的事實:使用 AI 方案的人花了更長的時間完成任務,而不是更短。
研究者在論文中直言:「基於方案的人機協作工具不應被視為省時省錢的工具,而應被視為通過增強人類創造力來產出更好結果的工具。」在他們此前的一項研究中也觀察到了同樣的趨勢:使用 AI 輔助工具的參與者完成任務所需時間顯著更長,原因是情緒參與度更高,他們投入了更多精力去探索。

這跟 AI 產品的主流營銷敘事完全矛盾。從 ChatGPT 到 Midjourney 到 Cursor,所有 AI 工具的價值主張都是「更快、更好、更省力」。但這項研究的數據顯示,真正有價值的 AI 協作,恰恰是讓你花更多時間、投入更多精力的那種。省下來的不是時間,而是那些你原本不會走的彎路——可彎路,才是創造力的正路。
這篇論文的標題叫「From Metrics to Meaning
」,從指標到意義。作者批評了 AI 工具行業的主流評估方式:用點擊率、複製率、採納率來衡量 AI 建議的價值。這些指標只能捕捉行為參與(你是否點了),完全忽略了認知參與(你是否在想)和情緒參與(你是否在乎)。

僅僅是「看」一眼設計建議,即使你沒有選擇它、沒有複製它、沒有對它做任何操作,它已經在影響你的設計過程了。這意味著 AI 產品用來衡量自身價值的那套指標體系,可能系統性地低估了 AI 真正的貢獻,同時高估了「輸出準確性」的重要性。
這對每一個正在付費訂閱 AI 工具的人都有價值:你每個月花 20 美元,期待的是一個給你最優解的系統。但恰恰,好的 AI,可能不是給你答案的那個,而是用一堆不完美的方案逼你自己去想的那個。
當 Cursor、Claude、ChatGPT 都在卷輸出質量的時候,也許最好的 AI 產品設計,應該故意「不那麼好用」。你花錢買的不是答案,是刺激。






