800人實測：AI給你的爛方案，比最優解更值錢

上個月剛充了 ChatGPT Plus，這個月又買了 Cursor 800人實測AI給你的爛方案比最優解更值錢 Pro，OpenClaw 也研究的差不多了。我們對 AI 的期待，說起來非常簡單：給最好的方案、最準確的代碼、最精確的回答。

贊助商廣告

然後我們再用輸出質量來評判一個 AI 值不值得續費。

但為什麼總覺得 AI 不夠好用呢？

Swansea 大學一項迄今最大規模的人機協作創意實驗剛剛告訴你：你對 AI 的期待從根上就是錯的。

800 個人設計了一輛虛擬汽車

這不是問卷調查，是一個真正的設計任務。研究者開發了一個叫「Genetic Car Designer 800人實測AI給你的爛方案比最優解更值錢」的在線工具，放在遊戲平台 itch，讓參與者設計一輛二維汽車，目標很簡單：在 30 秒內跑得越遠越好。

車身由多邊形頂點定義，輪子有位置、半徑、質量、轉速和懸掛頻率五個自由度。最簡單的配置有 9 個可調參數，最複雜的可以到 85 個。

系統有兩種 AI 建議模式。一種是 MAP-Elites 800人實測AI給你的爛方案比最優解更值錢算法驅動的方案，按速度、輪徑、幾何形狀三個維度，展示一系列多樣化的設計方案。這些方案里有高性能的、有奇怪的，也有明顯跑不遠的。另一種是隨機歷史記錄，什麼設計都有，毫無章法，充當對照組。

參與者可以自由選擇看不看這些建議，用不用它們。沒有強制流程，沒有規定時間，隨時可以退出。實驗設計的精妙之處在於：它不告訴你 AI 在幫你，只是把方案擺在那裡，看你怎麼反應。

808 個有效 session 里，50%的參與者完全是被動的。打開工具後就讓算法自己跑，全程不參與。36%只用了設計編輯器，手動調參數。只有 14%打開了 AI 方案並且與之互動。

但這 14%的人，產出了最好的設計。

看到「爛設計」的人，反而做得更好

數據很清楚。看過至少一個 AI 方案的人，平均在任務上花了 22.5 分鐘，是沒看過方案的人（9.4 分鐘）的 2.4 倍。設計質量提升幅度達到 373%，將近沒看方案的人（197%）的兩倍。主動跟方案互動、選取設計反饋給算法的人，提升更是高達 420%，是純被動參與者（124%）的 3.4 倍。所有比較均通過了嚴格的統計檢驗（Mann-Whitney U， p

贊助商廣告

更有意思的是 MAP-Elites 方案和隨機方案之間的對比。參與者在兩種方案上花的觀看時間沒有顯著差異，但從 MAP-Elites 方案里選出來實際使用的設計數量，顯著多於隨機對照組。

這意味著「結構化多樣性」，也就是好的、怪的、差的方案按維度排列在一起，比一鍋亂燉的隨機建議，產生了更強的創意激發效果。

最反直覺的發現，藏在實驗室研究里。

研究者另外招募了 12 名工程專業學生做了一組對照更嚴格的實驗：固定賽道、固定參數、固定時長（40 代算法疊代），只保留兩個方案（MAP-Elites vs 隨機），雙盲標記為「Insights 1」和「Insights 2」。

75%的人在 MAP-Elites 方案上花了更多時間，所有參與互動的人也都從 MAP-Elites 里選了更多設計。但問他們「哪個方案更有用」，答案卻是分裂的。25%的人甚至認為隨機方案更好，儘管他們的實際行為證明他們從 MAP-Elites 里獲益更多。

論文的解釋是：行為參與和情緒參與是分離的。你在認知上確實受到了幫助，但你不一定「感覺」到這種幫助。這指向了一個更深層的機制，論文稱之為「過早固化 800人實測AI給你的爛方案比最優解更值錢」（early fixation）。

當你只看到好方案，你傾向於直接複製；當你看到一堆參差不齊的方案，你被迫開始自己思考，因為沒有哪個方案可以直接拿來用。爛設計不是噪音，是認知摩擦。它攔住了你的第一反應，逼你繞遠路。而繞遠路，恰恰是創造力的產生條件。

贊助商廣告

其中有一位參與者的反饋很有代表性：「我發現方案在後期更有用，當我自己做的修改不再產生更好結果的時候。」這正好印證了研究者的判斷。多樣化建議的價值不在起步階段，而在你自以為找到最優解、實際上已經陷入局部最優的時候。更有參與者說自己會刻意挑差方案來看，「用來探索新想法」。

你花錢買的不是答案

一個 AI 給你的爛答案，竟然比好答案更有價值。這項研究還揭示了一個 AI 產品經理們，可能不太願意面對的事實：使用 AI 方案的人花了更長的時間完成任務，而不是更短。

研究者在論文中直言：「基於方案的人機協作工具不應被視為省時省錢的工具，而應被視為通過增強人類創造力來產出更好結果的工具。」在他們此前的一項研究中也觀察到了同樣的趨勢：使用 AI 輔助工具的參與者完成任務所需時間顯著更長，原因是情緒參與度更高，他們投入了更多精力去探索。

這跟 AI 產品的主流營銷敘事完全矛盾。從 ChatGPT 到 Midjourney 到 Cursor，所有 AI 工具的價值主張都是「更快、更好、更省力」。但這項研究的數據顯示，真正有價值的 AI 協作，恰恰是讓你花更多時間、投入更多精力的那種。省下來的不是時間，而是那些你原本不會走的彎路——可彎路，才是創造力的正路。

這篇論文的標題叫「From Metrics to Meaning 800人實測AI給你的爛方案比最優解更值錢」，從指標到意義。作者批評了 AI 工具行業的主流評估方式：用點擊率、複製率、採納率來衡量 AI 建議的價值。這些指標只能捕捉行為參與（你是否點了），完全忽略了認知參與（你是否在想）和情緒參與（你是否在乎）。

僅僅是「看」一眼設計建議，即使你沒有選擇它、沒有複製它、沒有對它做任何操作，它已經在影響你的設計過程了。這意味著 AI 產品用來衡量自身價值的那套指標體系，可能系統性地低估了 AI 真正的貢獻，同時高估了「輸出準確性」的重要性。

贊助商廣告

這對每一個正在付費訂閱 AI 工具的人都有價值：你每個月花 20 美元，期待的是一個給你最優解的系統。但恰恰，好的 AI，可能不是給你答案的那個，而是用一堆不完美的方案逼你自己去想的那個。

當 Cursor、Claude、ChatGPT 都在卷輸出質量的時候，也許最好的 AI 產品設計，應該故意「不那麼好用」。你花錢買的不是答案，是刺激。