格勒諾布爾阿爾卑斯大學揭秘：為什麼聰明的AI有時反而是糟糕的「搜索員」？

這項由法國格勒諾布爾阿爾卑斯大學（Univ. Grenoble Alpes）與法國國家科學研究中心（CNRS）及格勒諾布爾INP聯合開展的研究，於2026年4月以預印本形式公開發表，論文編號為arXiv:2604.19440。有興趣深入了解的讀者可以通過該編號查詢完整原文。

贊助商廣告

---

**研究概要：聰明不等於會"找路"**

假設你要在一座陌生城市裡找到最好的餐廳。有兩種人可以幫你：第一種人是美食評論家，見多識廣，憑直覺就能猜到哪裡好吃；第二種人則是個執著的探路者，一家家試吃，每次都在上一家的基礎上慢慢縮小範圍，越找越准。你覺得誰能最終找到真正最好的那家餐廳？

這個問題的答案，正是這項研究想弄清楚的核心。近年來，大型語言模型（簡稱LLM，也就是ChatGPT、Gemini這類AI）被越來越多地用在一種叫做"進化搜索格勒諾布爾阿爾卑斯大學揭秘為什麼聰明的AI有時反而是糟糕的搜索員 "的優化系統里。通俗來說，就是讓AI反覆提建議、接受打分、再改進，一輪輪疊代，找到解決某個難題的最佳方案——就像自然界中物種不斷進化以適應環境一樣。

研究團隊發現了一個讓人意外的現象：在這種"邊走邊找"的優化過程中，更聰明、在單次問答中表現更好的AI，並不總是最終找到最佳方案的那個。反而有些看似"普通"的AI，在長期疊代中表現出色。這究竟是為什麼？研究團隊決定對15個不同的AI模型展開大規模追蹤，橫跨8項不同任務，收集了超過7.2萬個候選方案的完整"尋找軌跡"，試圖從中找出規律。

---

**一、進化搜索：讓AI像物種一樣"進化"**

要理解這項研究，首先得明白什麼是"進化搜索"。

回到找餐廳的比喻。傳統的搜索方式就像拿著大眾點評翻評分，一次性做決定。而進化搜索不同——它更像是一個有組織的試吃團隊：先隨機選幾家餐廳試吃（初始種群），然後根據口味打分，挑出最好的幾家（精英選擇），再請AI根據這些餐廳的特點提出"改良版建議"，比如附近有沒有風格類似但更好的餐廳（變異操作），再去試吃、打分，如此反覆。

贊助商廣告

研究團隊搭建的實驗框架正是這個邏輯。每一輪疊代叫做一個"代"（generation），每一代中AI會產生10個新候選方案，然後系統保留表現最好的那部分方案，再進入下一代。整個過程跑30代，就像讓一個物種進化了30個世代。

研究選取了四類完全不同的任務：旅行商問題（TSP，尋找連接若干城市的最短路線）、提示詞優化（讓AI幫助改進指導語以提升另一個AI的文本生成質量）、方程發現（從數據中找到最能擬合的數學公式）、啟發式算法設計（為裝箱問題設計最優策略程序）。這四類任務涵蓋了從數學到語言的多個領域，確保研究結論具有普遍性。

15個參與測試的AI模型來自六大家族，涵蓋了OpenAI的GPT-4o及其系列、谷歌的Gemini和Gemma、Meta的Llama、DeepSeek-V3、以及Mistral系列。這些模型能力參差不齊，從參數量僅10億的小模型到業界頂尖的旗艦模型都有。

---

**二、聰明並非全部：零樣本能力的局限性**

研究的第一個問題是：AI在進化搜索中表現的好壞，是不是就直接等於它本身有多聰明？

為了衡量"有多聰明"，研究團隊定義了"零樣本性能格勒諾布爾阿爾卑斯大學揭秘為什麼聰明的AI有時反而是糟糕的搜索員 "——就是在沒有任何參考、直接一次性提問的情況下，AI能給出多好的答案。這相當於考察那位美食評論家，不經過任何探索，憑第一印象能找到多好的餐廳。測試方式是在六個不同的"溫度"設置下（控制AI回答的隨機程度）各採樣兩次，取最好的結果。

數據顯示，零樣本性能確實和最終進化結果有正相關關係——更聰明的AI總體上傾向於給出更好的最終答案，這一點並不讓人意外。然而，當研究人員把目光聚焦在零樣本性能相近的AI上時，一個奇怪的現象浮現了：幾個零樣本得分幾乎相同的AI，在經過30代進化之後，最終的優化結果差異卻極大。

比如在某個零樣本平均分約為0.4的分組裡，多個模型在起跑線上幾乎並排，但30代之後，有的模型最終分數高達0.8以上，有的卻還在0.6附近徘徊。換句話說，第一印象相似的AI，走出來的"尋路軌跡"完全不同。這說明，進化搜索的成敗背後，存在著某種比"聰明程度"更本質的東西。

贊助商廣告

---

**三、"創新力"的陷阱：多樣性不是萬能的**

找到這個"更本質的東西"之前，研究團隊先排除了一個看似合理的假設：多樣性（或者說"新奇度格勒諾布爾阿爾卑斯大學揭秘為什麼聰明的AI有時反而是糟糕的搜索員 "）。

按照經典進化算法的邏輯，探索越廣泛越好。如果AI每次提的建議都和之前的很不一樣，就相當於在更大的範圍內搜索，理論上更容易找到隱藏的好答案。研究團隊專門設計了一個指標——"新奇度"（novelty），定義為每個新候選方案與此前所有方案在語義空間格勒諾布爾阿爾卑斯大學揭秘為什麼聰明的AI有時反而是糟糕的搜索員中的最小距離。距離越大，代表這個方案越"新奇"、越"與眾不同"。

然而實驗結果徹底推翻了這個假設。當研究人員把各AI的平均新奇度和最終優化成績做統計分析時，發現兩者之間的相關性幾乎為零，在統計上完全不顯著。更直接地說，產生更多"奇思妙想"的AI，並沒有因此找到更好的答案。

不僅如此，數據還揭示了一個反直覺的規律：那些新奇度持續偏高的AI，往往正是表現較差的。它們像一個到處亂走的旅行者，每到一個地方都覺得新鮮，不停變換方向，卻始終沒有深入挖掘某個有潛力的區域。這種"漫遊式"的搜索行為，在追蹤圖上呈現為方案點散落在語義空間的各個角落，沒有明顯的收斂趨勢。

---

**四、真正的關鍵：頻繁的小進步，而非偶爾的大跨越**

既然不是新奇度，那真正決定成敗的是什麼？

研究團隊引入了另一個指標——"突破率格勒諾布爾阿爾卑斯大學揭秘為什麼聰明的AI有時反而是糟糕的搜索員 "（breakthrough rate）。所謂"突破"，就是某一代產生的新方案，比迄今為止所有歷史最佳方案都要好——哪怕只好一點點。突破率就是在整個進化過程中，發生這種"歷史新高"事件的頻率。

這個指標與最終優化成績的相關性，讓所有人眼前一亮。統計分析顯示，突破率單獨作為預測變量時，能解釋約19.8%的最終成績差異，幾乎是零樣本能力（解釋約10.3%）的兩倍。當把突破率和零樣本能力結合起來，解釋力進一步提升到24.6%，而且此時零樣本能力的統計顯著性明顯下降——這說明"聰明程度"對最終成績的部分貢獻，其實是通過"突破率"這個中間環節來實現的。也就是說，一個AI之所以聰明有幫助，很大程度是因為它能產生更多小進步。

贊助商廣告

更重要的是，這種"頻繁小進步"的模式與經典進化算法中常見的"長時間停滯 + 偶爾大突破"截然不同。好的AI搜索軌跡，不是偶爾靈光一現的驚天發現，而是像水滴石穿一樣，持續穩定地向更好的方向邁進。回到找餐廳的比喻：優秀的探路者不是偶爾撞上一家絕世好館子，而是每一步都比上一步更接近目標。

---

**五、語義空間的幾何學：從"漫遊"到"聚焦"**

為了更直觀地理解為什麼有些AI能持續產生突破，研究團隊採用了一種叫做"多維尺度分析格勒諾布爾阿爾卑斯大學揭秘為什麼聰明的AI有時反而是糟糕的搜索員 "（MDS）的方法，把每一個候選方案映射到一個二維平面上，就像把所有方案投影到一張地圖上，相似的方案靠近，不同的方案分散。通過這張"軌跡地圖"，可以看到AI的"搜索路徑"。

以TSP-60任務為例，研究團隊對比了Gemini-1.5-Pro和Mistral-7B-Instruct兩個零樣本表現相近的模型。在軌跡地圖上，Gemini-1.5-Pro的方案點隨著代數推進，逐漸向一個高質量區域收攏——後期的方案點（深色）密集聚集在一片很小的區域內，像是逐漸找到了寶藏所在地，然後在那裡精耕細作。Mistral-7B-Instruct的方案點則始終散落在地圖各處，雖然偶爾也能產生一個不錯的方案，但下一代又跑到完全不同的區域去了，沒有任何積累效應。

為了量化這種"聚焦程度"，研究團隊定義了兩個熵值指標。第一個是"空間熵"（spatial entropy），衡量所有方案在語義空間裡的分散程度——熵越低代表越聚焦。第二個是"適應度空間熵"（fitness spatial entropy），衡量高質量方案是否集中在同一個區域——熵越低代表好方案越集中。

統計分析證實，適應度空間熵越低（即好方案越集中），該代產生突破的概率越高。這說明有效的搜索不是在空曠的地圖上隨機探索，而是識別出哪片區域最有潛力，然後圍繞那片區域深度挖掘。

---

**六、新奇度的條件價值：在對的地方"標新立異"**

事情到這裡還沒完。研究團隊發現，新奇度本身並非一無是處——它的價值取決於在什麼條件下出現。

贊助商廣告

通過混合效應回歸分析（一種能同時考慮多個因素相互影響的統計方法），研究團隊發現了一個精妙的交互效應：當搜索處於"高度聚焦"狀態時（即空間熵低），某種程度的新奇度反而有助於產生突破；但當搜索處於"高度分散"狀態時（即空間熵高），新奇度對突破毫無幫助，甚至適得其反。

用餐廳探索來理解：當你已經把搜索範圍縮小到某條街道，並且這條街道確實充滿優質餐廳時，在這條街道內"標新立異"地嘗試一家沒人知道的小店，確實可能發現驚喜。但如果你還在漫無目的地穿越整座城市，這時候再"標新立異"地跑去郊區的某個角落，基本上只會浪費時間。新奇度的價值，是在已知的好區域內進行局部探索，而不是逃離好區域去遠方碰運氣。

這個發現同時也解釋了為什麼高新奇度的AI往往表現更差——它們並非在恰當的時機"標新立異"，而是始終無法讓搜索收斂到有價值的區域，所有的創新都發生在錯誤的地方。

---

**七、局部精煉者格勒諾布爾阿爾卑斯大學揭秘為什麼聰明的AI有時反而是糟糕的搜索員：好的AI搜索員長什麼樣**

綜合上述發現，研究團隊提煉出了一個核心概念：優秀的AI搜索員是"局部精煉者"（local refiner）。

所謂局部精煉，具體指的是：給AI看幾個"父代"方案（也就是當前最優的若干候選答案），AI生成的"子代"方案能以較高概率嚴格優於父代中的任何一個。研究團隊把這個頻率定義為"局部精煉率格勒諾布爾阿爾卑斯大學揭秘為什麼聰明的AI有時反而是糟糕的搜索員 "（LRR）。與之對應的另一個指標是"親子語義距離"（PCD），衡量子代方案和父代方案在語義上相差多遠。

當研究人員把局部精煉率和親子語義距離都納入同一個統計模型時，結果非常清晰：局部精煉率對最終成績有極強的正向預測作用，統計置信度極高；而親子語義距離在單獨分析時呈現負向效果（修改幅度越大，成績反而越差），但一旦把局部精煉率納入模型，這個負效應就消失了。這說明"改動幅度大有害"這件事，其實是因為大幅改動通常會降低產生改進的概率——本質上還是局部精煉率在起作用。

贊助商廣告

換句話說，好的AI修改就像外科手術：精準、克制、每刀都讓病人更健康一點。差的AI修改則像拆了重建：看起來改動很大，但不一定更好，甚至可能更糟。

---

**八、干預實驗：當"壞工人"混入"好團隊"**

理論分析之外，研究團隊還做了一組頗具創意的干預實驗，直接用實際操控來驗證局部精煉率的因果效果。

實驗設計很直接：在進化過程中，每一代產生的10個子代方案，不再全部由主模型生成，而是讓一個"弱精煉者"（局部精煉率較低的模型）生成其中一部分，其餘仍由"強精煉者"生成。通過調整弱精煉者占比（從0%到100%），研究人員觀察最終優化成績如何變化。

實驗在TSP-60、裝箱-OR3和提示詞優化三個任務上進行，結果在前兩個任務上表現得尤為明顯：隨著弱精煉者占比從0上升，最終成績幾乎單調下降，而且整體局部精煉率也隨之下降。成績曲線和精煉率曲線幾乎同步變化，呈現出極強的協同關係。提示詞優化任務上效果稍弱一些，但趨勢一致。

這個實驗的意義在於：它不只是觀察，而是主動改變了搜索過程，並得到了可預測的結果。就像如果你的餐廳探索團隊裡混入了幾個隨機亂推薦的人，整個團隊的找路效率就會系統性下降。這證明了局部精煉率不只是個相關指標，而是真正影響結果的機制。

---

**九、省錢還能找到好答案：性價比的重要啟示**

研究還有一個非常實用的發現：貴的模型不等於好的"搜索員"。

研究團隊根據每個模型在進化搜索過程中的實際token消耗量和API定價，估算了每次完整優化的貨幣成本，並將其與該模型通過進化獲得的性能提升量放在同一張圖上對比。結果顯示，各模型之間的"性價比"差異極大。

一些中等規模的模型（比如Mistral-24B-Instruct）落在了帕累托前沿上——這是一個經濟學概念，意味著在同等成本下它的提升量最大，或者同等提升量下成本最低。反過來，一些旗艦級大模型儘管零樣本能力很強，但每次優化的費用極高，提升量卻不成比例地低，性價比遠不如某些中型模型。

贊助商廣告

這對實際部署AI優化系統的工程師和研究者來說是個重要提示：不要默認選最強大的模型，而應該測試哪個模型在你的任務上具有更好的局部精煉行為，再綜合考慮成本做選擇。

---

**十、溫度測試：這個規律穩定嗎？**

為了確保發現的規律不是某個特定實驗設置下的巧合，研究團隊還專門做了溫度敏感性測試。所謂"溫度"（temperature）是控制AI輸出隨機程度的參數，溫度越高，AI的回答越發散；溫度越低，回答越保守確定。

研究團隊用Mistral-7B和Mistral-24B兩個模型，在TSP和方程發現兩個任務上，測試了從0.0到1.3的八個溫度值，觀察局部精煉率和最終成績之間的相關性是否隨溫度變化而改變。

結果令人安心：無論溫度如何變化，局部精煉率與最終成績的正相關關係始終穩定存在，在TSP任務上尤為顯著（Pearson相關係數高達0.92，p值遠低於0.001）。這說明"局部精煉行為是好優化器的核心"這個結論，並不依賴於某個特定的參數設置，而是一個相對穩健的規律。

與此同時，研究團隊也指出，局部精煉行為不只是某個模型的固有特質，而是整個"模型+提示詞+解碼參數"系統的綜合屬性。換句話說，即使是一個天生精煉能力較弱的模型，也可能通過調整提示詞或溫度來改善其精煉行為；反之亦然。這為未來通過系統設計來優化搜索行為提供了空間。

---

**說到底，這項研究告訴了我們什麼？**

歸根結底，格勒諾布爾阿爾卑斯大學的研究團隊用7.2萬個數據點證明了一件事：在AI驅動的進化搜索這條賽道上，"聰明"和"會找路"是兩種不同的能力。一個AI在單次問答中多麼博學多才，並不能保證它在反覆疊代的優化過程中找到最好的答案。

真正決定成敗的，是一種樸素但穩定的能力——每次改動都能比上一次稍微好一點。這種"局部精煉"的行為，讓搜索在語義空間裡逐漸收斂到有價值的區域，而不是漫無目的地遊蕩。新奇和創新本身沒有問題，但只有在已經找對方向的前提下，局部的創新才能轉化為真正的進步。

贊助商廣告

對於普通人來說，這意味著當你在選擇AI工具來輔助某個需要反覆優化的任務時，不要只看模型的"聰明排行榜"，更要關注它在疊代改進中的穩定性。對於AI研究者和開發者來說，這意味著未來訓練AI時，除了追求更強的通用能力，還值得專門培養模型作為"搜索算子"的局部精煉能力——讓AI不只是聰明的答題者，更是可靠的"探路者"。

這項研究的完整論文以預印本形式收錄於arXiv，編號為arXiv:2604.19440，感興趣的讀者可以通過這個編號找到原文深入閱讀。

---

**Q&A**

Q1：進化搜索中的"突破率"具體是怎麼計算的？

A：突破率是指在整個進化過程中，某一代產生的新方案比截至目前所有歷史最佳方案都要好的比例。比如跑了30代，其中有6代出現了"歷史新高"，突破率就是6/30=20%。這個指標衡量的是AI在疊代過程中持續產生改進的頻率，而不是單次的改進幅度。研究顯示，突破率比AI的零樣本能力更能預測最終優化成績。

Q2：局部精煉率（LRR）和新奇度（novelty）有什麼區別？

A：局部精煉率衡量的是AI產生的子代方案比父代方案更優的比例，關注的是"改了之後有沒有變更好"；新奇度衡量的是新方案與歷史所有方案在語義上的距離，關注的是"改動有多新穎"。研究發現，這兩者經常是相反的——改動越大越新奇，往往越難確保變得更好，所以高新奇度模型的局部精煉率反而偏低。

Q3：為什麼Mistral-24B在性價比上表現出色而一些旗艦大模型反而不如它？

A：這是因為進化搜索中真正有價值的能力是局部精煉行為，而不是零樣本的通用能力。Mistral-24B恰好具備較強且穩定的局部精煉能力，在多個任務中能持續產生小幅度的改進。旗艦大模型雖然更聰明，但API費用大幅更高，而在局部精煉這個具體維度上的優勢並不成比例，導致每花一塊錢獲得的性能提升反而更少。