AI推理能力被高估，阿里發現模型推理測試題目本身就泄題了

想像一下，你是一位偵探，接到一個看似簡單的案件：找出凱恩·科恩斯的父親是誰。如果有人直接告訴你"先找凱恩的哥哥，再找哥哥的繼母，然後找繼母的丈夫"，你只需要按圖索驥就能破案。但如果沒有任何提示，你必須自己摸索該調查誰、該問什麼問題、該沿著哪條線索前進，這個案件的難度會驟然飆升。這正是當今最先進的AI系統面臨的真正挑戰。

贊助商廣告

2025年10月，由阿里通義實驗室等機構共同完成的研究，首次系統性地揭示了一個被長期忽視的問題：當前用於評估AI推理能力的測試題目本身就"泄題"了，導致我們一直在高估AI的真實推理能力。更重要的是，他們創建了一個名為WebDetective的全新測試系統，這是第一個真正不給任何提示、要求AI完全自主發現推理路徑的多跳問答基準測試。代碼已在Github開源。

研究團隊評估了包括OpenAI的GPT-5和o3-Pro、Anthropic的Claude-4系列、Google的Gemini-2.5、xAI的Grok-4在內的25個最先進AI模型。意外的是，即使是表現最好的模型也只達到了56%的準確率，而且幾乎所有模型都展現出一個共同的致命弱點：它們在擁有足夠證據的情況下仍然無法正確綜合資訊，而在證據不足時又幾乎從不拒絕回答。這項研究不僅揭示了當前AI系統的根本性缺陷，還提供了一個診斷框架來精確定位失敗的原因，為未來開發真正具有自主推理能力的AI系統指明了方向。

當前AI搜索測試的"作弊"現象

讓我們繼續用偵探破案來理解問題的本質。假設你要考核一位偵探的破案能力，你會怎麼出題？如果你的考題是這樣的："找出那位在5AA電台工作、曾是足球運動員、比妻子大至少20歲、妻子曾是2007年工黨候選人的主持人"，這看起來像是一道推理題，但實際上你已經把答案的所有特徵都告訴偵探了。這位偵探只需要拿著這份"詳細畫像"去匹配，就像拿著拼圖的完整圖案去找對應的拼塊一樣簡單。這不是在考驗推理能力，而是在考驗匹配能力。

贊助商廣告

研究團隊發現，目前被廣泛使用的多跳問答測試系統正是犯了這樣的錯誤。他們將這種問題分為兩類"泄題"方式。第一種叫做"路徑提示"，就像有人問你"凱恩·科恩斯的哥哥的繼母的丈夫是誰"這樣的問題。這個問題表面上需要多步推理，但實際上已經把推理路徑明明白白地告訴你了：第一步找哥哥，第二步找繼母，第三步找丈夫。AI只需要按照這個明確的步驟執行就行，根本不需要自己思考"我應該從哪裡開始調查"或"下一步該查什麼"。

第二種"泄題"方式更隱蔽，研究團隊稱之為"規範提示"。想像你要找一個人,但不直接說名字，而是給出一大堆特徵。比如"找那個在5AA工作的前足球運動員主持人，他比妻子大20多歲，妻子參加過2007年工黨競選"。這些特徵組合起來就像一個唯一的身份指紋，你只需要找到同時滿足所有這些條件的人就行了。這同樣不是真正的推理，而是約束滿足問題——就像填數獨遊戲，雖然需要一些邏輯，但本質上是在一個已經被嚴格限定的範圍內做篩選。

研究團隊指出，這兩種"泄題"方式的共同問題是，它們繞過了推理中最核心也最困難的部分：自主發現哪些資訊是重要的，主動探索可能的推理方向，以及在沒有指引的情況下構建推理路徑。這就像一位偵探接到案件時，已經有人告訴他"去調查這三個人，按這個順序"，或者給他一張嫌疑人的詳細特徵清單。真正的偵探工作應該是：拿到一個案件後，自己判斷從哪裡開始調查，自己決定問什麼問題，自己摸索哪條線索更有價值，在成百上千條可能的調查方向中找到那條通往真相的路徑。

更糟糕的是，即使在這些已經"泄題"的測試中，研究人員發現評估方式也存在嚴重問題。傳統的評估只看最終結果——答對了還是答錯了，就像只看偵探最後有沒有抓到罪犯，而完全不關心這個過程中發生了什麼。一個偵探可能因為運氣好隨便猜對了答案，另一個偵探可能做了大量調查但在最後一步失誤了，還有一個偵探可能根本沒開始調查就直接放棄了，但在傳統評估中，他們都只是簡單地被記為"失敗"。這種粗糙的評估方式讓我們完全無法理解AI系統到底在哪個環節出了問題，是搜索能力不足、綜合能力欠缺，還是過度自信導致的胡亂猜測。

贊助商廣告

WebDetective：一場真正的推理考驗

為了解決這些問題，研究團隊創建了WebDetective系統，這是第一個真正"不泄題"的多跳推理測試。他們的問題設計哲學非常簡單：只問本質問題，不給任何額外提示。比如直接問"凱恩·科恩斯的父親是誰"，而不是告訴你應該先找誰、再找誰，也不給你一大堆特徵讓你去匹配。就像一位警長走進偵探辦公室，只說"查出這個案子的真相"，然後轉身離開，剩下的一切都要偵探自己想辦法。

但問題設計只是第一步。研究團隊很快意識到，即使問題本身不泄題，如果調查環境不加控制，聰明的AI還是可能找到"捷徑"。想像一下，如果凱恩·科恩斯和他父親格雷厄姆·科恩斯的名字經常同時出現在各種新聞報道中，AI可能直接通過名字共現就猜出答案，完全繞過了真正的推理過程。或者，如果中間人物查德·科恩斯（凱恩的哥哥）的資訊在網上隨處可見，AI可能通過直接搜索就跳過了必要的推理步驟。這就像一個偵探案件中，如果罪犯的照片到處張貼，偵探就不需要真正推理了。

為了堵住這些"捷徑"，研究團隊設計了一個精妙的"受控沙盒"環境，這是WebDetective的核心創新。他們從維基百科中精心構建了一個特殊版本，在這個版本中，資訊的可見性被精確控制。對於推理鏈中的每個中間環節，相關資訊只在特定的地方可見。繼續用凱恩的例子來說明：查德·科恩斯（哥哥）的資訊只出現在凱恩的頁面上，妮可·科恩斯（繼母）的資訊只出現在查德的頁面上，格雷厄姆·科恩斯（父親/答案）的資訊只出現在妮可的頁面上。

這種設計的巧妙之處在於，它強制AI必須按照推理鏈的順序逐步探索。就像一個密室逃脫遊戲，你必須先在第一個房間找到鑰匙，才能打開通往第二個房間的門，然後在第二個房間找到下一把鑰匙，依此類推。AI如果沒有訪問凱恩的頁面，就絕對不可能發現查德；如果沒有訪問查德的頁面，就絕對不可能發現妮可；如果沒有訪問妮可的頁面，就絕對不可能知道答案是格雷厄姆。這種設計徹底消除了"捷徑"的可能性，確保任何成功的答案都必然來自完整的推理過程。

贊助商廣告

更重要的是，這種受控環境讓研究團隊能夠精確追蹤AI的每一步行動。他們可以清楚地看到AI訪問了哪些頁面、發現了哪些資訊、在推理鏈上走到了哪一步。這就像給偵探戴上了一個記錄儀，能夠完整回放整個調查過程。通過這種精確追蹤，研究團隊可以明確判斷：如果AI失敗了，到底是因為沒有找到必要的資訊（搜索失敗），還是找到了資訊但沒能正確綜合（綜合失敗），或者是在資訊不足時應該說"不知道"卻硬要猜一個答案（過度自信）。

研究團隊從維基百科的問答數據集出發，使用廣度優先搜索在超鏈接圖中尋找從起始實體到答案實體的最短路徑。但他們深知，並不是所有路徑都有意義。比如，兩個人可能通過大學和共同同事建立聯繫，但這條路徑對於詢問家庭關係的問題完全無關。因此，他們使用強大的語言模型（Qwen-3-235B）進行三重驗證：首先確認答案無法僅從AI的參數記憶中直接獲得；其次確認完整的證據鏈確實能推導出答案；最後逐一檢驗每一條證據是否都是必需的，移除任何一條是否會導致推理失敗。

為了確保質量，研究團隊還進行了人工驗證。兩位具有自然語言處理專業知識的研究人員獨立審查每個問題，仔細檢查推理鏈的邏輯性、證據的必要性，以及問題措辭中是否包含任何隱藏提示。在大約450個機器驗證的問題中，只有200個（約44%）通過了嚴格的人工審查，最終構成了WebDetective基準測試。這個數據集覆蓋了2到6跳的推理鏈，其中大部分是2跳（55%）和3跳（31%）的問題，同時保留了一些4跳以上的挑戰性問題（14%）。

但研究團隊的創新還不止於此。他們意識到，傳統的"對還是錯"的二元評估完全無法反映AI的真實能力。於是他們開發了一個多維度的診斷框架，就像醫生不僅要知道病人生病了，還要診斷出是哪個器官出了什麼問題。這個框架首先將"知識獲取"和"答案生成"分開評估。知識獲取評估AI是否獲得了所有必要的資訊，這些資訊可能來自搜索，也可能來自AI的訓練記憶。答案生成則評估AI在擁有足夠資訊的情況下，是否能正確綜合這些資訊給出答案，或者在資訊不足時是否能恰當地拒絕回答。

贊助商廣告

這種分離評估揭示了一個關鍵洞察：同樣的失敗可能來自完全不同的原因。有的AI系統搜索能力很強，能找到所有必要的資訊，但就是無法正確綜合這些資訊得出答案，就像一個偵探收集了所有線索卻無法拼湊出真相。有的AI系統在資訊不足時仍然固執地給出答案，就像一個過度自信的偵探在證據不足時仍然堅持自己的猜測。還有的AI系統即使掌握了足夠的資訊也選擇拒絕回答，就像一個過度謹慎的偵探不敢下結論。通過這個診斷框架，研究團隊能夠精確定位每個AI系統的強項和弱點，為改進指明具體方向。

25個頂尖AI的"考試成績單"

當研究團隊用WebDetective測試25個最先進的AI模型時，結果令人震驚。即使是表現最好的OpenAI o3-Pro模型，也只達到了56%的準確率，而許多其他頂級模型的表現甚至低於40%。這個結果就像給一群號稱最優秀的偵探出了一道真正的推理題，結果發現他們過去的破案成功大多是因為有人提前泄露了關鍵資訊。一旦失去這些提示，他們的真實推理能力就暴露無遺。

更有意思的是，研究團隊發現搜索能力和最終準確率之間存在明顯的脫節。GPT-5模型的搜索得分高達80%，意味著它能找到80%問題所需的所有證據，但它的生成得分卻只有23.21%，最終準確率也只有50.5%。這就像一個偵探非常擅長收集線索，案件現場的每個角落都會仔細檢查，所有證人都會認真訪談，筆記本里記滿了各種資訊，但當需要把這些資訊拼起來得出結論時，他卻常常理不清頭緒，或者被不相關的資訊干擾，無法抓住真正的關鍵。

相比之下，Grok-4模型展現出了最好的平衡能力。雖然它的搜索得分（77.5%）略低於GPT-5，但它的生成得分達到了34.71%，是所有模型中最高的，最終準確率也達到了50.5%。這說明Grok-4不僅能找到資訊，還能更好地理解這些資訊之間的關聯，從零散的線索中提煉出答案。就像一個經驗豐富的偵探，雖然不一定收集最多的線索，但能夠準確識別哪些線索真正重要，哪些只是干擾。

贊助商廣告

但所有模型都暴露出一個共同的致命弱點：拒絕能力嚴重不足。當AI缺乏足夠證據時，理想的行為應該是坦誠地說"我不知道"或"資訊不足，無法回答"。然而，研究發現最好的拒絕F1得分也只有53.95%（來自Doubao-1.6-Flash模型），而許多頂級模型的拒絕能力更是糟糕得令人吃驚。GPT-5的拒絕F1隻有8.89%，o3-Pro只有9.37%，就連以嚴謹著稱的Claude-Opus-4.1也只達到28.57%。這意味著這些AI在證據不足時仍然會強行給出答案，就像一個過度自信的偵探，即使線索不夠也要給出一個"答案"，結果往往是錯誤的猜測。

研究團隊進一步分析發現，模型們可以被歸類為六種不同的"性格類型"。有一類被稱為"強大但過度自信"，包括GPT-5、o3-Pro和o3，它們通過強大的搜索和綜合能力達到50-56%的最高準確率，但拒絕率低於10%，即使面對證據不足的情況也要硬著頭皮給答案，寧可冒著犯錯的風險也不願承認不知道。相比之下，"校準精英"類型如Grok-4和Claude-Opus-4.1雖然準確率略低（44-51%），但保持了29-38%的適度拒絕率，展現出更好的自我認知，知道何時該保守一些。

第三類是"綜合瓶頸"型，最典型的是Qwen3-235B-Thinking模型。這類模型能夠達到72.5%的高知識充分性，意味著它們找到了大量必要資訊，但知識利用率卻低於25%，慘不忍睹。就像一個偵探的筆記本里記滿了線索，但他就是無法把這些線索串聯起來，無法從中推導出結論。更糟糕的是，它們的低拒絕率表明它們甚至意識不到自己的這個缺陷，仍然會試圖給出答案。

還有一類"保守中庸"型，如Claude-Sonnet-4-Think和GLM-4.5-Inner，它們在所有指標上都表現平平（知識充分性63-68%，知識利用率31-44%，拒絕率中等）。這類模型就像一個過于謹慎的偵探，即使掌握了足夠的線索也不敢輕易下結論，害怕出錯反而錯過了許多本可以解決的案子。

有趣的是，研究團隊還發現了兩種在能力較弱但自我認知截然不同的模型類型。"有自知之明的弱者"如Doubao系列和Gemini-2.5-Flash-Think，它們的能力確實有限，但拒絕率高達40-54%，說明它們清楚地知道自己的局限性，不會不懂裝懂。相反，"弱而困惑"型如o4-Mini和DeepSeek-R1，能力同樣有限但缺乏自我認知，只有16-18%的知識利用率卻仍然頻繁嘗試回答，結果當然是一塌糊塗。

贊助商廣告

研究團隊特別關注了即使模型獲得了所有必要證據仍然失敗的情況，他們稱之為"知識退化"。通過精巧的實驗設計，他們區分出了兩種不同的退化類型。第一種叫"知識遺忘"：AI在單獨回答每個子問題時都能給出正確答案（比如問"凱恩的哥哥是誰"時能回答"查德"），但當需要在完整推理過程中應用這些知識時卻忘記了，無法把各個片段串聯起來。第二種叫"被帶偏"：當AI在乾淨的證據環境下能夠正確推理，但在實際搜索過程中積累了大量噪音（失敗的嘗試、無關的頁面、探索的彎路）後，這些噪音干擾了它的判斷，導致無法得出原本能夠得出的正確答案。

統計數據顯示，"知識遺忘"是更普遍的問題。在所有模型中，遺忘率比被帶偏率平均高出10.35個百分點。這意味著AI系統的主要問題不是被噪音誤導，而是無法在複雜推理過程中有效整合和應用它們本來知道的資訊。表現最好的模型如Grok-4和o3-Pro，它們的遺忘率和被帶偏率都很低（都在21-28%之間），這正是它們能夠達到最高準確率的關鍵原因。相反，表現最差的GPT-OSS-120B的遺忘率高達100%，意味著即使它通過搜索獲得了必要證據，它也完全無法在答題時應用這些證據。

為了驗證WebDetective基準測試的穩健性，研究團隊還進行了測試時擴展實驗，就是給AI提供更多的計算資源和時間來解題。他們測試了兩種擴展方式：一是給Claude-Opus-4.1更大的上下文窗口（從8K到32K tokens），二是讓他們自己開發的EvidenceLoop系統進行更廣泛的探索（增加並行搜索的數量和疊代輪次）。結果發現，這些擴展帶來的提升微乎其微。Claude-Opus-4.1的生成得分停留在34%左右，準確率停留在50%左右，搜索得分只提高了不到1%。這說明WebDetective真正考察的是根本性的推理能力，而不是可以通過簡單增加資源就能提升的表面能力，就像一個偵探如果缺乏推理天賦，給他再多時間也破不了案。

贊助商廣告

EvidenceLoop：一個嘗試性的解決方案

面對WebDetective揭示的這些嚴峻挑戰，研究團隊並沒有止步於診斷問題，而是開發了一個名為EvidenceLoop的創新工作流系統，作為解決這些問題的基線嘗試。這個系統的設計哲學是：如果AI在無提示推理中表現不佳，那是因為它們缺乏結構化的證據管理、系統的驗證機制和疊代改進能力。就像為偵探配備一套完整的辦案工具和流程，而不是讓他們僅憑直覺瞎摸索。

EvidenceLoop的核心是一個"疊代精煉"機制。想像一個偵探團隊在破案，他們不是一個人單打獨鬥，而是採用這樣的策略：每一輪，派出多個偵探（系統中設定為3個）同時從不同角度探查，每個偵探都有一定的行動預算。一輪探查結束後，團隊聚在一起開會，有專門的分析員負責從每個偵探的報告中提取關鍵發現和有價值的線索，然後由總協調員把這些分散的發現整合成一份精煉的案情摘要。下一輪，新派出的偵探就能基於這份摘要繼續深入，而不是從零開始。這樣經過多輪疊代（系統默認是3輪），團隊能夠在廣度探索和深度挖掘之間找到平衡，既不會漏掉重要線索，也不會被無關資訊淹沒。

這種設計的巧妙之處在於解決了AI推理中的一個核心矛盾：既需要廣泛探索多種可能性，又不能讓上下文爆炸式增長導致資訊過載。早期的探索可能涉及體育聯繫、地理位置、家庭關係等多個方向，但提取和聚合過程能夠識別出哪些方向最有希望，把有價值的發現保留下來，把探索死胡同的過程丟棄掉。這就像一個偵探團隊雖然嘗試了很多調查方向，但案卷上只記錄真正有用的線索，而不是把所有失敗的嘗試都堆積在一起。

如果經過設定的最大疊代次數仍然沒有找到答案，系統還有一個"後備方案"：把所有發現的證據整理成一份綜合報告，交給一個專門的綜合型AI，讓它在不進行新搜索的情況下，純粹基於已有證據嘗試推導答案。這個設計可以區分兩種完全不同的失敗模式：到底是探索不夠充分沒找到關鍵資訊，還是找到了資訊但無法正確綜合。就像讓一個偵探坐下來，只看案卷材料，不再外出調查，看能不能破案。如果這樣還是破不了，就說明問題出在綜合推理能力而不是搜索能力。

贊助商廣告

EvidenceLoop的第二個關鍵創新是"證據記憶系統"。每當任何AI執行搜索或訪問頁面時，系統都會將完整內容存入持久化記憶，並分配一個唯一的"證據編號"（EID）。這個編號就像案件中的證物編號一樣，讓所有證據都可追溯。後續的AI看到的不是冗長的原始文檔，而是簡潔的摘要加上證據編號，比如"凱恩有個哥哥叫查德[證據#042]，查德的繼母是妮可[證據#089]"。如果AI需要查看某條證據的詳細內容，只需用證據編號調取即可。

這種設計解決了AI推理中的另一個困境：要麼讓AI處理完整的原始文檔導致上下文迅速膨脹，要麼對文檔進行壓縮導致資訊丟失。證據記憶系統提供了第三條路：AI可以在簡潔摘要的基礎上工作，保持上下文清爽，同時永遠不會失去訪問完整證據的能力。就像一個偵探的筆記本上記的都是要點，但所有證物都妥善保管在證物室，需要時隨時可以提取。更重要的是，這些證據編號為驗證提供了基礎設施。

驗證機制是EvidenceLoop的第三個核心組件。當任何AI試圖給出答案時，它必須把答案分解成一系列原子性的聲明，每個聲明都要標註支持它的證據編號，比如"凱恩有個哥哥叫查德[證據#042]"。然後，一個專門的驗證AI會提取這些證據的完整內容，檢查三件事：每個聲明是否真的被對應證據所支持，這些聲明加起來是否能推導出所提出的答案，以及答案是否真正回答了原始問題。

驗證的時機也很關鍵：它發生在推理過程中而非之後。如果一個答案未通過驗證，系統會把具體的問題反饋給提出答案的AI，讓它在剩餘的行動預算內修正推理，填補證據缺口。而一旦某個答案通過驗證，所有探索立即終止。這種設計既確保了答案必須建立在紮實證據基礎上，又提高了效率，避免了不必要的搜索。就像偵探提出嫌疑人時，必須列出支持這一結論的所有證據，如果證據鏈有漏洞，偵探長會指出來要求補充調查；但只要證據鏈完整，案子就立即結案，不會浪費資源繼續調查。

贊助商廣告

在WebDetective測試中，EvidenceLoop達到了25%的準確率，雖然離頂級商業模型還有差距，但作為一個完全開放、可定製的基線系統，它展示了正確的設計方向確實能夠改善性能。更重要的是，通過這個系統的實踐，研究團隊識別出了四種反覆出現的失敗模式，為未來改進提供了明確目標。

第一種失敗模式叫"過早放棄"。AI在經過幾次失敗的搜索後，會進入一種"習得性無助"狀態，直接得出結論說答案不存在，拒絕繼續探索。即使明確要求"請繼續搜索"，它也會堅持認為沒有更多資訊可找。這就像一個偵探碰了幾次壁就認定案子無解，完全放棄了，哪怕下一個要訪談的證人可能就是關鍵。

第二種是"上下文誘導的指令退化"。隨著搜索上下文的積累，AI逐漸失去遵循基本指令的能力。開始時它會正確使用標籤、保持結構化的推理，但慢慢地開始間歇性地丟失格式，最終完全放棄格式要求，產出混亂的意識流文本。這就像一個偵探開始還認真記筆記，但資訊越來越多後就開始潦草書寫，最後連標點符號都不打了。

第三種是"證據追蹤失敗"。AI在搜索疊代中會忘記已經發現了什麼，重複搜索已經找到的實體，或者無法維持之前建立的實體關係。它分不清"因為遮蔽而找不到"和"還沒搜索過"的區別，導致重複搜索或過早放棄可行路徑。這就像一個記性不好的偵探，訪談過的證人又去訪談一遍，或者忘記之前了解到的關鍵關係。

第四種是"冗餘搜索循環"。AI會反覆訪問已經探查過的頁面，尤其是在中間推理步驟之後。比如訪問了凱恩的頁面，發現了查德，訪問了查德的頁面，然後思考了一會兒關係，接著又搜索"凱恩·科恩斯"或重新訪問凱恩的頁面，本質上是從頭重啟。雖然這樣做並不算錯，但浪費了寶貴的行動預算，用重複資訊迅速填滿上下文，加速了上下文退化，減少了AI在觸及資源限制前能夠達到的有效搜索深度。

贊助商廣告

至頂AI實驗室洞見

這項研究價值在於提供了精確診斷問題的工具。是搜索能力不足找不到線索？是綜合能力欠缺無法串聯證據？還是校準能力缺失不知道何時該說"不知道"？這種精細化的診斷對於改進AI系統至關重要，因為你不可能改進你無法測量的東西。

研究團隊還發現了一個現象：沒有任何一個模型能夠在所有維度上都表現優秀。表現最好的模型要麼是"強大但過度自信"型，要麼是"校準精英"型，前者準確率稍高但容易胡猜，後者略為保守但更可靠。這似乎暗示在當前的技術路線下，綜合能力和校準能力之間存在某種內在的權衡關係。一個AI要想在複雜推理中表現出色，似乎就必然會變得過度自信；而如果要讓它具備良好的自我認知，就會犧牲一部分表現能力。這個發現本身就很有趣，提示我們可能需要全新的架構設計來打破這種權衡。

EvidenceLoop系統展示的設計理念值得重視：結構化的證據管理、疊代式的探索精煉、嚴格的驗證機制。這些都是人類專家在處理複雜推理任務時自然採用的策略，但AI系統往往缺乏這些。未來的研究如果能夠更好地將這些元認知策略融入AI架構，或許能夠在真正的自主推理上取得突破。

宏觀角度上，研究還觸及了人工智慧領域一個根本性的問題：我們到底在評估什麼？過去幾年，AI在各種基準測試上的表現突飛猛進，讓人們感覺通用人工智慧已經近在咫尺。但WebDetective的結果提醒我們，也許我們高估了這些進展，因為我們一直在用"泄題"的測試來考核AI。當我們終於出了一道不泄題的真題，才發現AI的實際推理能力遠不如我們想像的那麼強。這並不是說AI沒有進步，而是說我們需要更清醒地認識進步的真實程度，避免過度樂觀。

對於AI研究社區來說，未來的模型開發可以使用WebDetective進行診斷，精確定位自己的弱點在哪裡，然後有針對性地改進。對於那些知識充分性高但知識利用率低的模型，應該重點改進證據綜合和推理組合能力；對於那些過度自信的模型，需要加強校準機制；對於那些搜索能力不足的模型，則應該改進探索策略。這種精準的診斷和定向改進，比盲目調整模型參數或增加訓練數據要有效得多。

贊助商廣告

模型在長上下文中的"指令退化"現象也值得深思：為什麼隨著資訊的增多，AI遵循基本指令的能力會下降？這似乎暗示當前的注意力機制或長文本處理方法存在某種根本性的缺陷，在資訊密度和多樣性增加時無法保持對原始任務要求的關注。這可能需要從模型架構層面進行改進，而不僅僅是增加參數量或擴大上下文窗口。感興趣的朋友可以這篇文章里找找答案：上下文腐爛：當百萬token成為AI模型的阿喀琉斯之踵。

另一個值得注意的發現是"知識遺忘"比"被帶偏"更常見。這說明AI的主要問題不是被噪音干擾，而是在複雜推理過程中無法有效保持和應用它本來知道的資訊。這可能與當前大語言模型的工作記憶機制有關——它們缺乏人類那種能夠主動維持和操縱相關資訊的工作記憶系統。未來的研究或許需要在模型中引入更明確的記憶管理機制，類似於EvidenceLoop中的證據記憶系統，但更深度地整合到模型的推理過程中。

在AI能力的評估上，我們需要更加嚴格和誠實。再好看的基準測試分數也可能掩蓋了真實能力的不足，只有讓AI面對真正的挑戰時，才能看清它們的真實水平。而從目前發現來看，在真正的自主推理這條路上，即使是最先進的AI系統也還有很長的路要走。

END

本文來自至頂AI實驗室，一個專注於探索生成式AI前沿技術及其應用的實驗室。致力於推動生成式AI在各個領域的創新與突破，挖掘其潛在的應用場景，為企業和個人提供切實可行的解決方案。

Q&A

Q1：什麼是"泄題"式的AI推理測試？

A：指的是問題本身就包含了解題提示，比如直接告訴AI推理步驟（"找哥哥的繼母的丈夫"），或給出詳細特徵讓AI匹配答案。這類測試讓AI只需執行指令或做約束匹配，而非真正的自主推理。WebDetective去除了這些提示，只問最本質的問題如"凱恩的父親是誰"。

Q2：為什麼頂尖AI模型在WebDetective上表現不佳？

A：研究發現AI存在三大根本性缺陷：即使獲得了所有必要證據也無法正確綜合資訊，在證據不足時仍然強行給出答案而不是拒絕回答，以及在長推理過程中會"遺忘"自己已知的資訊。最好的模型o3-Pro也只達到56%準確率，說明當前AI在真正的自主推理上還遠未成熟。

贊助商廣告

Q3：EvidenceLoop系統是如何工作的？

A：它採用了三個關鍵機制：疊代精煉（多輪並行探索後提取關鍵發現）、證據記憶系統（為所有證據分配編號便於追溯）、以及嚴格驗證（要求AI給出的答案必須分解成帶證據編號的聲明並通過驗證）。這套系統模仿了人類專家的推理策略，雖然目前性能還不是最頂尖，但展示了正確的設計方向