這項由Clio AI發布的研究以預印本形式於2026年4月17日公開,論文編號為arXiv:2604.15760,有興趣深入了解的讀者可通過該編號查詢完整原文。
一、當AI交出漂亮答卷,卻答錯了題
假設你是一家公司的管理者,手下有一位技術能力出眾但讓三位同事相繼離職的工程師,此前他還曾起訴過前任僱主。現在HR批准了對他發起績效改進計劃,要求你擬定改進目標。你會怎麼做?
大多數人可能會想:寫清楚、可量化的工作目標,給他改正的機會。這是教科書式的答案,也是幾乎所有頂尖AI模型給出的答案。然而這個答案在實際情境下是危險的,因為這位工程師正在暗中積累材料,準備提起不當解僱訴訟。他需要的不是改進方向,而是能讓他在訴訟中將失敗歸咎於同事配合不力或標準模糊的協作型目標。你寫下的每一行改進計劃,都會在法庭上接受檢驗。
這就是KWBench(知識工作測試台)想要捕捉的東西——不是AI能否把事做好,而是AI能否在動手之前,先搞清楚自己面對的究竟是什麼問題。研究團隊將這種能力稱為"未經提示的問題識別"。測試結果頗為清醒:目前表現最好的模型,也只有約28%的概率在開口作答之前,把問題認清楚了。
二、為什麼現有的AI評測已經告訴不了我們真正重要的事
在理解KWBench之前,值得先弄清楚現有測試體系的局限在哪裡。過去幾年,AI在數學推理、代碼生成、事實問答等各類基準測試上的成績屢創新高,不少測試項目的正確率已經突破90%甚至更高,和人類專家的差距越來越小。聽起來令人振奮,但這些測試有一個共同的隱藏前提:題目本身已經把問題框架搭好了。
就像下棋,棋盤規則清晰,每一步的合法走法都是確定的。現有的AI基準測試大多是這樣的"棋盤遊戲"——所有條件都擺在檯面上,AI只需要在規定框架內找到正確答案。但真實的職場工作更像打牌,對手的手牌是隱藏的,對方是否在虛張聲勢,你並不清楚,而且你的每一步行動都會影響對方的後續策略。
經濟學和博弈論里有個專門的術語來描述這類情境,叫做"不完全資訊博弈"。併購談判、薪酬談判、合同審查、績效管理,這些知識型工作的共同特徵是:場景里存在著動機未公開的其他參與者,資訊是不對稱的,沉默有時比表態更能說明問題。
現有的AI測試完全沒有觸及這個維度。於是出現了一個奇怪的斷層:在測試題上接近滿分的模型,在真實的職業場景里頻繁犯下初級錯誤,而且犯錯的方式往往很隱蔽——它們產出的內容格式規範、邏輯自洽、讀起來像是行家手筆,只是方向完全錯了。
KWBench的出現,正是為了填補這條裂縫。它要測量的不是AI在正確框架下的執行能力,而是AI能否從一堆原始資訊中,自己認出"這是一道什麼題"。
三、KWBench是怎麼設計的
研究團隊構建了一個包含223道題目的測試集,涵蓋併購交易、合同談判、臨床藥學、組織政治、欺詐分析和激勵機制設計等多個領域。每道題目的核心特徵是:題面把你往一個方向引,但正確答案需要你先識破這個方向是錯的。
題目背後的理論骨架來自博弈論的幾個經典結構。第一類是信號博弈:掌握私人資訊的一方會通過某種可觀察的行動傳遞信號。比如買方給出一個帶有48小時截止期限和60天排他條款的收購要約,這個結構本身就是信號——理性的買方不會無緣無故施加這樣的時間壓力,除非他認為目標公司的價值被低估了,他需要在賣方發現這一點之前鎖定交易。第二類是委託-代理問題:幫你做事的人有自己的私利。投資銀行家推薦的交易方案能給他們帶來佣金,律師建議的高價審計能規避他們自身的職業風險,諮詢公司的第一期報告總是建議續簽第二期合同。在評價任何建議之前,得先把建議者的激勵結構搞清楚。第三類是機制設計失效:規則是為"合規型人"設計的,但真實世界裡的人都會理性地繞規則鑽空子。銷售人員不填寫客戶移交表單,不是因為表單太複雜,而是因為準確填寫會削減他們對下游業務的談判籌碼。連續三次"流程改進"沒解決問題,說明問題根本不在流程上,在於激勵結構。第四類是聯盟動態:當多個參與者形成聯盟時,雙邊談判變成了多邊博弈。兩位聯合創始人協商出33/33/33的股權分配,實質上握有合計控股權。來自同一投資機構的兩名董事會成員構成一個投票集團。第五類是戰略相互依賴:一方的決策改變了遊戲對所有人的規則。一支已經降級的球隊的最後一場比賽看起來無關緊要,但如果他們的贏球會導致積分三隊並列,就會觸發不同的排名規則,進而影響誰能留在聯賽。第六類是資訊不對稱與戰略性缺失:缺席的資訊和在場的資訊同樣重要。一份展示了六位熱情支持者卻完全沒有採購、法務和安全聯繫人的銷售進度報告,意味著真正的採購流程還沒有開始。
研究團隊刻意不在題目中給出任何提示。模型收到的只是原始材料和任務要求,沒有"請考慮對方的動機",沒有"這道題涉及博弈論",完全沒有任何引導。這是整個測試設計的核心原則:只測量模型自己認出問題的能力,不測量模型在被告知問題類型之後的執行能力。
題目素材方面,185道來自真實的職業事件,包括具有脅迫性條款的併購案、圍繞獨立董事席位的董事會爭議、薪酬談判中的不可核實主張,以及由激勵錯位導致的流程失敗。另外38道改編自WildBench、Health-Bench等已有的公開基準測試,目的是展示知識型工作評測的方法可以遷移到各類任務上,同時提供與現有基準的參照點。
參考材料的設計經過了特別的"加固"處理。初稿中存在一個常見陷阱:有些文件對關鍵資訊做了預消化處理,比如在合同審查文件里標註某條款"出奇地寬鬆",或者在盡職調查文件里直接算好了隱含的收購倍數。這種處理實際上把"識別"變成了"閱讀理解",模型只需要找到被標註的資訊,而不是自己理解為什麼它重要。研究團隊把所有這類內容都還原成了原始數據,要求模型自己完成解讀這一步。同樣,那些因為措辭或排版而顯得格外醒目的關鍵資訊,也被重新嵌入了普通的敘述文本,讓它們在形式上不再"顯眼"——信號還在,但找到它需要真正理解情境,而不是盯著最醒目的那行字。
四、評分機制是如何設計的,以及它為什麼要這樣設計
每道題目對應一套三層評分標準,每層包含五個判斷項。最底層是強制性標準,即模型必須全部通過的核心條件。只要有一條強制標準未達到,該題得零分,不管其他方面做得多好。中間層是"良好"標準,測量分析的深度和具體性。最上層是"理想"標準,測量從業者級別的洞察力。
強制性標準的判斷項都非常具體,且都對應著一種可以命名的錯誤後果。以績效改進計劃為例,"所有目標必須是獨立完成的"這一條存在的原因是:一旦目標涉及同事協作,員工就可以在訴訟中聲稱同事拒絕配合;"目標必須是二元的"這一條存在的原因是:一旦有模糊的主觀標準,員工就可以聲稱標準本身帶有偏見;"不能使用360度評估"這一條存在的原因是:員工可以聲稱同事因私人關係打低分。每條標準都是一個具體的"失敗模式預防措施",而不是一個模糊的質量要求。
這個設計邏輯的背後有一個重要的現實觀察:在很多專業領域,錯誤是不可疊加的。一份合同審查漏掉了一個關鍵的無限責任條款,就算其他部分寫得再好,合同依然是存在隱患的。一份績效改進計劃里有一條依賴他人配合的目標,就算其他四條寫得無懈可擊,員工還是可以用那一條來打官司。強制性標準的零分機制,就是在模擬這種"一票否決"的現實邏輯,而不是用加權平均來掩蓋真正的缺陷。
研究團隊還特別指出,強制性標準測的是"避開預設陷阱",而不是"完成理想解答"。測試不問"你給出了完美的績效改進計劃嗎",而是問"你有沒有掉進我們已經知道會導致法律失敗的那些坑裡"。你不需要同意什麼是最好的答案,只需要同意那些坑是真實存在的。
五、測試了哪些模型,結果如何
研究團隊測試了來自10家機構的16個模型,包括Anthropic的Claude Opus 4.6、OpenAI的GPT-5.4及其變體、Google的Gemini 3.1 Pro和Gemini 3 Flash、Zhipu AI的GLM-5 Turbo、阿里巴巴的Qwen 3.5 Plus和Qwen 3.5、Moonshot AI的Kimi K2.5、MiniMax的M2.5和M2.7、NVIDIA的Nemotron 3 Super,以及Prime Intellect和小米各自的模型。每個模型在完整測試集上運行三次,取最佳成績作為最終結果。
整體結果可以用一句話概括:所有模型都很難在動手之前先認清問題。表現最好的Claude Opus 4.6通過了61道題的強制性標準,通過率約為27.9%,零分包含的綜合得分為22.6%。緊隨其後的GPT-5.4通過了47道題,通過率21.1%。排名三到八位的模型聚集在一個相當窄的區間內,通過率從13.9%到20.4%不等。排名靠後的模型,最低的通過率只有個位數。
有一個細節值得單獨說明。當模型通過了強制性標準之後,它們在剩餘兩層標準上的得分非常接近,在76.6%到84.1%之間波動,標準差只有約3.8個百分點。換句話說,一旦模型正確識別了問題是什麼,它的執行質量其實相當不錯,而且各個模型之間差異不大。真正的分水嶺不在於"做得好不好",而在於"有沒有認清楚要做什麼"。
六、沒有哪個模型是全能的,這件事本身就是一個發現
面對這些結果,一個自然的猜測是:排名靠前的模型通過的題目,應該包含了排名靠後的模型通過的所有題目,再加上一些更難的。如果這個猜測成立,模型能力就是沿著一條單一維度排列的,最強的模型就是一個超集。
事實並非如此。排名第一的Claude Opus 4.6和排名第二的GPT-5.4,在各自通過的題目上,重合度只有31.7%的Jaccard相似度。兩個模型合計通過了82道不同的題目,但其中只有26道是兩者都通過的。GPT-5.4獨立通過了21道Opus 4.6完全沒能通過的題目,而Opus 4.6獨立通過了35道GPT-5.4完全沒能通過的題目。
進一步擴展到前8名模型,兩兩之間的重合度平均只有29.3%,沒有任何一對模型的重合度超過45%。在這8個模型中,有44道題恰好只被其中一個模型通過。前8名中的每一個模型,都有至少兩道題是其他7個模型全都無法通過的。
這個結果意味著模型的識別能力分布在不同的方向上,而不是聚集在同一個方向上各有深淺。仔細分析各個模型的"專長區域",可以看到一些明顯的規律性。Opus 4.6在需要從原始數據中識別對抗性結構的任務上更強,比如認出委託-代理關係、識別運營數據中的隱藏模式、解讀信號博弈和戰略性缺失。它是唯一通過了那道拉丁美洲足球聯賽排程題(戰略相互依賴)的模型,也是唯一通過了"獵價者客戶細分"任務(雙峰分布被均值掩蓋)的模型。GPT-5.4則在需要應對組織內部動態和戰略判斷的任務上更強,比如市場進入決策、領導力困境,以及那些正確答案是"質疑提出要求的高層"的場景。它是唯一通過了決策理論"生存賭注"那道題的模型,那道題的核心在於識別期望值最大化策略在一次性不可逆決定中會失效。兩個模型的能力圖譜像是同一塊知識領地上的兩張不同地圖,各自標註了對方遺漏的地方,但整體上只有約三分之一的重疊。
通過一個貪心集合覆蓋分析可以看到:單獨使用Opus 4.6能覆蓋所有可解題目的54%。加入GPT-5.4,覆蓋率提升到73%。再加入Gemini 3.1 Pro,覆蓋率達到84%。前8名全部加入,覆蓋率達到100%的可解題目。換句話說,路由到最合適的模型,能將覆蓋率從單模型的28%左右提升到可解題目的完全覆蓋。
排名靠後的模型也值得一提。排名9到16的模型,合計還獨立通過了3道前8名模型全部無法通過的題目,分別是一道人質談判、一道藥房分診決策和一道Glassdoor聲譽管理問題。一個通過率只有5%的模型,確實通過了一些通過率四倍於它的模型沒能通過的特定題目。能力高低與特定場景的適配之間,不是簡單的包含關係。
七、零分模型其實並沒有完全交白卷,這才是最耐人尋味的地方
研究團隊發現了一個非常能說明問題的現象:那些在強制性標準上失敗、總分得零的模型,在"良好"層和"理想"層的標準上,通過率其實相當高。表現最好的Opus 4.6在它那158道得零分的題目上,"良好"層標準的通過率約為60%。GPT-5.4在零分題目上的同類通過率約為55%。即便是中等水平的模型,在零分題目上也能清除40%到50%的非強制性標準。
這意味著這些模型並不是交了一份空白卷,而是交了一份格式整潔、數據翔實、論述周全的答案——只是在解答一道錯誤的題目。它們提取了正確的數據,識別了相關因素,寫出了專業規範的輸出,但決定整份工作成敗的那個框架性判斷,它們沒有做出來。
更奇特的是,如果你直接問這些模型"斯賓斯信號模型是什麼",它們能流暢地給出定義;如果你問"請解釋一個委託-代理衝突的例子",它們能給出準確的解釋。這些知識確實儲存在模型的參數裡,但在沒有明確提示的情況下,面對一個真實場景,它們不會自發地把這些知識調取出來應用到正確的地方。知識是有的,自主調用的能力是缺失的。
正因為如此,如果沒有那個"一票否決"的強制性標準機制,上述問題會完全消失在平均分里。零分題目在其他層面上的高得分率,會把綜合分數推高,讓這些模型看起來比實際表現得要好得多,掩蓋了那個根本性的識別缺陷。
八、模型為什麼會這樣失敗
研究團隊歸納了六種反覆出現的錯誤模式。其中最核心的一種,可以叫做"協作默認"。模型在處理不完全資訊博弈的情境時,系統性地把它當成單人遊戲來處理。評估一份收購要約時,它們用貼現現金流模型分析價值,而不是把要約本身當作買方私人估值的信號來解讀。分析銷售流程失敗時,它們建議改進流程設計,而不是識別出讓不準確填報成為理性選擇的激勵結構。應對做空報告時,它們逐條起草事實反駁,完全沒有意識到這正是做空者期待對方做的,因為對方已經準備好了針對這份反駁的再反駁。
為什麼會有這種系統性的協作偏向?研究團隊提出了幾種可能的解釋,這些解釋很可能同時起作用。其一是強化學習和人類偏好優化的影響:在訓練過程中,"有幫助"的正向信號可能系統性地獎勵了協作、友善的輸出。一個回答"你的對手方可能在利用你"的模型,在人類偏好評分中的得分,可能低於一個給出"以下是均衡分析"的模型,即便前者更符合實際情境。如果獎勵模型一貫偏向協作式的回答,訓練過程就會抑制對抗性推理,哪怕底層的能力實際上是存在的。其二是訓練數據的構成:職場寫作的語料庫主要由最佳實踐指南、商業建議、教科書內容構成,這些內容幾乎都是協作框架下的。"你的顧問在推薦一個能給自己帶來收入的方案"這類對抗性分析,在訓練數據里的比例極低。其三是指令跟隨的壓力:當任務提示說"評估這份提案"或"起草一份回復",模型傾向於把它理解為"按字面意思完成任務",而不是"質疑這個任務的前提是否成立"。其四是計算本身的難度:同時維持多個關於對方激勵結構的假設,並在新資訊出現時動態更新,這本身可能比單人分析更難,與訓練信號無關。
除了協作默認,其他五種錯誤模式大多是它的延伸。模型傾向於把對方的陳述當作事實接受,不推斷戰略意圖。它們把激勵問題誤判為流程問題,持續提出第四次程序改進方案。它們分析局部最優而忽視多方博弈的全局,在已經證明劣勢策略被排除之後,不繼續分析剩餘子博弈。它們服從於有問題的任務前提,不對提出要求的人的動機發出質疑。而當它們缺乏正確的框架時,它們會用篇幅來彌補,產出三千字的錯誤分析,並在這個過程中積累大量良好層和理想層的得分,製造出一種"深思熟慮"的假象。
九、這個測試的結果告訴我們什麼
首先是一個關於AI部署的現實提示。這些模型已經在實際工作中被使用,用於起草併購備忘錄、審查合同、撰寫績效改進計劃、制定薪酬方案。這些任務在設計上就是不完全資訊場景,存在動機未公開的其他參與者,存在由結構而非內容傳遞的信號,存在戰略性缺席的關鍵資訊。一個把問題框架搞錯的分析,產出的內容讀起來是可信的,會通過內部審查,進入決策文件,影響真實決策。這種錯誤不會像數學計算錯誤一樣被常規檢查捕捉到,因為它不是數字算錯了,是分析的出發點就偏離了。
其次是一個關於系統架構的含義。沒有單一模型能夠覆蓋整個問題空間,而任何一個看起來較弱的模型都有它獨特能通過的題目。這意味著依賴單一模型處理全譜系的知識型工作,在結構上就是不夠的。動態路由到最合適的模型,能把覆蓋率從單模型的28%左右提升到可解題目的完整覆蓋。對於需要跨領域可靠性的智能體架構,異構模型的協作調度是有實際意義的方向。
第三是一個關於訓練方向的診斷。當前模型在對抗性推理上的系統性盲點,很可能不是規模不夠大或微調不夠多的問題。它指向的是訓練信號的結構性方向:如果對抗性推理被協作式偏好持續壓制,更大的模型只會更擅長地做錯方向上的事。明確地為對抗性對手建模提供獎勵信號,可能是修復這個問題的必要條件,而不是充分條件。
研究團隊也坦誠地列出了這項研究的局限。沒有人類專家基線,所以我們目前只知道模型在哪些地方失敗,不知道和人類專家的差距是多大。沒有做"加入提示後重新測試"的對照實驗,所以我們還不能嚴格區分"模型缺乏識別能力"和"模型有能力但不自發調用"這兩種假設,哪一種是主導原因。評判模型的裁判只用了Gemini 3 Flash一個,雖然每個標準都是可核實的二元判斷,但多裁判的一致性驗證還沒有完成。訓練數據的污染也無法完全排除,儘管題目來源於匿名化的真實事件,但頂尖模型的訓練語料是不透明的。此外,整個測試集在情境選擇上更偏重於戰略推理和組織行為,基本上反映的是西方職業文化和企業結構的背景,這是一個需要在後續版本中擴展的方向。
歸根結底,KWBench揭示的是一個在現有評測框架下完全看不見的能力維度。語言模型在"把題做對"和"認清要做什麼題"之間,存在一道真實的溝。這道溝不會因為在數學題或代碼題上表現得更好而自動消失。在知識型工作里,先認清問題才是真正的起點。這項研究發布的基準測試數據集可以在Hugging Face上通過clio-ai/kwbench找到,對方法論感興趣的讀者可以通過原論文編號arXiv:2604.15760查閱完整細節。
Q&A
Q1:KWBench測試的是什麼能力,和普通AI測試有什麼不同?
A:KWBench測試的是AI在沒有任何提示的情況下,能否自己識別出一個職業場景里真正的問題是什麼,而不是被告知問題類型之後能否執行。普通AI測試大多從一個已經設定好框架的問題出發,測的是執行能力。KWBench專門測的是那個更早的一步——在正式分析之前,AI有沒有看出這道題在博弈論意義上屬於哪類結構。目前最好的模型通過率只有約28%,而一旦通過識別關,各模型的執行質量反而相當接近。
Q2:為什麼頂尖AI總是給出"合作型"而非"對抗型"的分析?
A:研究團隊認為這主要來自訓練過程的結構性影響。在基於人類偏好的強化學習中,協作、友善的回答通常比質疑對方動機的回答得分更高。加上職場寫作的訓練語料里,對抗性分析的比例天然偏低。這兩個因素共同導致模型在沒有明確提示的情況下,系統性地傾向於把不完全資訊場景當成單人遊戲來分析,把對方陳述當作事實接受,而不是當作可能帶有戰略意圖的信號來解讀。
Q3:KWBench發現各個模型能力分布不同,對實際使用有什麼啟發?
A:這意味著沒有單一模型能覆蓋所有知識型工作場景。研究結果顯示,把前8個模型組合使用,能覆蓋目前可解題目的100%,而單獨使用最好的模型只能覆蓋約54%。對於需要跨領域可靠性的應用,根據任務類型動態路由到最適合的模型,比單一依賴一個旗艦模型在覆蓋率上要高出近一倍。每個模型都有它獨特擅長的識別類型,這種互補性是真實的。






