以色列理工學院與IBM研究院聯手出擊：當AI考官不再溫柔，測試題難到連「學霸」模型也崩了

這項由以色列理工學院（Technion）與IBM研究院合作完成的研究，以預印本形式發布於2026年5月，論文編號為arXiv:2605.28556，感興趣的讀者可通過該編號查閱完整原文。

贊助商廣告

---

某天下午，學校老師發現一個奇怪的現象：班上有幾個同學在期末考試中拿了滿分，但當老師換了一套新題目，這些同學突然考得慘不忍睹。難道他們真的掌握了知識，還是只是把往年的題目背得滾瓜爛熟？

這個故事，正是當下人工智慧領域正在上演的真實困境。各大科技公司競相宣布自己的AI助手在各類測試中得了高分，但這些高分究竟說明AI真的聰明了，還是僅僅說明現有的考題太簡單、被AI"刷題"刷穿了？以色列理工學院和IBM研究院的研究團隊決定認真回答這個問題，他們創造了一套全新的出題方法，讓那些平日裡考試輕鬆過關的AI模型，突然面對真正有難度的考題。

這套方法叫做TASTE，是"從工具序列演化中合成任務"的英文縮寫（Task Synthesis from Tool Sequence Evolution）。它催生了一個新的測試集，叫做τ?-Bench，專門用來評估那些能夠使用各種工具幫用戶解決問題的AI助手。研究結果令人咋舌：一個原本在舊測試集上拿到0.82到0.94高分的谷歌Gemini-3-Flash模型，在新測試集上成績直接跌落至0.28到0.61。這不是小幅下滑，這是斷崖式崩塌。

---

一、為什麼現在的AI考題已經不夠用了

要理解這項研究的意義，得先搞清楚被測試的AI是什麼類型。研究團隊關注的是一類叫做"工具使用型對話智能體"的AI系統——說白了，就是那種可以幫你查航班、改訂單、處理電話賬單的AI客服助手。

這類AI的工作方式和普通聊天機器人很不一樣。普通聊天機器人收到一個問題，給出一個回答，事情就結束了。而工具使用型AI更像一個在窗口後面操作電腦的客服人員：它需要先查你的賬號資訊，再核對你的訂單，然後執行修改，最後確認結果。整個過程涉及一連串按順序排列的操作步驟，每一步都會改變資料庫里的真實狀態。

贊助商廣告

衡量這類AI是否完成了任務，通常看的是"最終狀態"——當所有操作做完以後，資料庫里的狀態是否跟預期目標一致。這個標準被叫做"最終狀態評估"，由一個叫τ-Bench（讀作"tau-bench"）的測試框架率先採用，後來演化成了更完善的τ?-Bench。

問題在於，隨著AI能力越來越強，這些測試題越來越容易。就像一個高中生反覆做初中數學卷子，到最後幾乎每次都能拿滿分——這並不說明他數學能力有多了不起，只說明題目對他來說已經沒有挑戰性了。

更麻煩的是，現有測試題的出題方式天生有缺陷。傳統的做法是：人工編寫人員先想好一個場景故事，比如"一位顧客想取消機票並申請退款"，然後再推導出AI需要執行哪些工具操作。這種從故事到操作的順序，導致測試集裡的工具使用模式非常單調——人們容易想到的場景就那麼幾類，來來去去都是相似的情節。

研究團隊用一個概念來描述這個問題：覆蓋率不足。就好比一個廚藝考試，出題人只出了"炒雞蛋"和"煮麵條"兩道題，考出來的成績根本不能說明廚師是否真的全面掌握了廚藝。

---

二、三個好考題應該具備的品質

在正式介紹新方法之前，研究團隊先定義了一套標準，說明什麼樣的考題才算好考題。他們提出了三個核心標準，像是一張檢驗考題質量的"三項全能"清單。

第一項叫**有效性**。一道題必須是可以自動判斷對錯的，而且題目本身不能有漏洞。就像數學題必須有唯一正確答案，AI考題也得保證"金標準答案"確實是能夠實現的——如果題目設計有誤，AI因為題目漏洞答錯了，那是出題人的錯，不是AI的錯。現實中，τ-Bench早期版本里確實發現了幾十道存在缺陷的題目，後來經過修正才發布了"驗證版"（τ-Bench Verified，簡稱τBV）。

第二項叫**難度適中**。考題不能太簡單，否則所有AI都能拿滿分，無法區分強弱；但也不能人為設計得毫無邏輯只為了讓AI答錯，那樣的難度是沒有意義的。好的難度來自真實的複雜性：任務本身涉及的操作步驟多、需要處理的資訊相互牽扯、用戶描述得含糊其辭，等等。

贊助商廣告

第三項叫**覆蓋率**。這是三個標準里最容易被忽視的一個，也是這篇研究最獨特的貢獻所在。測試集不應該反覆考同一類場景，就像語文考試不能從頭到尾只考"魯迅作品"。覆蓋率指的是測試題是否能夠覆蓋AI在實際工作中可能遇到的各種工具使用組合模式。

研究團隊用"工具序列"來量化覆蓋率。所謂工具序列，就是完成一項任務時需要調用的工具名稱按順序排列成的一個列表，比如"查用戶資訊→查訂單資訊→修改訂單→確認完成"。如果一個測試集裡所有題目的工具序列都差不多，那它的覆蓋率就很低。覆蓋率好的測試集，應該包含各種各樣不同結構的工具序列，像一張繁密的地圖而不是一條走了好多遍的小路。

---

三、反過來出題：先想操作步驟，再編故事

TASTE方法最核心的思路是把傳統出題順序徹底顛倒過來。

傳統方式：先寫故事，再推導操作步驟。

TASTE方式：先規劃操作步驟，再為這些步驟編寫對應的故事。

這個顛倒看起來簡單，但意義深遠。傳統方式出來的題目，操作步驟組合永遠受到"出題人能想到什麼故事"的限制，天花板很低。TASTE的方式直接從工具操作的空間出發，可以系統性地探索各種工具組合的可能性，就像一個廚師不是等到有客人點菜才想怎麼做，而是先把食材的各種搭配方式全部試一遍，再為每種搭配設計對應的菜品故事。

整個TASTE流程分三個階段，每個階段解決一個核心問題：第一階段，生成大量有效的工具操作序列；第二階段，從這些序列中挑選出足夠多樣化的代表；第三階段，把每個代表序列變成一道真實的考題，並且讓題目更難。

---

四、第一階段：教會機器"什麼樣的操作順序是合理的"

生成工具操作序列聽起來簡單，實際上非常棘手。工具的種類有十幾種，操作序列的長度從幾步到十幾步不等，隨機排列出來的組合絕大多數根本沒有意義——就像把食譜的步驟隨機打亂，"先把蛋糕從烤箱取出，再打雞蛋，然後預熱烤箱"，這樣的順序在現實中是行不通的。

贊助商廣告

研究團隊設計了一個叫做"自適應對比n元語法模型"（Adaptive Contrastive n-gram Model）的工具來解決這個問題。用更通俗的話說，這個模型學會了判斷工具操作序列是否合理，然後專門生成那些合理的序列。

這個模型的工作原理有點像一個學生在準備考試時反覆做練習題並從錯誤中總結規律。模型維護兩張"賬本"：一張記錄哪些相鄰工具組合在合理序列中出現過（正面證據），另一張記錄哪些相鄰工具組合在不合理序列中出現過（負面證據）。當它要生成新序列時，會傾向於使用正面證據中出現的組合，同時迴避負面證據中的組合。

訓練過程是疊代進行的：模型先生成一批候選序列，然後請另一個AI（以Gemini-3-Flash為基礎構建的驗證器）判斷每個序列是否合理，再把這批判斷結果更新到兩張賬本里，然後重新生成更好的序列，如此反覆循環。隨著訓練的進行，模型越來越善於生成合理的序列。

實驗數據揭示了這套設計的價值。從零開始隨機生成工具序列，合理率只有6.7%；用訓練好的完整模型生成，合理率提升到了86.7%。這意味著效率提升了將近13倍。而且，負面證據的使用（那張記錄不合理組合的賬本）貢獻了相當顯著的提升——在訓練到800輪時，使用負面證據比不使用多提升了約20個百分點。這一點直覺上也說得通：有些操作順序是明顯錯誤的（比如在取消預訂之後還試圖修改它），一旦模型學會了迴避這類錯誤模式，生成合理序列的能力就會大幅提升。

---

五、第二階段：從海量序列中挑選真正多樣化的代表

有了訓練好的模型，研究團隊從中大量採樣，生成了2000個不重複的合理工具序列。但測試集不需要2000道題，航空領域需要50道，零售和電信領域各需要114道。如何從2000個裡挑出50或114個，同時保證挑出來的代表足夠多樣化？

這裡用到了一種叫做"K中心點聚類"（K-medoids clustering）的技術。它的工作方式就像組織一場代表性的廚藝大賽選手：先把所有2000道菜譜按照烹飪風格分成若干組，每組選出最典型的那道作為代表參賽。這樣選出來的參賽選手，既能代表本組的特色，又能保證各參賽選手之間的差異性足夠大。

贊助商廣告

關鍵在於如何衡量兩個工具序列之間的"距離"——也就是兩道菜譜的烹飪風格有多不同。標準的編輯距離（最少需要多少次增刪改操作才能把一個序列變成另一個序列）在這裡並不理想，因為它會把功能上非常相似的工具（比如"搜索直達航班"和"搜索中轉航班"）當作完全不同的東西。

研究團隊設計了一種"加權編輯距離"，把工具之間的語義和功能關係納入考量。具體來說，替換功能幾乎一樣的工具（同屬"搜索"類別的直達和中轉航班搜索），代價只有0.33；替換同類型但不同功能的工具（比如兩個都是讀操作，但讀的內容不同），代價是0.66；替換完全不同類型的工具（讀操作換成寫操作），代價是1.0。

這種加權距離讓聚類結果更符合實際含義。研究團隊做了定性對比分析，發現使用加權距離形成的聚類，同一簇內的序列在功能邏輯上高度一致，而不同簇之間則代表了截然不同的用戶需求類型——比如"搜索並預訂航班"是一類，"查詢延誤並申請補償"是另一類，"修改乘客資訊"又是另一類。

---

六、第三階段：把操作序列變成真實考題，再讓題目更難

每個被選中的代表序列，需要變成一道完整的考題。考題需要包含三個部分：一個初始資料庫狀態（比如用戶的賬號資訊、已有的訂單記錄）、一段用戶指令（告訴AI用戶想要做什麼）、以及一個目標最終狀態（執行完所有操作後資料庫應該變成什麼樣子）。

生成這些內容需要兩次調用AI（以Gemini-3-Flash為基礎）。第一次，AI根據給定的工具序列編寫一個合理的用戶場景和對應的用戶指令，同時發明具體的人物名字、訂單編號等細節。第二次，AI生成這道題所需要的資料庫記錄，保證那些被工具操作引用的資訊確實存在於資料庫中。

題目生成完之後，必須經過嚴格的驗證。驗證分兩大類：基於規則的機械檢查（比如檢查操作序列中引用的每個實體是否都存在於資料庫中、每個工具調用的參數格式是否符合規範），以及基於模擬的可解性測試。

贊助商廣告

可解性測試的設計頗為精巧。如果直接給AI看完整的答案讓它重新做一遍，這只是在驗證AI會"抄答案"，沒有意義。但如果完全不給提示，一道設計合理但本身很難的題目可能讓AI失敗，這樣就無法判斷失敗是因為題目有問題還是因為AI能力不足。研究團隊找到了一個折中方案：給AI看一個"打亂順序、部分參數被遮蓋"的提示版答案。工具調用的順序被打亂了，每個工具調用中30%的參數被刪除，AI需要通過與模擬用戶的對話來推斷正確的執行計劃並填補缺失的參數。如果AI在這個條件下能夠成功完成任務，這道題就被認為是有效的考題。

這個驗證機制的可靠性也經過了測試。研究團隊在航空和零售兩個領域，用τ-Bench原版與驗證版的差異作為標籤，測試了驗證器的判斷準確率。結果顯示，驗證器的精確率在兩個領域分別達到了1.0和0.97——也就是說，凡是被它認定為"有效"的題目，幾乎百分之百真的有效。召回率稍低（0.75和0.83），意味著偶爾會把一些其實有效的題目誤判為無效，但這對測試集來說是可以接受的代價，因為保證每道題都確實有效比確保每道有效題都被收錄更重要。

驗證通過之後，題目還要經歷一個叫做"難度演化"的過程。這個步驟專門負責把題目變難。基礎版題目是特意設計得非常清晰直接的，目的是先驗證任務的邏輯結構是否正確，再在這個基礎上增加難度。

增加難度的方式來自三個方向，分別模擬現實生活中用戶給AI製造麻煩的不同方式。第一種叫"資料庫迷惑戰術"：在資料庫里加入一些看起來很像目標的"陷阱記錄"，比如在用戶想預訂的航線上放一個座位已滿的航班，讓AI在查詢時容易誤判。第二種叫"政策邊界壓力"：讓模擬用戶主動要求一些政策不允許的操作，比如聲稱自己是"白金會員"因此享有某些實際上並不存在的優惠，測試AI是否能夠堅守規則而不被用戶的強勢態度說服。第三種叫"對話對抗性"：讓模擬用戶變得不配合，比如故意不主動提供關鍵資訊，或者一開始提供錯誤資訊後來才更正，測試AI的耐心和資訊核實能力。

贊助商廣告

每道難度演化後的題目還要重新通過驗證。如果演化後的版本無法通過驗證，系統會嘗試簡化版的演化；如果簡化版也不行，就保留原始基礎版題目。這種"逐級回退"的機制保證了最終測試集裡每道題都經得起檢驗。

用於演化題目難度的AI是Gemini-3-Pro（比生成基礎題目用的Gemini-3-Flash更強大的版本）。研究中對比了用Gemini-3-Pro和GPT-5.2來進行演化的效果，發現前者演化出的題目讓AI的成功率下降幅度更大（下降36%到55%），所以最終選擇了前者。

---

七、新考題有多難：數字說話

研究團隊用11個不同的"AI智能體與用戶模擬器"搭配組合，在航空、零售、電信三個領域的新舊測試集上分別進行了測試。結果非常有說服力。

以谷歌的Gemini-3-Flash模型為例。在舊測試集（τBV）上，配合兩種不同的用戶模擬器，它的成績分別達到了0.82和0.94（滿分為1.0）。切換到新測試集之後，成績分別下滑到了0.56和0.61——在航空領域更是低至0.28和0.34。這不是小幅下降，而是接近腰斬。

其他模型同樣沒有倖免。谷歌的Gemini-2.5-Flash在新測試集的航空領域，成績從原來的0.58到0.66，直接跌落到0.21到0.36。Qwen-32B在航空領域的成績從0.50跌至0.10到0.13，相對下滑幅度超過了70%。

相比之下，也有表現相對穩健的模型。DeepSeek-3.1在零售領域的成績基本持平（從0.47到0.47），在電信領域的降幅也相對較小。Claude-Sonnet-4.6總體下降幅度在所有被測模型中最為溫和。但即使是相對最穩健的組合，在新測試集上的絕對分數也明顯低於舊測試集，說明難度提升是實質性的、全面的。

除了成績下降，新測試集的覆蓋率指標也大幅優於舊版本。用於量化工具序列多樣性的"加權編輯距離"平均提升了45%到124%；"類型-標記比率"（衡量不重複的工具組合模式占比）平均提升了67%到111%；工具使用頻率的資訊熵（衡量工具使用是否均勻分布，而非集中在少數幾種工具上）也提升了約35%。

贊助商廣告

用更直觀的說法來理解：舊測試集裡，AI反覆被要求執行一些常見的、雷同的操作組合，就像一個廚藝考試每次都只考炒雞蛋。新測試集要求AI掌握的工具組合多樣性翻了一番以上，更接近真實客服場景的複雜性。

---

八、任務的難度可以被主動調控

這篇研究還有一個頗有實用價值的發現：TASTE框架中的某些參數可以直接用來調控任務難度，而且效果非常明顯。

研究團隊把測試集中的任務按照工具序列的長度分為兩組（前50%長和後50%短），然後比較AI在兩組上的平均成功率。結果顯示，長序列任務的成功率比短序列任務低了約13到20個百分點，三個領域均如此。

按照寫操作（修改數據）與讀操作（查詢數據）的比例做同樣的分組也得到了類似的結論。寫操作占比高的任務（也就是需要在資料庫里做更多修改的任務），比讀操作為主的任務難度大得多——成功率低了16到31個百分點。這個結論在直覺上也是合理的：讀操作通常不會產生不可逆的後果，而寫操作一旦做錯了就會改變資料庫狀態，代價更高，要求AI更謹慎。

這意味著，當未來的AI模型變得更強大，現在的測試集又開始飽和的時候，可以通過增加工具序列長度、增大寫操作比例等方式，生成更難的新一批測試題，而不需要從頭重新設計整套流程。TASTE本質上是一個可以持續運轉的"出題機器"，而不是一次性的產出。

---

九、成本與可行性：自動化出題的經濟賬

手工設計一道高質量的AI測試題需要專業人員花費大量時間，整個過程難以規模化。TASTE的出現在相當程度上改變了這個局面。

具體來看成本構成：第一和第二階段（訓練n元語法模型、生成候選序列、聚類選擇代表）每個領域只需花費約10美元。第三階段（生成題目、驗證、演化）每道題的平均成本約為2.5美元。τ?-Bench包含三個領域共278道題（50加114加114），第三階段總計約695美元，加上前兩個階段的約30美元，整個測試集的生成成本約725美元。

贊助商廣告

對比之下，用被測試的AI模型在這批題目上跑完所有測試組合的總成本是520美元。也就是說，生成一批全新的、高質量的測試題，成本和做一輪測試的成本在同一數量級。這在以前是難以想像的——手工出題的人力成本要高出幾個數量級。

當然，這套方法也有其局限性。當前的TASTE框架是在已有環境定義（政策文檔、工具規範、資料庫結構）的基礎上工作的，它需要這些基礎設施才能運轉。如果要擴展到全新的領域，需要先建立相應的環境定義。此外，題目質量在一定程度上依賴於用來進行驗證和生成的AI模型的能力，如果基礎模型判斷能力有缺陷，可能會影響題目有效性。

---

十、這項研究真正告訴了我們什麼

說到底，這篇研究指出了一個AI評估領域長期存在但容易被忽視的結構性問題：當前許多AI測試集的設計方式，天然地偏向於少數幾類常見的操作模式，而AI的高分可能更多反映的是對這些常見模式的熟悉，而非對工具使用能力的全面掌握。

TASTE提供的不僅是一批更難的題目，更是一套持續更新考題的方法論。這對整個領域的意義在於：隨著AI能力的持續進化，評估框架也可以相應地持續升級，而不是等到AI刷爆了舊題庫再手忙腳亂地重新出題。

從更廣的角度看，這項工作也給那些正在宣傳AI客服、AI助手能力的公司提了一個重要的問題：你們的AI在測試集上的高分，究竟有多大程度上代表了真實能力？當任務變得更複雜、用戶變得更難纏、資料庫里充滿了容易混淆的干擾資訊時，AI的表現會是什麼樣子？新測試集給出的答案，往往比舊測試集的高分更能說明問題。

這也提醒了使用AI工具的普通用戶：當一個AI客服告訴你它能處理複雜的賬單問題或者多步驟的訂單修改時，不妨留意它在面對一些小小的"測試"時的表現——比如給它一個資訊略有出入的場景，看看它是否會認真核實，還是直接按照你說的話行動。真正可靠的AI，應該是那種會主動說"等等，這裡有一點不對勁，讓我先查一下"的。

贊助商廣告

對這項研究感興趣的讀者，可以通過arXiv編號2605.28556查閱完整原文，論文由以色列理工學院（Technion）數據與決策科學學院和IBM研究院以色列分部的研究人員共同完成。

---

Q&A

Q1：τ?-Bench和τ?-Bench有什麼區別，為什麼τ?-Bench更難？

A：τ?-Bench是一個手工編寫的AI客服測試集，由人類先寫故事再推導操作步驟，導致工具使用模式比較單調重複，主流AI模型已經能拿很高分。τ?-Bench是用TASTE方法自動生成的擴展測試集，先系統採樣多樣化的工具操作序列，再為每個序列編寫場景，同時還對任務進行"難度演化"——在資料庫中加入混淆陷阱、讓模擬用戶更不配合、引入政策邊界壓力——所以題目更難，覆蓋的工具組合類型是原來的兩倍以上。

Q2：TASTE生成的考題質量怎麼保證，會不會有錯誤題目？

A：TASTE採用多重驗證機制保證題目質量。首先通過規則檢查確認操作步驟的參數和資料庫實體是否一致；然後由AI策略審查員檢查用戶指令是否符合領域政策；最後用一個"打亂順序、遮蓋部分參數"的提示版答案讓驗證AI嘗試完成任務，通過才認定題目有效。實驗測試顯示驗證器的精確率達到0.97到1.0，而且研究人員人工檢查了所有AI全部答錯的題目（共15道），確認這些題目都是有效的，AI失敗純粹是因為題目本身確實很難。

Q3：TASTE方法能用於訓練AI，還是只能用來測試AI？

A：論文中TASTE主要被設計和驗證為評估工具，用於生成更難、覆蓋率更廣的測試集。不過研究團隊在結論中明確指出，TASTE同樣具備用於訓練數據生成的潛力——通過生成多樣化的、有驗證保障的工具操作任務示例，可以為AI模型的強化學習訓練提供更豐富的場景覆蓋。這一應用方向被列為未來工作。