這項由Upstage AI發布的研究成果以預印本形式刊載於arXiv,論文編號為arXiv:2606.27595v1,發表於2026年6月25日,計劃發表於AAAI(美國人工智慧促進協會)會議論文集。
---
**你有沒有遇到過這樣的情況:**讓一個聰明的助手幫你列出某個清單——比如"所有在韓國運營的低成本航空公司,以及它們的母公司、成立年份、主要樞紐機場和現有飛機數量"。結果助手信誓旦旦地回來了,清單看著挺全,但仔細一核對,發現某家航空公司的飛機數量寫錯了,另一家的成立年份對不上,還有一兩家完全被漏掉了。
這種"感覺答對了但其實錯了一半"的現象,正是這篇研究的核心關切。Upstage AI的研究人員花了大量精力來度量這件事:當AI被要求不只找一個答案,而是找出一整套完整的結構化資訊時,它到底表現得怎麼樣?
---
一、為什麼"找全一張表"比"找到一個答案"難得多?
現有的大多數AI搜索測試,關注的是"深度"——就像偵探追查一個藏得很深的秘密,答案隱藏在重重線索背後,AI要順著蛛絲馬跡找到那唯一的正確答案。但現實生活里,我們更常遇到的挑戰其實是"寬度"——不是找一個答案,而是把某個主題下所有相關條目都列出來,而且每個條目還要附上若干屬性資訊。
用一個比喻來說,深度任務像是在一本厚厚的歷史書里找到"某位皇帝的確切出生日期",而寬度任務則像是"把這本書里所有皇帝的名字、在位年限、出生地和重大政績全部列成一張表"。前者考驗的是耐心和推理,後者考驗的是全面性和細心——你不能漏掉任何一個皇帝,也不能在某個皇帝的在位年限上隨手填個不確定的數字。
來自英語世界的WideSearch基準測試已經證明,即便是最頂尖的AI,在面對這類"填表"任務時也會頻繁犯錯:漏填行、填錯單元格、搞不清楚表格的範圍邊界。但WideSearch是英語的,而且要靠人工手動構建,成本極高。這篇研究的目標,是把這套評測體系搬到韓語世界,同時解決構建成本的問題。
---
二、KO-WIDESEARCH:一套專門測試AI"填表能力"的韓語關卡
研究團隊構建了一個名為KO-WIDESEARCH的評測基準,專門用於測試AI在韓語網頁上進行"窮舉式集合枚舉"的能力。每道題目都會指定一個父級實體——比如某個電視節目的某一季、某個朝代、某個聯賽、某個行政區域、某次選舉——然後要求AI列出該實體下的所有成員,並填寫每個成員的若干屬性,最終輸出一張完整的表格。
整套基準包含228張表格,涵蓋190個不同的父級實體,橫跨16個領域類別,包括科學、政府、體育、媒體等。這些表格中共有4262行黃金標準數據和14560個屬性單元格,全部來自真實的韓語網路資源,並經過嚴格的去污染篩查。
為了讓這套評測不只是單一難度,研究團隊設計了三個難度層級,並且通過兩個獨立的"旋鈕"來控制難度。第一個旋鈕是表格寬度,即每行需要填寫多少個屬性列。第二個旋鈕則是成員維度——最簡單的情況下,成員是一個單一列表(比如"所有韓國低成本航空公司"),而更難的情況下,成員本身就是一個二維網格(比如"每個省份×每次選舉"的組合),這叫做"二維複合主鍵"。
以貫穿整篇論文的示例任務為例:要求AI列出韓國17個廣域地方自治團體(省和市)在第七屆和第八屆地方選舉中的當選首長,並附上政黨、投票率、當選者年齡和得票率。由於每個省份都要參加兩次選舉,成員就構成了17×2=34行的網格。這34行中,選舉結果可以從結果頁面找到,但每位當選者的年齡則需要去另一個頁面查找——這就是"跨來源"屬性,也是讓任務變得真正困難的地方。
簡單級(EASY)的表格只有3列左右,成員是一維列表;中等級(MEDIUM)有5列左右,成員可能是一維也可能是二維;困難級(HARD)有7列左右,成員一定是二維網格。整體來看,228張表格中有88%需要從多個頁面獲取資訊,而不是一個頁面就能搞定。
---
三、這張表的質量是怎麼保證的?——三道獨立驗證關卡
構建這樣一套評測基準,最大的挑戰不是出題,而是確保"黃金答案"本身是完整且正確的。手動核實每張表格的每個單元格,成本極高,於是研究團隊設計了一套自動化的"構建與驗證"流水線。
流水線的第一步,是讓一個"構建智能體"通過搜索、打開網頁、查找內容這三種工具,對每道題目進行窮舉式搜索,自動生成黃金答案表格。時效性強的屬性(比如"當前機隊規模")會明確鎖定到一個特定日期,以保證答案穩定。
生成之後,每張表格要通過三道獨立的驗證關卡,任何一道不通過都會被拒絕。第一道關卡檢驗"非記憶性":讓一個沒有網路訪問權限的封閉模型嘗試從記憶中復現答案,如果它復現成功(單元格正確率達到50%以上),說明這道題太容易,靠記憶就能答出來,應該被淘汰。第二道關卡檢驗"完整性":讓另一個獨立智能體重新從零枚舉成員,兩個結果的集合重疊度必須達到70%以上,以此作為黃金答案確實覆蓋了所有成員的代理證明。第三道關卡檢驗"跨來源屬性驗證":一個獨立的事實核查者從頭重新查找每個屬性值,與黃金答案對比,低於60%一致率的列被標記為"來源不穩定"並從題目中刪除,至少保留一個經過獨立驗證的屬性列才算通過。
除了這三道驗證關卡,研究團隊還專門設計了一個對數字比較感知的"歸一化比較器"。原因在於,如果用粗糙的字符串匹配來對比"12,742 km"和"12742",會把明明正確的答案判錯。這個比較器能夠在相同精度下比較日期(年份相同就算匹配),去掉千位分隔符和單位後再比較數字,並允許5%的相對誤差,同時對人名和地名進行歸一化文本匹配。這同一個比較器不僅用於驗證黃金答案,也用於給AI的輸出評分,保證了評分標準的一致性。
---
四、用四把尺子來量AI的"填表能力"
評測框架採用了四個層層遞進的指標,像是從外到內剝洋蔥,每一層都更嚴格。
最外層是"成員F1",衡量AI是否找到了正確的行集合——有沒有漏掉任何一個成員,有沒有憑空捏造一個不存在的成員。以選舉任務為例,就是AI是否恢復了完整的34個(省份×選舉屆次)組合。這是最基礎的要求:你得先知道有哪些行,才談得上填每行的內容。
第二層是"列F1",在已經正確匹配到行之後,衡量每個屬性單元格的填寫正確率。這把尺子告訴你:對於AI找到的那些行,它填的屬性值有多少是對的。
第三層是"行F1",要求一行中的所有單元格都正確,才算這一行通過。哪怕34行里的某一行只有"投票率"這一格寫錯了,整行就不算正確。這是非常嚴格的要求。
最外層也是最嚴格的是"表格成功率",要求整張表格從第一行到最後一行,每個單元格都完全正確,才算這道題通過。這對應的是現實世界裡"你交給我的那份報告完全可用"的標準。
---
五、二十個AI系統參加了這場"填表大考",結果怎麼樣?
研究團隊將每個被測系統配置為一個網頁搜索智能體,給定固定的30次疊代預算(每次可以批量調用多個工具)和單次嘗試機會,要求它窮舉集合併返回一張結構化表格。被測系統共20個,分為三類:專有前沿模型(GPT-5.5、Claude系列、Gemini系列)、開源模型(DeepSeek-V4-Pro、GLM-5.1、Gemma-4-31B、DeepSeek-Chat、Qwen3.6-35B)以及韓語專項模型(Solar-Open-2-preview、A.X-4.0、K-EXAONE-236B)。
結果呈現出一個清晰而一致的模式:所有系統都能比較好地找到成員集合,但在填滿每一行的屬性時大幅失分。成績最好的GPT-5.5,其成員F1高達92.8,意味著它幾乎找到了所有應該找到的行;但行F1隻有53.7,也就是只有大約一半的行是每個單元格都填對的;表格成功率更是僅有19.3,每五道題里只有不到一道是整張表格完全正確的。
Claude-Opus-4.7在成員F1(94.6)和列F1(75.6)上甚至略微領先,體現了極強的成員識別和逐單元格填寫能力,只是行F1(51.6)和表格成功率(15.8)同樣難以突破這道天花板。開源陣營里,DeepSeek-V4-Pro以45.0的行F1擠進了專有模型的中游——它的表現超過了GPT-5.4、Claude-Sonnet-4.6以及所有更小規模的專有模型,成為開源模型中最接近前沿水平的存在。
三個韓語專項模型的表現令人意外地令人失望。A.X-4.0的行F1為24.2,Solar-Open-2-preview為24.4,K-EXAONE-236B為17.5,三者都落在開源模型的底部區間,與前沿模型(53.7)相比差距懸殊。這說明單純的韓語流暢度並不能彌補在長鏈搜索和窮舉式逐格填寫上的能力缺口。
---
六、難度越高,摔得越狠——兩個"旋鈕"的威力
沿著難度梯度拆解數據,能看到更清晰的規律。隨著表格寬度增加和二維複合主鍵的引入,行F1對每個系統都穩步下降。GPT-5.4-mini從簡單級的42.6一路跌到困難級的18.8,DeepSeek-V4-Pro從50.7跌到36.9。成績最強的GPT-5.5在困難級仍然維持在48.1,是唯一在困難級依然接近50分的系統。
有趣的是,成員F1在各個難度級別之間基本保持平穩,甚至在困難級略有上升。原因在於,困難級的任務大量採用了體育賽季類的二維網格,這類任務的成員(比如"哪些球隊參加了哪些賽季")往往是系統性的、可以被規則枚舉出來的,所以找全成員反而更容易。這說明隨著難度上升,成員識別能力並沒有退化——真正垮掉的是逐格填寫的準確率。
關於跨來源的影響,由於27張單一頁面來源的表格全部屬於簡單級,而中等級和困難級的表格全部需要跨來源查找,這兩個維度(難度和跨來源性)之間存在高度相關,使得難以單獨量化跨來源帶來的影響,研究團隊也坦誠了這一局限。
---
七、哪類單元格最容易填錯?答案出乎意料
在一個儀器化的三模型子集上,研究團隊對每種單元格類型分別統計了列F1,結果揭示了一個清晰的排序:日期類(58)和人名類(56)單元格最容易填對,數字類(55)和枚舉類(51)居中,而自由文本類(49)最容易填錯。
這個發現的意義在於,它說明問題的根源是"找到並理解正確值",而不是"把正確值格式化成要求的樣子"。因為那個歸一化比較器已經消除了大部分格式層面的差異——日期粒度不同不會被判錯,有無千位分隔符不會被判錯,名字的輕微變體也不會被判錯。所以剩下那49%失分的自由文本單元格,是真的找錯了值或者乾脆編造了一個聽起來合理但實際上錯誤的值。
為了進一步驗證這一點,研究團隊還做了一個"語義評審"實驗:用GPT-5.4-mini作為語義裁判,對那些被確定性比較器判錯的軟類型單元格(人名、地點、自由文本)重新審核,看看AI的答案是否在語義上等價於黃金答案(比如"首爾,韓國"和"首爾"是同一個意思)。這番重新評分把行F1向上修正了0.8到4.9分,而且修正幅度與模型能力正相關——DeepSeek-V4-Pro獲得了4.9分的修正,最弱的模型只獲得了0.8分。這意味著強模型剩餘的錯誤更多是表面形式問題,而弱模型剩餘的錯誤是實實在在答錯了——不同的人物、不同的區域、不同的數值。
---
八、搜索得更多、花錢更多,能解決問題嗎?
研究結果給出了一個明確的否定答案,而且這個答案讓人印象深刻。
在搜索工具調用次數上,20個系統里搜索得最努力的兩個——Qwen3.6-35B每道題平均調用66次工具,Solar-Open-2-preview平均57次——恰恰是得分最低的兩個(行F1分別為16和24)。反過來,GPT-5.5和Claude-Opus-4.8以適中的工具調用量(分別是33次和26次)拿下了最高分。這說明,瓶頸不在於搜索量,而在於智能體組織和驗證表格的能力。那些大量搜索的模型,其實是在重複搜索相似的內容而找不到出路,屬於"亂撞"而非"匯聚"。
在成本效益上,GPT-5.5每道題花費約0.87美元,行F1為53.7;而DeepSeek-V4-Pro每道題僅花費約0.23美元,行F1就達到了45.0。換句話說,從最好的開源模型到最好的專有模型,那最後9個百分點的行F1差距,需要多付大約四倍的錢。Claude-Sonnet-4.6在91%的任務上都用滿了30次工具調用,最終行F1隻有43.6,而Claude-Opus-4.8隻在40%的任務上用滿了30次,卻拿下了52.9的行F1。
---
九、AI在哪個環節開始出錯?——失敗的四個階段
研究團隊把每道題的失敗歸因到最早發生問題的環節,形成了一幅清晰的失敗地圖。對於能力較強的系統來說,找成員這件事基本沒問題——Claude-Opus-4.7隻在18%的題目上出現了成員識別錯誤,但隨後有66%的題目是因為至少一個單元格填錯而功虧一簣,最終只有16%的題目完全正確。
對於能力較弱的系統,失敗發生得更早:GPT-5.4-nano和DeepSeek-Chat在46%到52%的題目上就已經在成員識別階段失敗了——行都沒找全,更談不上填屬性。Claude-Haiku-4.5有一個特殊的失敗模式:24%的題目根本沒有輸出一張可解析的表格,直接得零分。
韓語專項模型各有各的失敗方式。A.X-4.0在成員識別上和中等水平的開源模型相當(成員F1 71.7),但單元格填寫能力極差(行F1 24.2);Solar-Open-2-preview則有一個結構性輸出問題,只有62.7%的題目返回了可解析的表格,其餘的都變成了散文敘述或編號列表;K-EXAONE-236B落在開源模型的底部,行F1隻有17.5。
此外,成員識別在精確率和召回率兩個方向都基本平衡——GPT-5.5的成員識別精確率為85,召回率為86;DeepSeek-V4-Pro分別是71和71。這說明AI不是系統性地漏掉成員,也不是系統性地憑空捏造成員,而是兩種錯誤大致對稱地存在。真正的崩潰發生在下游:全行精確率和召回率雙雙跌到25到37,這是"找到了行但單元格填錯了"的典型特徵。
表格成功率這個最嚴格的指標,是最能說明問題的,但也是最不能區分系統間差異的。幾乎所有系統都趴在個位數,最強的GPT-5.5也只有19.3。Solar-Open-2-preview靠著把少數簡單任務做得完全正確,表格成功率(9.7)反而高於GPT-5.4-mini(5.7),儘管它的行F1(24.4)遠低於後者(33.3)——因為它們在做法上是完全相反的:一個是偶爾把一道簡單題做全對,其他全崩;另一個是在大多數題目上都拿到了部分分數。這就是為什麼研究團隊以行F1作為主要排名依據,而非表格成功率。
---
十、更大的集合更難填嗎?大集合未必更難
按照常識推斷,如果一張表格有30多行,那肯定比只有10行的表格更難填全、填對。然而數據並不支持這個直覺:把行F1按黃金答案的行數分組來看,8到15行的任務平均行F1為35.4,16到30行的為31.2,超過30行的為35.0,三者基本持平。最大的那些任務集合通常是系統性的體育賽季網格,成員本身就是可以規則枚舉的,所以集合大小本身並不是難度的主要驅動因素——表格寬度和二維複合主鍵才是。
在各類別的表現上,研究團隊把行F1按主題類別匯總,大多數類別集中在0.30到0.40之間:體育類(0.35)、地點與地區(0.39)、娛樂媒體(0.35)、政府政治(0.30)、科技(0.30),歷史文化(0.46)和經濟政策(0.50)稍高,而文學書籍類以0.19墊底——因為這類主題的權威列表在網頁上分散且難以獲取,屬性值也最難確認。
---
說到底,這場"填表大考"揭示的是什麼?
歸根結底,這篇研究展示了AI智能體在面對"寬度任務"時的一個結構性短板:它們很擅長找到答案集合的輪廓,卻在把每一格都填對這件事上舉步維艱。這個差距不是用更多搜索次數或更多金錢能彌補的,它指向的是一種更本質的能力——在搜索了很多頁面之後,還能準確地把分散的資訊組織成一張完整而無誤的表格,並且在不確定時寧願留空也不要亂填。
對於普通用戶來說,這意味著當你讓AI幫你整理"某類事物的完整清單及其屬性"時,你最好把AI交回來的答案當作一個初稿,而不是最終版本——特別是那些需要從多個不同頁面查找的屬性值,很可能存在遺漏或錯誤。對於AI開發者來說,這個基準指出了一個值得專項改進的方向:如何在長時間的搜索過程中維持對"我還需要找哪些格子的資訊"的精確追蹤,並在發現不確定時選擇誠實地留白。
KO-WIDESEARCH的構建流水線和評分代碼已經以MIT許可證開源,而評測數據集本身則以申請方式分發,以防止AI通過搜索找到已經公開的黃金答案來"作弊"。有興趣深入了解的讀者可以通過arXiv編號2606.27595查閱完整論文。
---
Q&A
Q1:KO-WIDESEARCH基準和普通的AI問答測試有什麼區別?
A:普通的AI問答測試通常只考察AI能否找到單一的正確答案,比如某人的出生日期或某個事件的時間。KO-WIDESEARCH測試的是完全不同的能力——AI能否窮舉某個類別下的所有成員,並為每個成員填寫多個屬性值,最終輸出一張完整無誤的表格。一個是"找到答案",另一個是"填好整張表",後者要求AI同時做到不漏行、不多行、每個單元格都填對。
Q2:為什麼韓語專項模型在KO-WIDESEARCH上的表現比通用前沿模型差那麼多?
A:韓語流暢度在這個任務里只是基礎條件,而不是決定性因素。KO-WIDESEARCH真正考察的是在長時間搜索後維持對整張表格狀態的追蹤,以及在多個頁面間穿梭查找各個屬性值的能力。韓語專項模型在搜索策略、結構化輸出和跨來源資訊整合上存在明顯短板,有的連可解析的表格都無法穩定輸出,這些問題不是單純的語言能力能彌補的。
Q3:KO-WIDESEARCH里的"二維複合主鍵"任務到底難在哪裡?
A:普通的列表任務只有一個維度,比如"所有球隊"。二維複合主鍵任務的成員本身是一個網格,比如"每個省份×每屆選舉",意味著AI不僅要找到所有省份,還要確保每個省份在每屆選舉里都有對應的條目,一共34行。漏掉任何一個省份的任何一屆選舉,就會丟失一整行;加上每行的屬性往往來自不同頁面,錯誤會在兩個維度上疊加,讓整張表格的正確率大幅下降。






