韓國AI界的「聯考難題」：當頂級AI遇上韓語網路搜索，為何集體「翻車」？——來自中央大學、KAIST、首爾國立大學等六所機構的聯合研究

這項由中央大學、韓國科學技術院（KAIST）、首爾國立大學、OnelineAI、NAVER Cloud AI和卡內基梅隆大學聯合完成的研究，於2026年6月發表，論文編號為arXiv:2606.02404。研究團隊發布了一個名為K-BROWSECOMP 韓國AI界的聯考難題當頂級AI遇上韓語網路搜索為何集體翻車來自中央大學KAIST首爾國立大學等六所機的基準測試集，專門用於測量AI在韓語網路環境中的"偵查"能力。

贊助商廣告

要弄清楚這項研究在做什麼，不妨把整件事想像成一場偵探遊戲。一名優秀的偵探，不僅要能讀懂線索，還要能在茫茫資訊海洋中順著蛛絲馬跡，一路追蹤到最終的答案。這項研究的核心問題就是：當今最強大的AI，在韓語這片"資訊叢林"里，究竟算是一名合格的偵探，還是一個迷路的新手？

答案多少有些令人意外——就連全球公認最強大的AI模型，在這套測試里也只能答對不到一半的題目，而韓國本土的AI模型，表現甚至更加慘澹。

---

一、為什麼需要一套專門測試韓語AI"偵探能力"的試卷？

在AI領域，評估一個模型的能力，通常要靠"基準測試"——也就是一套專門設計的題目，就像期末考試一樣，用來檢驗AI到底學得好不好。過去幾年，全球最頂尖的AI實驗室已經把評估重心從"會不會做閱讀理解"轉移到了"能不能像人一樣自主完成複雜任務"。後者被稱為"智能體評估韓國AI界的聯考難題當頂級AI遇上韓語網路搜索為何集體翻車來自中央大學KAIST首爾國立大學等六所機 "，考察的是AI在多個步驟之間協調配合、自主決策的能力，就像考察一名偵探能不能從頭到尾獨立破案，而不僅僅是認識幾個單詞。

然而，在這場評估革命中，韓語AI界卻有些掉隊。韓國目前的AI測試，大多還停留在"考詞彙、考閱讀"的階段，缺乏針對複雜任務的測試工具。這造成了一個現實困境：研究者們無法準確知道，韓國本土的AI在面對真實用戶需求時，究竟表現如何。

這種缺失不僅僅是技術上的遺憾，背後還有更深層的現實考量。韓國的語言使用人口相對有限，網路上的韓語內容在規模和覆蓋面上天然不如英語，這意味著當用戶需要查詢韓國本地的機構資訊、文化知識、地理數據時，AI的表現可能遠不如處理英語問題時穩定。換句話說，韓國用戶在使用AI助手時，面臨的是一種結構性的資訊不平等。

贊助商廣告

正是為了填補這個空白，研究團隊建立了K-BROWSECOMP，一套專門針對"韓語網路搜索智能體"的測試集，用400道精心設計的題目，檢驗AI能否在韓語網際網路的複雜環境中，像一名熟練的偵探一樣找到正確答案。

---

二、這套試卷究竟在考什麼？它的題目有多難？

K-BROWSECOMP的設計靈感來自一個已有的英語測試項目BrowseComp，但它並不是簡單的翻譯。研究團隊特別強調，這套題目必須"紮根於韓國語境"，也就是說，每道題都要涉及韓國特有的機構、文化現象、教育體系、地方地理或媒體內容，單靠查英語資料或依賴通用知識根本無法作答。

每道題都必須滿足幾個嚴格標準。答案必須是唯一的、不會隨時間變化的具體資訊，而且必須可以在公開的網頁上找到文字證據。題目不能直接通過搜索關鍵詞找到答案——必須經過至少四個步驟的推理或同時滿足至少四個獨立條件，才能鎖定正確答案。

這套測試包含兩種題型，它們代表了兩種不同的偵探工作模式。第一種叫做"多跳推理韓國AI界的聯考難題當頂級AI遇上韓語網路搜索為何集體翻車來自中央大學KAIST首爾國立大學等六所機 "，就像偵探順著線索鏈條一步一步追蹤：先找到A，用A去找B，用B再去找C，最終得出答案。第二種叫做"並行約束滿足"，就像偵探面對一群嫌疑人，必須同時核實多個獨立條件，找出唯一同時滿足所有條件的那一個人。

以論文中給出的兩個示例來感受一下難度。第一道題是這樣的：2025年發行的某張專輯的第四首歌曲，題目去掉空格後是五個字，歌詞中出現了七次"???"（沒關係），這首歌是什麼？第二道題則更為複雜：韓國教育課程評估院2018年6月針對高三學生舉行的模擬考試，國語科目第29題考查的作品，該作品的詩人在生前出版的第十本詩集中，排在第十三位的那首詩，題目是什麼？

僅僅讀一遍這兩道題，就能感受到它們對人類來說也並不輕鬆，更別提AI了。

---

三、人工驗證的300道題是怎麼煉成的？

測試集分為兩個部分。第一部分是"已驗證子集"，共300道題，全部由真人韓語母語者手工編寫和驗證。研究團隊召集了17名標註人員，包括研究人員和非研究人員，給他們一份詳細的編寫指南，要求他們從一個已知的目標事實出發，反向設計出一道難以直接搜索但答案容易核實的問題。

贊助商廣告

這個"反向設計"的思路非常關鍵，好比一名出題老師已經知道答案是"埃菲爾鐵塔建於1889年"，然後繞開這個資訊，設計一道需要通過五步推理才能得出這個答案的題目，而不是直接問"埃菲爾鐵塔建於哪年"。

編寫完成的題目要經過嚴格的審核流程。研究團隊會逐一檢查每道題的金標準答案、中間實體和引用來源是否都能在公開網頁上找到。如果證據無法訪問、不充分或相互矛盾，題目就會被退回給原作者修改。審核過程中還有一道特別的關卡：如果基線AI模型給出了一個和標準答案不同但同樣合理的答案，研究團隊會人工判斷這個答案是否也成立，如果成立，題目必須修改或刪除，以確保每道題的答案確實是唯一的。

最終通過審核的300道題，覆蓋了10個類別。娛樂與媒體是最大的類別，有109道題，占比超過三分之一。其次是地點與地區48道，教育與考試35道，體育與遊戲26道，科技與學術20道，美食餐飲19道，文學與語言15道，產品與品牌14道，歷史文化10道，以及經濟與政策4道。在題型分布上，多跳推理題160道占53.3%，並行約束題140道占46.7%，兩者相對均衡。

參與編寫的非研究人員按照每10至15道題約100,000韓元的標準獲得報酬，這個金額對應大約4小時的工作量，高於2025年韓國法定最低時薪。

---

四、AI模型在這場"偵探考試"里表現如何？

研究團隊選取了全球11個主流AI模型進行測試，覆蓋封閉源模型和開源模型兩大陣營，以及專門針對韓語優化的本土模型。所有模型使用統一的測試框架，每個問題最多允許進行10次網路搜索，並且只有一次回答機會。

測試結果在全球頂尖模型中，表現最好的是GPT-5.5，正確率45.67%，排在第二位的是GPT-5.4-mini和GLM-5.1，兩者並列30.67%，DeepSeek-V4-Pro緊隨其後，得分30.00%。

這些數字單獨看似乎還好，但一旦和同樣這些模型在英語版BrowseComp上的成績比較，差距就顯得觸目驚心了。GPT-5.5在英語版BrowseComp上得分84.4%，換到韓語版直接掉到了45.67%，降幅將近40個百分點。DeepSeek-V4-Pro在英語版得分83.4%，在韓語版只有30.00%，幾乎腰斬。這種斷崖式下滑，清楚地表明這些模型並沒有真正掌握韓語網路環境的特殊性，而不是普通的隨機波動。

贊助商廣告

再來看較小規模的開源模型，Gemma-4-31B-IT得分23.33%，超過了參數量更大的Qwen3.6-35B-A3B（12.00%），而Gemini-3.1-Flash-Lite僅11.33%，同樣不理想。

最令人印象深刻的是韓國本土模型的表現。K-EXAONE-236B-A23B是一個參數量高達2360億（其中約230億為激活參數）的龐大模型，也是韓國政府"自主AI基礎模型項目"資助的成果之一，但它在這套測試里只得了10.33%。A.X-4.0得分5.33%，HyperCLOVAX-SEED-Think-32B得分2.33%，而Kanana-2-30B-A3B-Thinking-2601則得了0分，完全沒有答對任何一道題。韓國本土模型整體得分範圍在0%至10.33%之間，與全球頂尖模型相比，差距超過了35個百分點。

研究團隊還額外計算了每個模型的"校準誤差韓國AI界的聯考難題當頂級AI遇上韓語網路搜索為何集體翻車來自中央大學KAIST首爾國立大學等六所機 "，這個指標衡量的是模型對自己答案的自信程度是否合理。如果一個模型對一個錯誤答案非常自信，或者對一個正確答案非常不確定，校準誤差就會很高。HyperCLOVAX-SEED-Think-32B的校準誤差高達77.37%，意味著它的自信程度和實際表現嚴重脫節，經常在答錯的時候反而最自信。GPT-5.5在這個維度上表現相對較好，校準誤差為31.86%，在高準確率和合理自信之間取得了相對較好的平衡。

---

五、AI究竟在哪個環節"掉鏈子"了？

光有分數還不夠，研究團隊還深入分析了模型的"偵查過程"，試圖找出它們究竟在哪一步走錯了路。經過大量的人工審查，他們歸納出了九種典型的失敗模式，形成了一套系統的"錯誤分類表"。

第一種失敗是"軌跡不完整或輸出格式錯誤"，最極端的情形——模型壓根沒能走完整個搜索流程，或者最終沒能給出一個格式正確的答案，就像偵探還沒勘察完現場就宣布放棄了。第二種是"初始搜索方向無效"，模型一開始就選錯了搜索策略，就像偵探在面對一起發生在圖書館的案子時，第一反應是去檢查停車場的監控，完全跑偏了方向。第三種是"搜索訪問結構失敗"，指模型無法訪問隱藏在複雜頁面結構後面的證據，比如需要按特定順序排列內容才能看到的資訊。第四種是"跨源跳轉失敗"，指模型無法將來自不同網站的證據拼接在一起，就像偵探能分別看懂兩份文件，卻不知道這兩份文件講的是同一個人。第五種是"半結構化頁面解析失敗"，指模型在面對表格、排名、資料庫等格式化內容時，讀錯了數據——比如看著一張成績單，卻把第三名的分數記成了第一名的。第六種是"搜索結果選擇失敗"，指模型找到了相關證據，但選錯了具體來源或候選答案，就像偵探找到了幾個嫌疑人但指認錯了人。第七種是"稀疏實體歸一化失敗"，指模型無法正確識別罕見人名、別名、不同拼寫方式或歷史名稱，比如一個歷史人物有好幾種不同的寫法，模型卻認為是不同的人。第八種是"約束追蹤失敗"，指模型找到了部分候選答案，卻沒能驗證所有條件都得到滿足——這是最常見也最致命的問題之一。第九種是"中間推理失敗"，指在需要進行日期計算、排序、計數或比較的步驟中出錯。

贊助商廣告

研究團隊進一步觀察到，很多錯誤並不發生在搜索階段，而是發生在搜索之後。換句話說，模型往往已經找到了正確的證據，卻在處理這些證據的過程中出了問題。這個發現非常關鍵，因為它意味著僅僅改善搜索能力是不夠的，真正需要解決的是模型在多步推理過程中維持"證據狀態"的能力。

研究團隊將反覆出現的錯誤模式歸納為三種典型的軌跡級故障韓國AI界的聯考難題當頂級AI遇上韓語網路搜索為何集體翻車來自中央大學KAIST首爾國立大學等六所機。

第一種叫"候選人過早鎖定"。這發生在模型在驗證完所有上游條件之前，就把注意力鎖定在某個看似合理的候選答案上。此後的所有搜索都圍繞這個候選答案展開，變成了"找證據來支持我的猜測"，而不是"繼續尋找真相"。一旦提交，這個答案表面上看有證據支撐，實際上卻違反了題目的完整要求。

第二種叫"證據分支未合併"。模型對每個條件分別進行了搜索，每次搜索都建立了一個獨立的證據分支，但這些分支從未被匯總到同一個候選名單里進行交叉比對。軌跡看起來很系統，好像每個線索都查了，但候選名單在每一步之後都是混亂的，最終給出的答案其實沒有通過所有條件的驗證。

第三種叫"中間結果角色綁定錯誤"。模型沿著一條看似合理的搜索鏈條走下去，卻在某個中間步驟把一個結果套用到了錯誤的角色上。特別是當題目需要在不同步驟之間切換實體類型時，一個高曝光度的實體很容易"搶占"本應屬於另一個目標實體的位置，導致最後的答案雖然在局部邏輯上說得通，但整個推理鏈條其實早就偏離了軌道。

---

六、搜索次數越多，表現就越好嗎？

面對這些低分，有人可能會想：是不是給AI的搜索次數太少了？如果放開限制，讓AI多搜幾次，會不會找到答案？

研究團隊對此進行了專門分析，結論是：搜索次數並不是主要瓶頸。數據顯示，對於大多數模型，答錯的題比答對的題使用了更多的搜索次數，而且往往接近10次的上限。GPT-5.5在答對的題上平均用了7.08次搜索，在答錯的題上平均用了9.30次——答錯時搜得更多，但仍然沒有找到答案。DeepSeek-V4-Pro的數據是7.47次對9.80次，Gemma-4-31B-IT是5.20次對8.10次。

贊助商廣告

這個發現說明，模型在答錯的題上並不是因為"搜索不夠努力"而失敗的，而是因為即便搜索了很多次，依然無法有效地把資訊整合起來。搜索量是成功的弱預測因子，真正的關鍵在於模型能否在多次搜索之間維持一致的候選集合、約束條件和實體角色狀態。

幾個韓國本土模型在這方面的表現尤為值得關注。A.X-4.0在答對和答錯的題目上，平均搜索次數分別只有2.38次和1.43次，遠低於其他模型，說明它往往在嘗試不多的情況下就提前放棄了搜索。HyperCLOVAX-SEED-Think-32B在答對和答錯的題目上搜索次數幾乎沒有差別，分別是6.71次和6.84次，說明它的問題不在於搜索努力程度，而在於無法從搜索結果中穩定地提煉出最終答案。Kanana-2-30B-A3B-Thinking-2601則更加特殊，它經常連有效的工具調用格式都無法正確輸出，導致很多搜索根本沒能執行，這是一種最基礎的協議層面的失敗，與內容理解能力無關。

---

七、能讓AI來出題嗎？——機器生成的100道"壓力測試題"

測試集的第二個部分，是研究團隊在方法論上的一個創新嘗試。他們想探索一個問題：既然解題很難，那出題容不容易？

這個問題背後有一個重要的資訊不對稱：對於網路搜索類任務，解題可能非常困難，但一旦知道了正確答案和證據路徑，驗證一個候選答案就相對容易了。研究團隊認為，這種不對稱同樣存在於出題端——如果已經有了一個目標答案和對應的網頁，反向設計出一道難題，是否比正向找到答案更容易？

為了驗證這個想法，他們讓一個能上網的AI智能體（使用claude-opus-4.7）扮演出題者的角色。這個AI的工作流程如下：先訪問一個目標網頁，然後以"逆向設計韓國AI界的聯考難題當頂級AI遇上韓語網路搜索為何集體翻車來自中央大學KAIST首爾國立大學等六所機 "的方式編寫一道題目——也就是從答案出發，構建一條需要多步推理才能到達答案的問題路徑，同時刻意隱藏答案本身、來源網址和頁面上最顯眼的實體名稱，並且針對已經歸納出的某個特定失敗模式來設計難點。每道題經過至多四輪"草稿→測試→修改"的疊代才能定稿。

贊助商廣告

每道候選題必須通過三道順序排列的過濾關卡，只要未能通過任意一關，就會被退回修改。第一關是"可搜索性測試"：讓AI自己搜幾下，如果答案直接出現在搜索結果里，說明題目太容易，需要改寫成更難被直接找到的版本。第二關是"良構性測試"：給一個"參考解題者"完整的目標網頁和題目，看它能不能從頁面中唯一、可靠地找到答案，確保題目的答案是客觀存在且不歧義的。第三關是"對抗難度測試"：讓一個只能上網搜索、不能直接訪問目標頁面的"搜索解題者"來作答，只有當GPT-5.4-mini和Gemini-3-flash-preview兩個模型都答錯（包括答錯和明確表示不知道兩種情況），這道題才算通過。

在268道候選題中，最終有100道通過了所有過濾，通過率約37.3%。這100道題的主要難點集中在第五種失敗模式"半結構化頁面解析"（59道）和第八種"約束追蹤"（21道），其次是第三種"搜索訪問結構失敗"（14道）和第九種"中間推理失敗"（13道）。被淘汰的168道題，主要失敗原因是答案在搜索結果中太容易被直接找到，還有66道是因為其中一個模型答對了，無法滿足"兩個模型都答錯"的要求。

這100道機器生成的題目，在內容分布上與人工驗證的300道有所不同。娛樂與媒體類題目的比例從36.3%大幅降至9.0%，而科技與學術類題目的比例則從6.7%猛增至33.0%。題目的平均字符數也從174.46增加到了248.40，變得更長、更複雜。研究團隊還用向量相似度的方式測試兩組題目的分布差異，發現一個簡單的分類器僅憑題目文本就能以0.8873的高精度區分兩組題目，說明它們在風格和領域上確實有明顯不同。正因如此，這100道合成題被單獨報告，作為一套補充性的"壓力測試"，而不是直接與人工題合併計算。

在這套壓力測試上，所有模型的得分都在0%到26%之間，沒有任何模型超過30%。GPT-5.5在這套題上得了26%，DeepSeek-V4-Pro得22%，GLM-5.1得19%，而GPT-5.4-mini因為在出題過濾階段就被設置為"必須答錯"的目標模型，所以得了0%——這是設計如此，並非真實能力體現。這些數字表明，機器輔助的出題方式，在研究團隊歸納的失敗模式框架引導下，確實能夠生成足夠有挑戰性的診斷題。

贊助商廣告

---

八、為什麼韓國本土的大模型表現這麼差？

研究團隊對韓國本土模型的失敗模式進行了更細緻的分析，每個模型的問題各有不同，不能簡單歸結為一個原因。

A.X-4.0是建立在Qwen2.5基礎上、專門用韓國數據做過持續預訓練的模型。它的主要問題是"淺層證據控制"：模型往往只是掃了一眼搜索結果的片段，就草率地得出結論，而沒有把這些片段整合成一個可以逐步篩選的候選名單。在搜索次數上，它也是所有模型里最保守的，顯示出一種"看了兩眼就算了"的搜索習慣，而不是堅持追蹤證據鏈直到所有條件都得到驗證。

K-EXAONE-236B-A23B參數量非常大，但它的問題出在"跨源鏈條漂移"上：它能成功地完成第一步搜索，找到目標事件或目標實體的線索，但在接下來的搜索中，這個中間實體逐漸"失憶"，後續搜索開始偏向其他相關但並不正確的實體。這說明，單靠堆砌參數量並不能解決長鏈條推理中的狀態維護問題。

HyperCLOVAX-SEED-Think-32B的問題在於"答案終結能力不足"：它能啟動一個合理的搜索過程，但很難把這個過程收斂到一個格式正確、內容明確的最終答案。它的正確試次和錯誤試次在搜索次數上幾乎沒有差別，說明失敗不是因為搜索不努力，而是因為不知道什麼時候應該停下來給出答案。

Kanana-2-30B-A3B-Thinking-2601則面臨最基礎的問題——工具調用協議兼容性。這個模型在測試框架下經常輸出格式錯誤的工具調用指令，導致搜索根本無法執行，整個測試流程就此中斷。研究團隊認為，這反映的是對工具使用範式的適配不完整，而不是內容理解能力的問題。

---

九、這項研究告訴了我們什麼，以及接下來該怎麼做？

歸根結底，這項研究揭示的核心問題可以用一句話概括：當今的AI模型，包括全球最強的那些，在面對真實的韓語網路搜索任務時，最大的瓶頸不是"搜不到"，而是"整合不了"。

贊助商廣告

模型可以訪問正確的網站，可以找到相關的段落，但它往往無法像一名真正的偵探那樣，把來自不同地方的碎片化線索拼接成一個完整的、前後一致的答案。候選名單在追蹤過程中悄悄換了對象，約束條件在跨越多個搜索步驟後逐漸被遺忘，中間實體在從一個網站跳到另一個網站時發生了"角色混淆"——這些問題，不是更多的搜索次數能夠解決的，也不是更大的模型參數量能夠自動修復的。

對於韓國本土的AI研發團隊來說，K-BROWSECOMP提供了一個清晰的診斷靶標：不同模型在不同階段出現了不同類型的瓶頸，解決方案需要有針對性，而不是籠統地"增加數據量"或"擴大模型規模"。對於全球AI領域來說，這項研究也提出了一個更宏觀的命題：在非英語、文化特異性強的語言環境中構建真正有用的搜索智能體，需要的不只是語言能力，還需要更強的長程狀態維護和多源證據整合能力。

這項研究的數據集、評估代碼和所有問題都已開源，感興趣的研究者和開發者可以通過arXiv編號2606.02404查閱完整論文，也可以通過GitHub項目prometheus-eval/K-BrowseComp獲取相關資源。

---

Q&A

Q1：K-BROWSECOMP測試的是AI的什麼能力？

A：K-BROWSECOMP測試的是AI在韓語網路環境中進行多步推理搜索的能力，具體包括：能否通過多個網站的證據逐步推理得出唯一正確答案，以及在整個搜索過程中能否持續追蹤候選答案、記住約束條件、不混淆不同來源的實體資訊。它不是考察AI懂不懂韓語，而是考察AI能不能像一個熟悉韓國本地網路的偵探一樣，在真實複雜的資訊環境中找到答案。

Q2：韓國本土大模型在K-BROWSECOMP上為什麼表現這麼差？

A：研究發現韓國本土模型的失敗原因各不相同。A.X-4.0搜索次數少且過早下結論，沒有把證據整合成候選名單；K-EXAONE-236B-A23B能完成第一步搜索但後續會"忘記"中間結果，鏈條追蹤能力弱；HyperCLOVAX-SEED-Think-32B搜索努力但無法收斂出一個明確答案；Kanana-2-30B-A3B-Thinking-2601甚至連工具調用格式都經常出錯，導致搜索無法執行。總體來看，問題不在於不懂韓語，而在於長鏈條推理中的狀態管理能力不足。

贊助商廣告

Q3：為什麼GPT-5.5在英語版本上表現很好，換到韓語版本就差了這麼多？

A：英語版BrowseComp中GPT-5.5得分84.4%，換到K-BROWSECOMP只有45.67%，降幅將近40個百分點。這種差距反映了韓語網路環境的特殊性：韓國本地機構頁面、考試材料、文化媒體內容的結構和資訊密度與英語網頁差異很大，很多答案隱藏在半結構化的表格、排名頁面或需要特定搜索習慣才能訪問的本地網站中。模型對韓語網路的搜索慣例、頁面結構和實體命名方式的適應能力，明顯不如處理英語內容時成熟。