宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

韓國AI界的「聯考難題」:當頂級AI遇上韓語網路搜索,為何集體「翻車」?——來自中央大學、KAIST、首爾國立大學等六所機構的聯合研究

2026年06月05日 首頁 » 熱門科技

這項由中央大學、韓國科學技術院(KAIST)、首爾國立大學、OnelineAI、NAVER Cloud AI和卡內基梅隆大學聯合完成的研究,於2026年6月發表,論文編號為arXiv:2606.02404。研究團隊發布了一個名為K-BROWSECOMP韓國AI界的聯考難題當頂級AI遇上韓語網路搜索為何集體翻車來自中央大學KAIST首爾國立大學等六所機的基準測試集,專門用於測量AI在韓語網路環境中的"偵查"能力。

要弄清楚這項研究在做什麼,不妨把整件事想像成一場偵探遊戲。一名優秀的偵探,不僅要能讀懂線索,還要能在茫茫資訊海洋中順著蛛絲馬跡,一路追蹤到最終的答案。這項研究的核心問題就是:當今最強大的AI,在韓語這片"資訊叢林"里,究竟算是一名合格的偵探,還是一個迷路的新手?

答案多少有些令人意外——就連全球公認最強大的AI模型,在這套測試里也只能答對不到一半的題目,而韓國本土的AI模型,表現甚至更加慘澹。

---

一、為什麼需要一套專門測試韓語AI"偵探能力"的試卷?

在AI領域,評估一個模型的能力,通常要靠"基準測試"——也就是一套專門設計的題目,就像期末考試一樣,用來檢驗AI到底學得好不好。過去幾年,全球最頂尖的AI實驗室已經把評估重心從"會不會做閱讀理解"轉移到了"能不能像人一樣自主完成複雜任務"。後者被稱為"智能體評估韓國AI界的聯考難題當頂級AI遇上韓語網路搜索為何集體翻車來自中央大學KAIST首爾國立大學等六所機",考察的是AI在多個步驟之間協調配合、自主決策的能力,就像考察一名偵探能不能從頭到尾獨立破案,而不僅僅是認識幾個單詞。

然而,在這場評估革命中,韓語AI界卻有些掉隊。韓國目前的AI測試,大多還停留在"考詞彙、考閱讀"的階段,缺乏針對複雜任務的測試工具。這造成了一個現實困境:研究者們無法準確知道,韓國本土的AI在面對真實用戶需求時,究竟表現如何。

這種缺失不僅僅是技術上的遺憾,背後還有更深層的現實考量。韓國的語言使用人口相對有限,網路上的韓語內容在規模和覆蓋面上天然不如英語,這意味著當用戶需要查詢韓國本地的機構資訊、文化知識、地理數據時,AI的表現可能遠不如處理英語問題時穩定。換句話說,韓國用戶在使用AI助手時,面臨的是一種結構性的資訊不平等。

正是為了填補這個空白,研究團隊建立了K-BROWSECOMP,一套專門針對"韓語網路搜索智能體"的測試集,用400道精心設計的題目,檢驗AI能否在韓語網際網路的複雜環境中,像一名熟練的偵探一樣找到正確答案。

---

二、這套試卷究竟在考什麼?它的題目有多難?

K-BROWSECOMP的設計靈感來自一個已有的英語測試項目BrowseComp,但它並不是簡單的翻譯。研究團隊特別強調,這套題目必須"紮根於韓國語境",也就是說,每道題都要涉及韓國特有的機構、文化現象、教育體系、地方地理或媒體內容,單靠查英語資料或依賴通用知識根本無法作答。

每道題都必須滿足幾個嚴格標準。答案必須是唯一的、不會隨時間變化的具體資訊,而且必須可以在公開的網頁上找到文字證據。題目不能直接通過搜索關鍵詞找到答案——必須經過至少四個步驟的推理或同時滿足至少四個獨立條件,才能鎖定正確答案。

這套測試包含兩種題型,它們代表了兩種不同的偵探工作模式。第一種叫做"多跳推理韓國AI界的聯考難題當頂級AI遇上韓語網路搜索為何集體翻車來自中央大學KAIST首爾國立大學等六所機",就像偵探順著線索鏈條一步一步追蹤:先找到A,用A去找B,用B再去找C,最終得出答案。第二種叫做"並行約束滿足韓國AI界的聯考難題當頂級AI遇上韓語網路搜索為何集體翻車來自中央大學KAIST首爾國立大學等六所機",就像偵探面對一群嫌疑人,必須同時核實多個獨立條件,找出唯一同時滿足所有條件的那一個人。

以論文中給出的兩個示例來感受一下難度。第一道題是這樣的:2025年發行的某張專輯的第四首歌曲,題目去掉空格後是五個字,歌詞中出現了七次"???"(沒關係),這首歌是什麼?第二道題則更為複雜:韓國教育課程評估院2018年6月針對高三學生舉行的模擬考試,國語科目第29題考查的作品,該作品的詩人在生前出版的第十本詩集中,排在第十三位的那首詩,題目是什麼?

僅僅讀一遍這兩道題,就能感受到它們對人類來說也並不輕鬆,更別提AI了。

---

三、人工驗證的300道題是怎麼煉成的?

測試集分為兩個部分。第一部分是"已驗證子集",共300道題,全部由真人韓語母語者手工編寫和驗證。研究團隊召集了17名標註人員,包括研究人員和非研究人員,給他們一份詳細的編寫指南,要求他們從一個已知的目標事實出發,反向設計出一道難以直接搜索但答案容易核實的問題。

這個"反向設計"的思路非常關鍵,好比一名出題老師已經知道答案是"埃菲爾鐵塔建於1889年",然後繞開這個資訊,設計一道需要通過五步推理才能得出這個答案的題目,而不是直接問"埃菲爾鐵塔建於哪年"。

編寫完成的題目要經過嚴格的審核流程。研究團隊會逐一檢查每道題的金標準答案、中間實體和引用來源是否都能在公開網頁上找到。如果證據無法訪問、不充分或相互矛盾,題目就會被退回給原作者修改。審核過程中還有一道特別的關卡:如果基線AI模型給出了一個和標準答案不同但同樣合理的答案,研究團隊會人工判斷這個答案是否也成立,如果成立,題目必須修改或刪除,以確保每道題的答案確實是唯一的。

最終通過審核的300道題,覆蓋了10個類別。娛樂與媒體是最大的類別,有109道題,占比超過三分之一。其次是地點與地區48道,教育與考試35道,體育與遊戲26道,科技與學術20道,美食餐飲19道,文學與語言15道,產品與品牌14道,歷史文化10道,以及經濟與政策4道。在題型分布上,多跳推理題160道占53.3%,並行約束題140道占46.7%,兩者相對均衡。

參與編寫的非研究人員按照每10至15道題約100,000韓元的標準獲得報酬,這個金額對應大約4小時的工作量,高於2025年韓國法定最低時薪。

---

四、AI模型在這場"偵探考試"里表現如何?

研究團隊選取了全球11個主流AI模型進行測試,覆蓋封閉源模型和開源模型兩大陣營,以及專門針對韓語優化的本土模型。所有模型使用統一的測試框架,每個問題最多允許進行10次網路搜索,並且只有一次回答機會。

測試結果在全球頂尖模型中,表現最好的是GPT-5.5,正確率45.67%,排在第二位的是GPT-5.4-mini和GLM-5.1,兩者並列30.67%,DeepSeek-V4-Pro緊隨其後,得分30.00%。

這些數字單獨看似乎還好,但一旦和同樣這些模型在英語版BrowseComp上的成績比較,差距就顯得觸目驚心了。GPT-5.5在英語版BrowseComp上得分84.4%,換到韓語版直接掉到了45.67%,降幅將近40個百分點。DeepSeek-V4-Pro在英語版得分83.4%,在韓語版只有30.00%,幾乎腰斬。這種斷崖式下滑,清楚地表明這些模型並沒有真正掌握韓語網路環境的特殊性,而不是普通的隨機波動。

再來看較小規模的開源模型,Gemma-4-31B-IT得分23.33%,超過了參數量更大的Qwen3.6-35B-A3B(12.00%),而Gemini-3.1-Flash-Lite僅11.33%,同樣不理想。

最令人印象深刻的是韓國本土模型的表現。K-EXAONE-236B-A23B是一個參數量高達2360億(其中約230億為激活參數)的龐大模型,也是韓國政府"自主AI基礎模型項目"資助的成果之一,但它在這套測試里只得了10.33%。A.X-4.0得分5.33%,HyperCLOVAX-SEED-Think-32B得分2.33%,而Kanana-2-30B-A3B-Thinking-2601則得了0分,完全沒有答對任何一道題。韓國本土模型整體得分範圍在0%至10.33%之間,與全球頂尖模型相比,差距超過了35個百分點。

研究團隊還額外計算了每個模型的"校準誤差韓國AI界的聯考難題當頂級AI遇上韓語網路搜索為何集體翻車來自中央大學KAIST首爾國立大學等六所機",這個指標衡量的是模型對自己答案的自信程度是否合理。如果一個模型對一個錯誤答案非常自信,或者對一個正確答案非常不確定,校準誤差就會很高。HyperCLOVAX-SEED-Think-32B的校準誤差高達77.37%,意味著它的自信程度和實際表現嚴重脫節,經常在答錯的時候反而最自信。GPT-5.5在這個維度上表現相對較好,校準誤差為31.86%,在高準確率和合理自信之間取得了相對較好的平衡。

---

五、AI究竟在哪個環節"掉鏈子"了?

光有分數還不夠,研究團隊還深入分析了模型的"偵查過程",試圖找出它們究竟在哪一步走錯了路。經過大量的人工審查,他們歸納出了九種典型的失敗模式,形成了一套系統的"錯誤分類表"。

第一種失敗是"軌跡不完整或輸出格式錯誤",最極端的情形——模型壓根沒能走完整個搜索流程,或者最終沒能給出一個格式正確的答案,就像偵探還沒勘察完現場就宣布放棄了。第二種是"初始搜索方向無效",模型一開始就選錯了搜索策略,就像偵探在面對一起發生在圖書館的案子時,第一反應是去檢查停車場的監控,完全跑偏了方向。第三種是"搜索訪問結構失敗",指模型無法訪問隱藏在複雜頁面結構後面的證據,比如需要按特定順序排列內容才能看到的資訊。第四種是"跨源跳轉失敗",指模型無法將來自不同網站的證據拼接在一起,就像偵探能分別看懂兩份文件,卻不知道這兩份文件講的是同一個人。第五種是"半結構化頁面解析失敗",指模型在面對表格、排名、資料庫等格式化內容時,讀錯了數據——比如看著一張成績單,卻把第三名的分數記成了第一名的。第六種是"搜索結果選擇失敗",指模型找到了相關證據,但選錯了具體來源或候選答案,就像偵探找到了幾個嫌疑人但指認錯了人。第七種是"稀疏實體歸一化失敗",指模型無法正確識別罕見人名、別名、不同拼寫方式或歷史名稱,比如一個歷史人物有好幾種不同的寫法,模型卻認為是不同的人。第八種是"約束追蹤失敗",指模型找到了部分候選答案,卻沒能驗證所有條件都得到滿足——這是最常見也最致命的問題之一。第九種是"中間推理失敗",指在需要進行日期計算、排序、計數或比較的步驟中出錯。

研究團隊進一步觀察到,很多錯誤並不發生在搜索階段,而是發生在搜索之後。換句話說,模型往往已經找到了正確的證據,卻在處理這些證據的過程中出了問題。這個發現非常關鍵,因為它意味著僅僅改善搜索能力是不夠的,真正需要解決的是模型在多步推理過程中維持"證據狀態"的能力。

研究團隊將反覆出現的錯誤模式歸納為三種典型的軌跡級故障韓國AI界的聯考難題當頂級AI遇上韓語網路搜索為何集體翻車來自中央大學KAIST首爾國立大學等六所機

第一種叫"候選人過早鎖定"。這發生在模型在驗證完所有上游條件之前,就把注意力鎖定在某個看似合理的候選答案上。此後的所有搜索都圍繞這個候選答案展開,變成了"找證據來支持我的猜測",而不是"繼續尋找真相"。一旦提交,這個答案表面上看有證據支撐,實際上卻違反了題目的完整要求。

第二種叫"證據分支未合併"。模型對每個條件分別進行了搜索,每次搜索都建立了一個獨立的證據分支,但這些分支從未被匯總到同一個候選名單里進行交叉比對。軌跡看起來很系統,好像每個線索都查了,但候選名單在每一步之後都是混亂的,最終給出的答案其實沒有通過所有條件的驗證。

第三種叫"中間結果角色綁定錯誤"。模型沿著一條看似合理的搜索鏈條走下去,卻在某個中間步驟把一個結果套用到了錯誤的角色上。特別是當題目需要在不同步驟之間切換實體類型時,一個高曝光度的實體很容易"搶占"本應屬於另一個目標實體的位置,導致最後的答案雖然在局部邏輯上說得通,但整個推理鏈條其實早就偏離了軌道。

---

六、搜索次數越多,表現就越好嗎?

面對這些低分,有人可能會想:是不是給AI的搜索次數太少了?如果放開限制,讓AI多搜幾次,會不會找到答案?

研究團隊對此進行了專門分析,結論是:搜索次數並不是主要瓶頸。數據顯示,對於大多數模型,答錯的題比答對的題使用了更多的搜索次數,而且往往接近10次的上限。GPT-5.5在答對的題上平均用了7.08次搜索,在答錯的題上平均用了9.30次——答錯時搜得更多,但仍然沒有找到答案。DeepSeek-V4-Pro的數據是7.47次對9.80次,Gemma-4-31B-IT是5.20次對8.10次。

這個發現說明,模型在答錯的題上並不是因為"搜索不夠努力"而失敗的,而是因為即便搜索了很多次,依然無法有效地把資訊整合起來。搜索量是成功的弱預測因子,真正的關鍵在於模型能否在多次搜索之間維持一致的候選集合、約束條件和實體角色狀態。

幾個韓國本土模型在這方面的表現尤為值得關注。A.X-4.0在答對和答錯的題目上,平均搜索次數分別只有2.38次和1.43次,遠低於其他模型,說明它往往在嘗試不多的情況下就提前放棄了搜索。HyperCLOVAX-SEED-Think-32B在答對和答錯的題目上搜索次數幾乎沒有差別,分別是6.71次和6.84次,說明它的問題不在於搜索努力程度,而在於無法從搜索結果中穩定地提煉出最終答案。Kanana-2-30B-A3B-Thinking-2601則更加特殊,它經常連有效的工具調用格式都無法正確輸出,導致很多搜索根本沒能執行,這是一種最基礎的協議層面的失敗,與內容理解能力無關。

---

七、能讓AI來出題嗎?——機器生成的100道"壓力測試題"

測試集的第二個部分,是研究團隊在方法論上的一個創新嘗試。他們想探索一個問題:既然解題很難,那出題容不容易?

這個問題背後有一個重要的資訊不對稱:對於網路搜索類任務,解題可能非常困難,但一旦知道了正確答案和證據路徑,驗證一個候選答案就相對容易了。研究團隊認為,這種不對稱同樣存在於出題端——如果已經有了一個目標答案和對應的網頁,反向設計出一道難題,是否比正向找到答案更容易?

為了驗證這個想法,他們讓一個能上網的AI智能體(使用claude-opus-4.7)扮演出題者的角色。這個AI的工作流程如下:先訪問一個目標網頁,然後以"逆向設計韓國AI界的聯考難題當頂級AI遇上韓語網路搜索為何集體翻車來自中央大學KAIST首爾國立大學等六所機"的方式編寫一道題目——也就是從答案出發,構建一條需要多步推理才能到達答案的問題路徑,同時刻意隱藏答案本身、來源網址和頁面上最顯眼的實體名稱,並且針對已經歸納出的某個特定失敗模式來設計難點。每道題經過至多四輪"草稿→測試→修改"的疊代才能定稿。

每道候選題必須通過三道順序排列的過濾關卡,只要未能通過任意一關,就會被退回修改。第一關是"可搜索性測試":讓AI自己搜幾下,如果答案直接出現在搜索結果里,說明題目太容易,需要改寫成更難被直接找到的版本。第二關是"良構性測試":給一個"參考解題者"完整的目標網頁和題目,看它能不能從頁面中唯一、可靠地找到答案,確保題目的答案是客觀存在且不歧義的。第三關是"對抗難度測試":讓一個只能上網搜索、不能直接訪問目標頁面的"搜索解題者"來作答,只有當GPT-5.4-mini和Gemini-3-flash-preview兩個模型都答錯(包括答錯和明確表示不知道兩種情況),這道題才算通過。

在268道候選題中,最終有100道通過了所有過濾,通過率約37.3%。這100道題的主要難點集中在第五種失敗模式"半結構化頁面解析"(59道)和第八種"約束追蹤"(21道),其次是第三種"搜索訪問結構失敗"(14道)和第九種"中間推理失敗"(13道)。被淘汰的168道題,主要失敗原因是答案在搜索結果中太容易被直接找到,還有66道是因為其中一個模型答對了,無法滿足"兩個模型都答錯"的要求。

這100道機器生成的題目,在內容分布上與人工驗證的300道有所不同。娛樂與媒體類題目的比例從36.3%大幅降至9.0%,而科技與學術類題目的比例則從6.7%猛增至33.0%。題目的平均字符數也從174.46增加到了248.40,變得更長、更複雜。研究團隊還用向量相似度的方式測試兩組題目的分布差異,發現一個簡單的分類器僅憑題目文本就能以0.8873的高精度區分兩組題目,說明它們在風格和領域上確實有明顯不同。正因如此,這100道合成題被單獨報告,作為一套補充性的"壓力測試",而不是直接與人工題合併計算。

在這套壓力測試上,所有模型的得分都在0%到26%之間,沒有任何模型超過30%。GPT-5.5在這套題上得了26%,DeepSeek-V4-Pro得22%,GLM-5.1得19%,而GPT-5.4-mini因為在出題過濾階段就被設置為"必須答錯"的目標模型,所以得了0%——這是設計如此,並非真實能力體現。這些數字表明,機器輔助的出題方式,在研究團隊歸納的失敗模式框架引導下,確實能夠生成足夠有挑戰性的診斷題。

---

八、為什麼韓國本土的大模型表現這麼差?

研究團隊對韓國本土模型的失敗模式進行了更細緻的分析,每個模型的問題各有不同,不能簡單歸結為一個原因。

A.X-4.0是建立在Qwen2.5基礎上、專門用韓國數據做過持續預訓練的模型。它的主要問題是"淺層證據控制":模型往往只是掃了一眼搜索結果的片段,就草率地得出結論,而沒有把這些片段整合成一個可以逐步篩選的候選名單。在搜索次數上,它也是所有模型里最保守的,顯示出一種"看了兩眼就算了"的搜索習慣,而不是堅持追蹤證據鏈直到所有條件都得到驗證。

K-EXAONE-236B-A23B參數量非常大,但它的問題出在"跨源鏈條漂移"上:它能成功地完成第一步搜索,找到目標事件或目標實體的線索,但在接下來的搜索中,這個中間實體逐漸"失憶",後續搜索開始偏向其他相關但並不正確的實體。這說明,單靠堆砌參數量並不能解決長鏈條推理中的狀態維護問題。

HyperCLOVAX-SEED-Think-32B的問題在於"答案終結能力不足":它能啟動一個合理的搜索過程,但很難把這個過程收斂到一個格式正確、內容明確的最終答案。它的正確試次和錯誤試次在搜索次數上幾乎沒有差別,說明失敗不是因為搜索不努力,而是因為不知道什麼時候應該停下來給出答案。

Kanana-2-30B-A3B-Thinking-2601則面臨最基礎的問題——工具調用協議兼容性。這個模型在測試框架下經常輸出格式錯誤的工具調用指令,導致搜索根本無法執行,整個測試流程就此中斷。研究團隊認為,這反映的是對工具使用範式的適配不完整,而不是內容理解能力的問題。

---

九、這項研究告訴了我們什麼,以及接下來該怎麼做?

歸根結底,這項研究揭示的核心問題可以用一句話概括:當今的AI模型,包括全球最強的那些,在面對真實的韓語網路搜索任務時,最大的瓶頸不是"搜不到",而是"整合不了"。

模型可以訪問正確的網站,可以找到相關的段落,但它往往無法像一名真正的偵探那樣,把來自不同地方的碎片化線索拼接成一個完整的、前後一致的答案。候選名單在追蹤過程中悄悄換了對象,約束條件在跨越多個搜索步驟後逐漸被遺忘,中間實體在從一個網站跳到另一個網站時發生了"角色混淆"——這些問題,不是更多的搜索次數能夠解決的,也不是更大的模型參數量能夠自動修復的。

對於韓國本土的AI研發團隊來說,K-BROWSECOMP提供了一個清晰的診斷靶標:不同模型在不同階段出現了不同類型的瓶頸,解決方案需要有針對性,而不是籠統地"增加數據量"或"擴大模型規模"。對於全球AI領域來說,這項研究也提出了一個更宏觀的命題:在非英語、文化特異性強的語言環境中構建真正有用的搜索智能體,需要的不只是語言能力,還需要更強的長程狀態維護和多源證據整合能力。

這項研究的數據集、評估代碼和所有問題都已開源,感興趣的研究者和開發者可以通過arXiv編號2606.02404查閱完整論文,也可以通過GitHub項目prometheus-eval/K-BrowseComp獲取相關資源。

---

Q&A

Q1:K-BROWSECOMP測試的是AI的什麼能力?

A:K-BROWSECOMP測試的是AI在韓語網路環境中進行多步推理搜索的能力,具體包括:能否通過多個網站的證據逐步推理得出唯一正確答案,以及在整個搜索過程中能否持續追蹤候選答案、記住約束條件、不混淆不同來源的實體資訊。它不是考察AI懂不懂韓語,而是考察AI能不能像一個熟悉韓國本地網路的偵探一樣,在真實複雜的資訊環境中找到答案。

Q2:韓國本土大模型在K-BROWSECOMP上為什麼表現這麼差?

A:研究發現韓國本土模型的失敗原因各不相同。A.X-4.0搜索次數少且過早下結論,沒有把證據整合成候選名單;K-EXAONE-236B-A23B能完成第一步搜索但後續會"忘記"中間結果,鏈條追蹤能力弱;HyperCLOVAX-SEED-Think-32B搜索努力但無法收斂出一個明確答案;Kanana-2-30B-A3B-Thinking-2601甚至連工具調用格式都經常出錯,導致搜索無法執行。總體來看,問題不在於不懂韓語,而在於長鏈條推理中的狀態管理能力不足。

Q3:為什麼GPT-5.5在英語版本上表現很好,換到韓語版本就差了這麼多?

A:英語版BrowseComp中GPT-5.5得分84.4%,換到K-BROWSECOMP只有45.67%,降幅將近40個百分點。這種差距反映了韓語網路環境的特殊性:韓國本地機構頁面、考試材料、文化媒體內容的結構和資訊密度與英語網頁差異很大,很多答案隱藏在半結構化的表格、排名頁面或需要特定搜索習慣才能訪問的本地網站中。模型對韓語網路的搜索慣例、頁面結構和實體命名方式的適應能力,明顯不如處理英語內容時成熟。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新