俄亥俄州立大學打造出「全能深度研究助手」——只用8000道合成題，就讓AI研究能力追平頂級商業系統

這項由俄亥俄州立大學與亞馬遜AGI 俄亥俄州立大學打造出全能深度研究助手只用8000道合成題就讓AI研究能力追平頂級商業系統舊金山實驗室聯合開展的研究，於2026年5月以預印本形式發布在arXiv平台，編號為arXiv:2605.24218。研究團隊推出了一套名為Quest的開源AI深度研究智能體家族，模型規模從20億參數跨越至350億參數，在八項主流深度研究評測基準上的綜合表現超越了現有所有開源模型，並在多個指標上接近甚至超過了OpenAI DeepResearch等頂級商業系統。

贊助商廣告

在我們的日常工作和學習中，"查資料"這件事正在經歷一場悄然的革命。傳統搜尋引擎能幫你找到一堆相關網頁，但把這些網頁里的內容整理成一份有條理、有引用來源的分析報告，還是得靠你自己埋頭苦讀幾個小時。近年來，OpenAI、Google等科技巨頭相繼推出了所謂的"深度研究"功能，能自動搜索、閱讀、分析網頁並生成帶有引用鏈接的專業報告——但這些功能全都是封閉的商業產品，外界無從知曉其背後的訓練方法和數據來源。

俄亥俄州立大學的研究團隊瞄準了這個空白。他們的問題是：有沒有可能僅靠完全由機器自動生成的訓練題目，就培養出一個在各類深度研究任務上都表現出色的AI助手？他們給出的答案，就是Quest。

一、為什麼"全能"比"專能"更難

在理解Quest之前，有必要先搞清楚深度研究這件事到底難在哪裡。研究團隊將深度研究任務拆解為三種核心能力，這三種能力的關係就像一個廚師需要同時掌握選材、烹飪和擺盤三項技能，缺一不可。

第一種能力是**事實檢索**：給定一個具體問題，比如"哪位建築師設計了《麥田裡的守望者》作者居住了數十年的那棟房子"，AI需要通過多輪網路搜索和網頁閱讀，從海量資訊中挖掘出藏得很深的答案。這類任務有點像偵探辦案——線索散落在各處，需要耐心拼湊。BrowseComp就是專門測試這種能力的基準，出題者刻意選擇了那些普通搜索很難一次命中的"刁鑽"問題。

第二種能力是**報告合成**：給定一個開放性課題，比如"評估蘋果公司進軍摺疊屏手機市場的戰略布局"，AI需要廣泛閱讀多方資料，將不同來源的資訊提煉、整合，最終輸出一篇結構清晰、觀點有據、可供決策參考的完整報告。DeepResearch Bench正是評估這種能力的基準，其評分不看單一答案的對錯，而是綜合考量報告的覆蓋面、洞察力、邏輯性和可讀性。

贊助商廣告

第三種能力是**引用溯源**：無論是回答事實問題還是撰寫分析報告，AI給出的每一條關鍵陳述都應當附上可驗證的網頁鏈接，讓讀者能夠自行核實資訊來源。Mind2Web 2專門測試這種"邊說邊註腳"的能力。

現有的開源研究智能體普遍存在一個短板：它們往往在某一類任務上表現亮眼，但換了任務類型就掉鏈子。原因說到底在於訓練數據的"偏食"——用什麼類型的題目訓練，模型就擅長什麼類型的任務。要打造一個真正全能的研究助手，就必須找到一種統一的方法，同時生成覆蓋這三類能力的高質量訓練數據，並且這套數據還得能夠自動評分、無需人工標註。這正是Quest研究的核心挑戰所在。

二、一棵"評分樹"統領所有題型

Quest解決訓練數據問題的核心發明，是一種叫做**評分樹（Rubric Tree）**的數據結構。你可以把它理解成一份多層次的評分清單，但這個清單不是平鋪直敘的，而是像一棵樹一樣層層分支。

樹的根節點代表最終得分，根節點下面分叉出若干子節點，每個子節點對應一條評分標準。子節點可以繼續向下分叉，直到葉子節點——葉子節點代表一條最具體、可以直接用程序判斷"滿足/不滿足"的要求。比如對於"識別2024年美國兩起李斯特菌疫情"這道題，樹的結構是：根節點要求"正確識別兩起疫情並比較死亡人數"，根節點分叉出"識別第一起疫情（Boar's Head品牌，死亡10人）"和"識別第二起疫情（Rizo-López品牌，死亡2人）"兩個子節點，再下一層則要求提供支持該答案的網頁鏈接。每個葉子節點的得分是0或1，分數從下到上逐層匯聚，最終得出一個介於0到1之間的綜合分數。

這棵樹的精妙之處在於它的通用性。對於有標準答案的客觀題，樹的葉子節點直接核查具體事實是否正確；對於沒有唯一答案的開放性報告題，葉子節點則核查報告是否覆蓋了某個議題、是否引用了可信來源、行文是否清晰流暢。換句話說，不同類型的題目可以共用同一套樹狀評分框架，只是葉子節點的具體內容不同。這讓研究團隊得以用一套統一的流程生成覆蓋三類能力的訓練數據，而無需為每類任務單獨設計評估邏輯。

贊助商廣告

這棵樹還解決了強化學習中的一個老大難問題：獎勵信號太粗糙。過去，訓練AI做研究任務時，通常只能給一個"對/錯"的二元反饋，模型做了一大堆推理，最後因為答案差了一個字就得了零分，這對學習極為不利。評分樹提供的是細粒度的部分得分——哪怕最終答案不完全正確，只要模型正確識別了其中某個關鍵事實、提供了有效的引用鏈接，就能得到相應的部分分數。這就好比老師批改作文時不只看結論對不對，而是逐段給分，讓學生知道哪裡做得好、哪裡還需要改進。

三、機器自己出題自己驗題：數據合成流水線

有了評分樹這個框架，Quest的數據合成流水線就可以運轉起來了。整個流程的關鍵特點是**全自動**——從出題到建樹到生成評分腳本，全部由機器完成，不需要人工標註。

對於客觀題，流程是這樣運作的：系統首先從Google Trends抓取當前熱門關鍵詞，這一步確保生成的題目具有時效性，反映真實的用戶資訊需求，而不是閉門造車。然後，系統讓一個強大的語言模型（研究中使用的是Claude Sonnet 4.5）扮演"探索者"角色，自主在網路上搜索與這些關鍵詞相關的內容，從搜索結果中提煉出一組可以被客觀驗證的約束條件，並將這些約束條件組織成一棵評分樹。評分樹經過多輪自動精煉和驗證，確保邏輯自洽、每個節點都有明確的判斷標準。通過驗證的評分樹再被轉換成自然語言問題，最後由GPT-5生成一段可直接執行的Python程序，這段程序就是該題的"自動閱卷機"——給定一份AI的回答，程序逐節點核查，輸出最終得分。

整個過程中，從17000道初始生成的客觀題，經過評分樹精煉、邏輯驗證、Python腳本可執行性檢查等多道篩選，最終保留了約5934道高質量客觀題。篩選率不到35%，可見質量門檻之嚴格。

開放性報告題的流程與客觀題大體相似，但有幾處關鍵差異。評分樹的第二層節點是固定的四個維度——指令遵循、覆蓋全面性、可讀性、洞察力——這四個維度直接沿用了DeepResearch Bench的評估框架；第三層則是由模型根據具體題目自適應生成的子標準。評分時，系統會先讓模型為每道題生成一份"參考報告"，然後在評分階段同時給被測模型的回答和參考報告評分，最終以"候選報告得分 ÷（候選報告得分 + 參考報告得分）"作為歸一化後的相對分數。當這個比值超過0.5，意味著候選報告質量已超過參考報告。之所以採用這種相對評分而非絕對評分，是因為純粹的絕對評分容易出現"分數虛高"問題——沒有對比參照時，評分模型傾向於給所有回答打高分，區分不出好壞。

贊助商廣告

四、不讓AI在"長途旅行"中迷路：上下文管理機制

深度研究任務天生是"長途旅行"——AI需要搜索數十個關鍵詞、閱讀數十個網頁、經歷數百輪推理，才能最終給出答案。現有大語言模型都有"上下文窗口"的限制，就像工作記憶有上限一樣，一旦搜索記錄和閱讀筆記積累得太多，最早的內容就會被"擠出窗口"，AI就會忘記自己之前發現了什麼，開始重複已經做過的搜索，甚至前後矛盾。

Quest的應對方案是內置一套**上下文管理機制**，核心是一個叫做"上下文濃縮器"的模組。當AI的工作記憶快要裝滿時，這個模組會介入，把迄今為止所有的搜索記錄、網頁摘要和推理軌跡壓縮成一份結構化的JSON文件，也就是所謂的"上下文狀態"，然後清空工作記憶，讓AI在新鮮的工作空間裡繼續工作，但隨身攜帶著這份壓縮後的知識摘要。

這份JSON摘要並不是把所有資訊一鍋燴地壓縮，而是將已有知識分門別類地存入三個"抽屜"。第一個抽屜存放**可信事實**：AI已經通過訪問網頁核實過的資訊，附有來源網址，可以直接引用，無需重新核查。第二個抽屜存放**不可信聲明**：AI發現的、已被其他來源反駁或質疑的資訊，附有被質疑的原因，以便AI在後續推理中繞開這些"地雷"。第三個抽屜存放**待核實線索**：AI遇到過但尚未確認的資訊，每條線索都附有一個明確的"下一步行動"——比如"訪問某個具體網址"或"以某個關鍵詞重新搜索"。當AI恢復工作時，它會優先處理這些待核實線索，而不是茫然地重新開始。

這套機制讓Quest能夠在不受模型原生上下文窗口限制的情況下無限延伸研究深度。研究團隊發現，雖然訓練時的軌跡最多只有100步工具調用，但推理時Quest能夠流暢地完成超過200步的交互，證明上下文管理機制帶來的能力延伸效果是真實且穩定的。

五、三階段培訓：從零開始打造研究專家

有了數據和工具，Quest的訓練過程分為三個遞進的階段，就像培養一名研究員需要先學基礎知識、再做實習、最後靠實戰反饋精進一樣。

贊助商廣告

第一階段是**中間訓練**，目標是讓模型具備兩項基礎能力，而這兩項能力是後續深度研究所必需的。第一項是上下文摘要能力：給定一段很長的搜索和瀏覽歷史，模型需要將其壓縮成符合上述三抽屜格式的JSON摘要。訓練數據直接來源於SFT階段的軌跡收集過程——每當上下文濃縮器被觸發時，它的輸入輸出對就自然構成了中間訓練的樣本，所以這部分數據幾乎是"零成本"獲得的。第二項是網頁資訊提取能力：給定一份雜亂的HTML網頁和一個提取目標，模型需要過濾掉廣告、導航欄、無關內容，只保留與目標相關的核心資訊。這項能力的訓練數據來自"訪問"工具的緩存記錄——AI在實際運行中訪問的所有網頁及其提取摘要，自然構成了訓練對。這一階段使用了約31萬條上下文摘要樣本和超過100萬條網頁提取樣本，在32塊H100 GPU上訓練了約5天。

第二階段是**有監督微調**，讓模型直接模仿高質量的完整研究軌跡。研究團隊先讓Tongyi DeepResearch（阿里巴巴推出的深度研究系統）在Quest合成的訓練題目上進行實際搜索研究，生成完整的工具調用軌跡。如果生成的回答經評分樹評估後得分超過閾值（客觀題要求滿分，開放題要求相對分超過0.475），就將這條軌跡保留為訓練樣本。對於得分不達標的客觀題，系統會把評分樹的詳細反饋注入提示詞，讓Tongyi重新嘗試——這相當於給AI學生批改完作業後告知錯在哪裡，讓它重做一遍。整個過程共收集了約7028道題的有效軌跡，分解為約5萬個"會話級"訓練片段。

所謂"會話級"訓練是Quest的另一項重要設計：每條完整軌跡根據上下文濃縮被觸發的次數，被切分成若干個獨立會話段，每段都包含從上次濃縮開始到下次濃縮之間的完整交互。這樣切分有兩個好處：一是每個訓練片段的長度大幅縮短，使得用16塊H100 GPU就能處理原本需要巨大內存才能處理的超長軌跡；二是訓練單元與推理時的實際工作單元對齊，讓模型在訓練和推理時面對相同的資訊格式。

贊助商廣告

第三階段是**強化學習**，讓模型通過"做題→評分→反思→改進"的循環進一步提升能力。獎勵函數由兩部分組成。主體部分是評分樹獎勵：對於客觀題，直接使用Python腳本的評分結果；對於開放題，將連續的相對分數映射到四個離散獎勵檔（1.0、0.75、0.5、0.25、0），以減少分數微小波動帶來的噪聲。輔助部分是引用核實獎勵：系統從AI的回答中提取所有"事實陳述 + 來源網址"的引用對，實際訪問這些網址，由GPT-5-mini判斷網頁內容是否確實支持對應陳述，以有效引用占比作為獎勵。兩部分獎勵的合併公式是"0.75 × 評分樹獎勵 + 0.25 × min（引用獎勵, 評分樹獎勵）"，其中min操作符的作用是防止AI鑽空子——僅靠堆砌大量準確引用而實際上沒有解決問題就獲得高分。

六、實驗結果：8000道題換來的能力躍升

Quest-35B在八項基準上的表現，清晰地展示了這套訓練方案的實際效果。

在最能體現"深挖能力"的BrowseComp基準上，Quest-35B達到了64.6%的準確率（使用"捨棄所有舊上下文"策略），超過了OpenAI DeepResearch的51.5%，僅次於Gemini 3.1 Pro（85.9%）和Claude Opus 4.6（84.0%）等頂級商業系統。在測試引用溯源能力的Mind2Web 2上，Quest-35B以30.7%的成功率排名所有模型中的第一，超過了OpenAI DeepResearch的28.0%。在綜合性最強的DeepResearch Bench上，Quest-35B以48.2%的綜合分超過了OpenAI DeepResearch的47.0%，躋身所有模型前列。在考察廣泛事實檢索的GAIA基準上，Quest-35B以80.8%的準確率超過了GPT-5的76.4%，是所有模型中的最高分。

為了進行更公平的參數量對比，研究團隊還用同樣的訓練方案訓練了一個Quest-30B版本，與同規模的Tongyi DeepResearch和OpenResearcher正面比較。結果顯示：Quest-30B在八項基準中的四項上拿到最高分，包括Mind2Web 2和DeepResearch Bench；Tongyi DeepResearch在BrowseComp、HLE（人類最難考試）和GAIA三項上領先，因為它的訓練數據專門針對單一答案的事實檢索題；OpenResearcher在BrowseComp-Plus上領先，因為這是一個完全離線的基準，與其訓練數據分布高度匹配。這種"各有所長"的格局恰好印證了研究團隊的核心判斷：模型擅長什麼，取決於它被什麼數據訓練。Quest的訓練數據覆蓋面最廣，因此綜合能力最為均衡。

贊助商廣告

更令人意外的是小模型的表現。研究團隊還訓練了僅做第二階段有監督微調（不含強化學習）的2B、4B、9B版本。Quest-2B-SFT在HLE上達到了30.3%，在GAIA上達到了72.8%——後者甚至超過了OpenAI的o3模型（70.5%）。這說明Quest的合成數據質量之高，讓小模型在事實檢索類任務上也能達到令人印象深刻的水準。不過，小模型在需要綜合撰寫長篇報告的DeepResearch Bench和LiveResearchBench上仍然明顯落後於大模型，這提示報告合成能力對模型規模有更高的依賴。

七、走彎路也是收穫：四個失敗嘗試的啟示

研究團隊在論文中罕見地專門列出了四個"無效嘗試"，這些經驗對後來者頗有參考價值。

第一個失敗嘗試是在中間訓練階段加入"搜索結果預測"任務——讓模型在執行搜索之前，先預測搜索結果的摘要內容。這個想法來自此前有研究表明這類訓練能改善搜索類任務。結果發現，單獨加入時確實有幫助，但與Quest原有的上下文摘要任務混合後，整體性能反而下降。研究團隊推測，兩類任務的學習目標存在重疊和衝突——上下文摘要已經包含了對搜索結果的壓縮處理，再單獨學搜索預測會讓模型收到矛盾的學習信號。

第二個失敗嘗試是在中間訓練階段加入"錯誤識別"任務——給定一份AI生成的回答和對應的評分樹，讓模型預測回答中存在哪些問題。想法很直覺：如果模型能自己找到錯誤，自然就能在生成時避免犯錯。然而實驗表明這對整體性能幾乎沒有幫助。原因在於，中間訓練階段的模型無法訪問外部網頁，只能靠自身知識判斷錯誤；而真正有意義的深度研究錯誤往往是事實性的、需要查閱外部證據才能發現的，脫離了實際搜索環境，這個任務只能抓到表面的文風問題，無法觸及核心。

第三個失敗嘗試是用直接偏好優化（DPO）來改進開放題的報告質量——利用評分樹對兩份報告進行比較評分，讓模型學習偏好質量更高的那份。在實踐中，這種方法訓練不穩定，容易過擬合，最終改善幅度極為有限。研究團隊的診斷是：長篇報告在多個維度上同時存在差異，評分樹給出的分數差異未必反映真正有意義的質量區別，這使得偏好學習信號非常嘈雜。

贊助商廣告

第四個失敗嘗試與開放題的評分設計有關。最初團隊採用簡單的三分制（不滿足/部分滿足/滿足），結果大約50%的情況下所有回答都得到滿分，根本區分不了好壞——因為沒有參照基準時，評分模型傾向於"寬容"。隨後他們換成了三元勝負判斷（輸/平/贏），然而由於被訓練模型早期能力遠弱於參考模型，幾乎所有回答都被判為"輸"，獎勵信號崩潰為零，強化學習無從進行。這兩次失敗直接促成了最終版本中連續比值評分方案的設計：同時給候選回答和參考回答打連續分，以比值衡量相對質量，既有區分度，又不會因為早期模型能力較弱就讓信號全部歸零。

說到底，Quest的研究成果不僅僅是一套好用的開源模型，更是一份可供復現的完整方案。研究團隊將模型權重、訓練數據、數據合成腳本和訓練代碼全部開源，這在深度研究智能體這個領域是相當罕見的透明度。對於想要自己訓練定製化研究助手的團隊而言，這份"食譜"的價值甚至不亞於最終模型本身。

當然，Quest並非沒有局限。它在BrowseComp等需要極深搜索的任務上仍與頂級商業系統存在差距，推測原因之一是商業系統背後有更強的基礎模型和更大規模的訓練數據。此外，Quest目前的工具集不包含影片理解，也不處理非英語網站。更根本的挑戰在於，深度研究智能體的訓練和推理都依賴大量實時網路訪問，基礎設施成本和緩存管理的複雜度遠高於普通語言模型的訓練，這對資源有限的研究團隊構成了不小的門檻。

歸根結底，Quest證明了一件很有意思的事：培養一個"全才研究助手"並不需要海量的人工標註數據，也不需要神秘的專有技術，只需要一套設計精良的數據合成框架，加上合理的訓練流程編排。8000道機器自動生成的題目，配合三階段的訓練方案，就能讓一個開源模型的研究能力大幅接近甚至局部超過那些依託龐大商業資源打造的封閉系統。這個結論對整個AI研究社區都是一個鼓勵：開源路線在深度研究智能體這個賽道上，遠沒有達到天花板。有興趣深入了解技術細節的讀者，可以通過arXiv編號2605.24218找到完整論文，研究團隊還在Hugging Face平台上公開了模型權重（osunlp/QUEST-35B-RL）和演示應用。

贊助商廣告

---

Q&A

Q1：Quest和普通的搜索增強AI有什麼本質區別？

A：普通的搜索增強AI（RAG系統）通常只做一次檢索，找到相關段落後直接生成答案，更像是"帶搜索功能的問答機"。Quest屬於深度研究智能體，它會進行多輪疊代搜索——搜索→閱讀→發現新線索→再搜索→綜合所有證據→生成帶引用的完整報告，整個過程可能包含上百步操作。Quest還會主動管理自己的"記憶"，區分已確認資訊、待核實線索和已被推翻的內容，這是普通RAG系統完全不具備的能力。

Q2：評分樹（Rubric Tree）和普通的評分標準有什麼不同？

A：普通評分標準通常是一個平級的清單，比如"答案正確得1分，有引用加0.5分"。評分樹是層級結構，父節點的分數由子節點匯聚而來，而且支持"關鍵節點失敗則父節點直接為零"的邏輯。更重要的是，評分樹可以同時處理有標準答案的客觀題（葉子節點核查具體事實）和沒有標準答案的開放題（葉子節點核查覆蓋面、引用質量等維度），而且評分過程完全由程序自動完成，不需要人工閱卷。

Q3：Quest的上下文管理機制和直接用更大上下文窗口的模型相比有什麼優勢？

A：更大的上下文窗口確實能容納更多資訊，但存在兩個根本問題：一是隨著上下文變長，模型對"中間"內容的注意力會顯著下降，容易遺漏重要資訊；二是長上下文的推理成本（時間和算力）呈超線性增長，每一步推理都要處理巨量歷史記錄。Quest的上下文管理機制是主動壓縮：只保留已提煉的結構化知識（確認事實、待辦線索、已排除資訊），丟棄原始搜索結果和冗長推理過程，讓每一步推理都在較短的上下文中進行，同時又不丟失關鍵資訊。這使Quest能以有限的上下文窗口處理比原生窗口長數倍的研究任務。