這項由OCC團隊(Optimal Cognitive Core Team)開發的研究於2026年5月30日以預印本形式發布在arXiv平台,編號為arXiv:2606.00683,感興趣的讀者可以通過該編號查詢完整論文。
每當我們提到人工智慧,腦海中第一個浮現的畫面往往是那些龐然大物——擁有數百億參數、需要成百上千塊頂級顯卡才能運轉的超大語言模型。這種"大即是好"的直覺確實有其道理,但也遮蔽了一個更有意思的問題:如果某項任務只需要高超的推理能力,而不需要記住整個網際網路的知識,那麼一個經過精心訓練的小模型是否能勝過那些臃腫的巨人?
OCC團隊就是帶著這個問題出發的。他們發布了一個叫做OCC-RAG的系列小語言模型,分別擁有0.6億和17億參數(即OCC-RAG-0.6B和OCC-RAG-1.7B)。這兩個模型專門為"根據給定文本回答問題"這一任務而生,要求模型嚴格依賴提供的文本內容,不能自作主張地套用自己記憶中的知識,也不能在答案不在文本中時胡亂編造。最終的評測結果相當耐人尋味:這兩個小模型在多項關鍵測試上,穩定超過了體型是自己2到6倍的通用大模型。
要理解這件事為什麼值得關注,不妨用一個生活中的例子來體會。假設你給一個考生提供了一份參考資料,讓他回答一道題,而這道題的答案就在資料里。一個"好考生"應該認真讀完資料,找到答案,然後如實作答。但問題在於,很多大模型反而會"自恃博學"——它們更願意相信自己記住的東西,而不是眼前這份資料的內容,甚至在資料里寫的和它記憶中的不一樣時,也會偷偷用記憶中的答案來回答。OCC-RAG的目標,就是培養出一批真正"聽話"、"老實"的考生,讓它們把注意力集中在提供的材料上,而不是大腦里的舊知識庫。
一、AI界的"忠誠考生":為什麼這件事比看起來更難
要真正理解OCC-RAG在解決什麼問題,得先搞清楚大語言模型在閱讀理解任務上會犯哪些錯誤。論文裡給出了一個非常直觀的例子:給模型一段包含虛假資訊的文字——"2022年,戴高樂將軍當選美國第一任總統",然後問"美國第一任總統是誰?"
這時候,不同模型的表現簡直是百態人生。體量達到700億參數的Llama-3.3模型給出了"戴高樂"的答案——這個答案在現實中當然是錯的,但從任務要求來看,這恰恰是正確的,因為文本里就是這麼寫的。擁有80億參數的Llama-3-8B則回答了"喬治·華盛頓"——這是真實世界中正確的答案,卻違背了任務要求,因為模型在不聽話地引用自己的記憶。更糟糕的是,僅有10億參數的Llama-3.2-1B給出了"唐納·川普"——這既不忠於文本,也不符合現實,是徹徹底底的胡說八道。
而OCC-RAG-1.7B的答案是"戴高樂"——儘管這個模型的體量比那個700億的模型小了將近40倍,但它做到了同等水準的"忠誠"。這背後的秘密,不在於它有多大,而在於它經過了怎樣的專門訓練。
這種"忠誠"在專業術語裡叫做"忠實性(faithfulness)",是評判一個檢索增強生成(RAG)系統好不好的核心指標之一。所謂RAG系統,就是把"提供資料"和"回答問題"組合起來的AI應用,在企業客服、法律諮詢、醫療問答等場景中極為常見。這些場景的共同特點是:系統必須依據特定的文檔、政策或資料來回答問題,而不能隨意發揮。如果模型不夠"忠誠",就可能給出與公司政策不符的答案,或者引用過期的法規,後果可想而知。
研究團隊將一個理想的上下文問答系統的能力分解為三大核心:其一是多跳推理與常識推斷,也就是能夠跨越多段文字把資訊串聯起來,就像偵探把散落的線索連成完整案情一樣;其二是避免記憶干擾,也就是在做題時專心盯著面前的卷子,而不是東張西望地回憶以前背過的東西;其三是安全棄權,當文本里根本沒有足夠資訊來回答問題時,能夠老老實實地說"不知道",而不是強行編一個答案出來。這三點聽起來簡單,要同時做好卻極其困難。
二、從零打造一個"專科學霸":訓練數據的精心設計
OCC-RAG的成功,很大程度上源於一套精心設計的訓練數據生產流水線。研究團隊最終生成了超過325萬個訓練樣例,合計約80億個詞元(可以粗略理解為"字"或"詞的片段")。這個語料庫不是隨手拼湊的,而是按照難度層層遞進、有意識地覆蓋各種推理場景而構建的。
整個語料庫分為四大類。最基礎的是單跳問答,也就是答案明確出現在某一段文字中,不需要多段資訊的組合,這類樣例最多,約有278萬個,提供了海量的基礎訓練信號。接下來是單上下文多跳問答,約26萬個,這類問題需要把同一篇文章里不同地方的資訊串聯起來才能回答。再複雜一些的是多上下文多跳問答,約16.5萬個,需要從多篇不同文章中抽取資訊,然後融合推理。最後還有約4.3萬個"無法回答"的樣例,專門訓練模型認識到什麼時候該說"我不知道"。
單跳問答的生產過程可以用"流水線作業"來理解。團隊首先從英文維基百科的海量文章中把文字切成一段一段的,每段就是一個"知識塊"。然後,他們用一個叫gpt-oss-120B的大模型對每個知識塊生成十對問答,要求問題能自成一體,答案必須是文本中實際存在的短語。為了讓模型在訓練時學會分辨"哪段是有用的,哪段是干擾項",團隊還會為每篇文章找來最多一千篇相關的維基百科子頁面,從中挑選出最"像"但實際上無關的段落作為干擾項,並用一種叫TF-IDF的文本相似度算法評分,保留最像的二十篇作為干擾上下文。最後,再用另一個大模型當"裁判",過濾掉質量不合格的問答對。
多跳問答的生產則要複雜得多,需要引入一個叫"知識圖譜"的工具。知識圖譜可以理解為一張由實體和關係構成的網路圖,比如"愛因斯坦"通過"出生地"這條邊連接到"烏爾姆","烏爾姆"又通過"位於"連接到"德國"。通過在這張網上沿著邊走兩步或三步,就能找到一條"推理路徑",比如"愛因斯坦的出生地所在的國家是哪個?"就需要走兩步。
研究團隊從一個叫做MuSiQue的多跳問答數據集中提取出文章,然後用一個叫Wikontic的知識圖譜提取系統把文章轉化成結構化的圖。這個系統會利用來自維基數據的本體約束來去除冗餘和矛盾資訊,並對實體進行標準化處理,使圖的連通性最大化。提取出的圖譜會被存入一個RDF資料庫,方便後續用SPARQL這種專用查詢語言來檢索特定形狀的子圖。
在問題類型上,研究團隊借鑑了一個叫DRAGOn的測試基準中的問題分類體系,覆蓋了簡單單跳、集合類兩跳、鏈式多跳、條件判斷兩跳,以及三跳的"竹節型"問題(即A→B→C這種線性推理鏈)。每種類型都對應一個專門的SPARQL查詢模板,從圖譜中篩選出符合該拓撲結構的子圖,再要求大模型基於這條確定的路徑生成問題。由於答案是由推理路徑本身決定的,而非由模型自由發揮,這就保證了生成問題的可驗證性和可控性。
無法回答的樣例則通過另一種方式產生。團隊用一個在SQuAD數據集上微調過的DeBERTa模型來對減少了部分關鍵資訊的上下文進行嘗試性回答,如果這個擅長閱讀理解的專用小模型都找不到正確答案,那就說明關鍵資訊確實缺失,這個樣例就被標註為"無法回答"。這種方法的巧妙之處在於,即便減去了答案所需的資訊,上下文中仍然存在大量相關內容,模型很容易被迷惑,從而構成了真正有挑戰性的"棄權訓練題"。
三、教會模型"說明推理過程":結構化推理鏈的設計
光有題目和答案還不夠。OCC團隊意識到,如果只是用"問題-答案"的簡單形式來訓練,模型可能只學會了模式匹配,並沒有真正學會推理的過程。為此,他們為每一個訓練樣例都配上了一個詳細的"推理軌跡",就像老師要求學生不僅寫答案,還要寫出解題步驟。
這個推理軌跡由五個固定部分組成,每個部分的邊界都用特殊標記符號明確標出。第一部分叫"查詢分析",要求模型先把題目拆解清楚,搞清楚問的是什麼、涉及哪些實體和關係;第二部分叫"來源分析",要求逐一評價每個提供的上下文片段,指出哪段有用、哪段是干擾項、每段貢獻了什麼資訊;第三部分叫"推理",把各段有用資訊整合起來,一步步推導出最終答案;第四部分是一個明確的"狀態"標籤,只有兩種取值——"可回答"或"無法回答",這個明確的二元判斷迫使模型在給出答案之前必須先做出清晰的是否決策;第五部分才是"答案"本身。
這套格式借鑑自另一個叫Pleias-RAG的模型,並在其基礎上加入了"狀態"標籤這一關鍵創新。加入這個標籤的原因很務實:如果不把"棄權"變成一個模型必須明確預測的標籤,模型往往會靠委婉的措辭來表達不確定性,而這種不確定性在評測時很難被準確識別和獎勵。把它變成一個必須做出的離散決策,就把"知道何時不回答"變成了一個可以通過監督信號直接教給模型的技能。
生成這些推理軌跡的工作由Qwen3.5-27B這個模型來承擔。研究團隊經過實驗,選擇關閉這個模型自帶的"思考模式"——因為開啟思考模式會大幅增加生成成本,而且在實驗中並沒有帶來明顯的學生模型質量提升。生成完畢後,還要經過四關質量過濾:第一關檢查格式是否完整,五個部分缺一不可;第二關檢查答案是否與標準答案匹配;第三關對於未能精確匹配的樣例,再調用Qwen3-4B作為裁判進行二次核查;第四關過濾"過度思考"的案例,即把推理部分超過1256個詞元、或包含超過十個諸如"等等"、"或者說"之類思考標記詞的軌跡都刪除掉,避免將冗長囉嗦的推理習慣傳遞給學生模型。
四、中間訓練:在已有基礎上打磨專業技能
OCC-RAG的訓練方式叫做"中間訓練(mid-training)",這個概念本身也值得好好解釋一下。當今大多數語言模型的誕生要經歷兩個階段:第一階段是在海量文本上進行預訓練,模型在這個過程中吸收了大量關於世界的基礎知識和語言規律,就像一個人從小到大接受通識教育;第二階段是針對特定任務的微調,讓模型學會遵循指令、進行對話等,就像大學畢業後參加工作培訓。
中間訓練則插入在這兩個階段之間,是一種專門針對某類任務進行的大規模訓練,規模比微調大得多,但又不如預訓練那樣全面。可以理解為:先在海量文本上打好語言基礎,再用數以百萬計的專項練習題進行"考前強化訓練",使模型在特定技能上形成深刻的行為習慣,最後再進行對話微調。
研究團隊在選擇基礎模型時,對比了Qwen3、Gemma3和SmolLM3三個家族的小語言模型,最終選擇了Qwen3的0.6B-Base和1.7B-Base版本,因為在相同計算資源下,Qwen3在早期實驗中表現最佳。
在數據混合策略上,團隊觀察到單跳樣例的數量遠多於多跳樣例(約大一個數量級),但多跳問題才是真正考驗推理能力的題目。為了讓模型充分學習多跳推理,他們對每個多跳樣例進行了三倍過採樣——也就是說,每個多跳樣例在一個訓練輪次中會被重複展示三次,而單跳樣例只展示一次。實驗證明,這種做法能穩定提升多跳測試的準確率,而不會對單跳性能造成可測量的損失。團隊也嘗試了先只用單跳數據訓練、到了某個步驟再引入多跳數據的課程式訓練方案,但實驗發現效果與靜態混合方案沒有明顯差異。
在格式設計上,訓練時使用的輸入格式與評測時完全一致:問題被放在特殊標記之間,每段上下文也各自被標記並附有編號來源標識,且上下文的順序每次隨機打亂。這種設計消除了訓練和測試之間的格式差距,確保模型在實際使用中不會面臨陌生的輸入形式。邊界標記符號對應的詞嵌入採用了一種特別的初始化方式——取該標記的自然語言名稱對應的子詞嵌入的均值,這樣做能讓新加入的特殊詞彙一開始就有有意義的向量表示。
兩個模型都在約90億個詞元上完成了訓練。OCC-RAG-0.6B約花了17小時,OCC-RAG-1.7B約花了28小時,硬體配置是8塊NVIDIA H100顯卡(每塊80GB顯存),採用的是全參數分片數據並行(FSDP)的分布式訓練策略,以及Liger融合線性交叉熵損失核來節省顯存。
五、實戰檢驗:五個維度的硬核評測
研究團隊選用了五個公認的測試基準來檢驗OCC-RAG的真實能力,覆蓋了多跳推理、忠實性和棄權三大核心維度。
在多跳推理維度,評測使用了三個數據集。HotpotQA是一個基於維基百科的多跳問答數據集,每道題配有10個上下文片段(其中包含干擾項),共7405道題。MuSiQue是難度更高的多跳問答集,同樣配備10個上下文片段,共2417道題,其特點是問題的推理鏈更長、更複雜。TAT-QA則專注於金融領域,問題融合了表格和文字內容,研究團隊只保留了需要從文本/表格中直接提取答案的題型,排除了需要做數學計算的題型,因為後者考驗的是算術能力而非文本理解。HotpotQA和MuSiQue使用"包含準確率"作為評測指標,即標準答案是否作為子字符串出現在模型的預測結果中;TAT-QA使用F1分數來衡量預測答案與標準答案在詞元層面的重疊程度。
在忠實性維度,評測使用了ConFiQA數據集。這個數據集構造得相當精妙:它用維基數據中的實體關係三元組,替換掉其中某個事實,生成一個與現實世界相悖的反事實上下文,然後讓模型在這個包含虛假資訊的文本下回答問題,看模型是"忠於文本"還是"套用記憶"。ConFiQA分三個難度子集:最簡單的QA子集是單個三元組被修改;MR子集是多跳鏈中有一個三元組被修改;最難的MC子集是推理鏈上的每一個三元組都被改掉。評測指標包括反事實答案的包含準確率(越高說明模型越忠實),以及"記憶化比率(MR)"——即當文本內容與模型記憶衝突時,模型多大比例的時間會偷偷用記憶中的答案,比率越低說明模型越不依賴記憶、越忠實於文本。
在棄權維度,評測使用了MuSiQue-Un,這是MuSiQue的"無法回答"版本:原數據集中的支持性段落被替換成無法支持答案的文段,但上下文看起來依然相關,模型容易上當。評測指標是"棄權準確率",即模型預測結果中包含"Not enough information(資訊不足)"這個短語的比例。
與OCC-RAG進行比較的對象涵蓋了多個主流開源模型家族,包括Qwen3(0.6B到32B的全系列)、Gemma3(1B到27B的全系列)、SmolLM3-3B,以及同樣針對RAG任務專門優化的Pleias-RAG-1.2B。對於支持思考模式的模型(如Qwen3和SmolLM3),研究團隊同時匯報了開啟和不開啟思考模式下的兩組成績。
六、成績單:數字背後的故事
評測結果展示出一幅引人深思的畫面。在多跳推理方面,OCC-RAG-0.6B在HotpotQA上取得57.6分,在MuSiQue上取得36.6分,在TAT-QA上取得75.0的F1分數。OCC-RAG-1.7B則分別取得60.9、38.2和81.0。對比一下,同等體量的Qwen3-0.6B在這三個數據集上的成績是34.8、13.2和62.5(不開啟思考模式),即便開啟思考模式也只有41.8、17.2和66.3,與OCC-RAG-0.6B存在明顯差距。同等體量的Gemma3-1B則更是只有30.8、12.8和53.6。
體量是OCC-RAG-0.6B將近三倍的SmolLM3-3B,成績是49.9、21.5和71.1(不開啟思考模式),在HotpotQA上略低於OCC-RAG-0.6B,在MuSiQue和TAT-QA上則被明顯拉開差距。體量是OCC-RAG-0.6B近五倍的Qwen3-4B,在不開啟思考模式下的成績是60.6、33.1和76.9,與OCC-RAG-1.7B相比各有高低,但考慮到兩者的體量差異,這個結果無疑是OCC-RAG-1.7B的一次重要勝利。
在忠實性方面,OCC-RAG的優勢更為顯著。OCC-RAG-0.6B的ConFiQA平均準確率達到79.9,記憶化比率低至5.2;OCC-RAG-1.7B的ConFiQA平均準確率是81.4,記憶化比率是5.0。對比一下,Qwen3-1.7B(即便開啟思考模式)的ConFiQA準確率是70.4,記憶化比率是8.3,而不開啟思考模式時更是高達12.7。Gemma3-27B的記憶化比率是8.0,竟然還不如OCC-RAG-0.6B的5.2!從這個數據可以看出,記憶化比率並不隨模型規模增大而自然降低——OCC-RAG通過專門的訓練,從根本上改變了模型對待文本與記憶衝突的處理方式。
棄權能力的差距同樣觸目驚心。OCC-RAG-0.6B的棄權準確率是86.9,OCC-RAG-1.7B是87.2。而Gemma3-1B只有2.2,也就是說它幾乎完全不會棄權,被問到無法回答的問題時會一路硬撐著編出答案。Qwen3-0.6B在不開啟思考模式下只有6.3,開啟思考模式後跳到70.0,而OCC-RAG-0.6B不需要思考模式就穩定在86.9以上。Qwen3-8B開啟思考模式後能達到90.3,是被評測的通用模型中在棄權維度最接近OCC-RAG的——但它的體量是OCC-RAG-1.7B的將近5倍。
最後再看曾經最直接的競爭對手Pleias-RAG-1.2B。這是此前專門針對RAG任務優化的小模型,在多跳推理上的表現相當慘澹:HotpotQA 48.5分、MuSiQue 15.0分,TAT-QA只有8.4分,ConFiQA僅37.3分,棄權準確率21.9。OCC-RAG-0.6B在MuSiQue上比它高了21.6分,在ConFiQA上高了42.6分,在棄權準確率上高了65個百分點。這種碾壓性的差距,正如研究團隊分析的那樣,主要源於OCC-RAG的訓練數據中包含了大量精心設計的多跳推理樣例,而Pleias-RAG的訓練流程缺乏這一部分。
從更宏觀的角度看整張評測表,有一個規律相當清晰:通用大模型在體量增大時,多跳推理能力的提升比忠實性和棄權能力的提升更顯著。Qwen3-32B在HotpotQA和MuSiQue上的成績遠優於更小的Qwen3模型,但在忠實性和棄權上的提升卻相對有限。這印證了論文的核心主張:忠實性和安全棄權不會隨著模型變大而自動獲得,它們需要專門的訓練設計。
說到底,OCC-RAG這項工作揭示的核心道理其實並不複雜:一個為特定考試專門備考的學生,完全可以在這場特定考試中擊敗一個博覽群書卻從不專項訓練的學霸。模型的規模決定了它能記住多少世界知識,但任務專項訓練決定了它在這項任務上的推理習慣和行為策略。當這兩個維度發生衝突時,後者往往才是勝負的關鍵。
歸根結底,這項研究的意義不僅僅在於"小模型贏了大模型"這個吸引眼球的結論,更在於它提供了一套可復現的方法論:如何設計分層次、覆蓋多種推理類型的合成訓練數據,如何用結構化推理軌跡把隱性的推理目標變成顯式的監督信號,如何通過中間訓練在不增加模型體量的前提下顯著提升特定能力。這套方法論對於任何需要構建專用AI系統的團隊——無論是在醫療、法律、金融還是教育領域——都有直接的參考價值。
當然,OCC-RAG也並非完美無缺。在大模型8B及以上體量區間,Qwen3家族在多跳推理能力上依然保持領先,且差距不容忽視。OCC-RAG對算術和計數類問題(如TAT-QA中的數學計算題)的評測也被刻意迴避,這意味著在需要數值推理的場景下,模型的邊界還需要進一步探索。這些方向,或許正是這個團隊下一步值得耕耘的領域。
有興趣深入研究這項工作的讀者,可以通過arXiv編號2606.00683查閱完整論文,模型權重和代碼也已在Hugging Face(occ-ai)和GitHub(optimal-cognitive-core)上公開發布。
Q&A
Q1:OCC-RAG模型和普通大語言模型有什麼根本區別?
A:OCC-RAG最核心的區別不在於大小,而在於訓練方式。普通大模型在回答問題時會綜合利用自己記住的知識和提供的文本,有時會偏向用記憶覆蓋文本內容。OCC-RAG通過325萬個專項訓練樣例,專門強化了"只看眼前文本、不套用記憶"的行為習慣,並學會了在文本資訊不足時主動說"不知道",而不是強行編造答案。
Q2:OCC-RAG訓練數據中的多跳推理樣例是怎麼生成的?
A:團隊從MuSiQue數據集的文章中提取文本,用Wikontic系統將文章轉化為知識圖譜,再用SPARQL查詢從圖譜中找出符合特定推理結構的子圖(如兩跳鏈、三跳鏈等),最後用gpt-oss-120B根據這條固定的推理路徑生成問題和答案。由於答案由路徑本身確定,保證了可驗證性,生成後還要經過格式檢查、答案匹配和裁判模型三關過濾。
Q3:OCC-RAG的棄權能力為什麼比同等體量的通用模型強這麼多?
A:棄權能力強主要來自兩方面設計。一是訓練數據中專門包含約4.3萬個"無法回答"樣例,這些樣例經過精心設計——上下文依然看起來相關,只是缺少關鍵資訊,強迫模型學會真正識別資訊缺失;二是推理格式中加入了一個強制性的"狀態"標籤,模型在給出答案前必須先明確聲明"可回答"或"無法回答",把棄權決策變成了一個可被直接監督的明確預測目標。






