這項由弗吉尼亞理工大學、馬里蘭大學、阿布達比穆罕默德·本·扎耶德人工智慧大學及匹茲堡大學聯合開展的研究,於2026年6月以預印本形式發布,論文編號為arXiv:2606.28186。對教育領域或人工智慧感興趣的讀者,可通過這一編號在arXiv平台檢索完整論文。
每年全國有數以百萬計的學生在備考各類標準化考試,從SAT到醫學執照考試,一道題到底"難不難",背後有一套精密的科學體系在支撐。傳統上,考試機構需要將題目提前給真實考生做測試,收集大量答題數據,再用統計方法算出這道題的難度值——這個過程耗費時間、金錢,而且在題目正式上線前,誰也說不準它到底難在哪裡。
研究團隊注意到一個有趣的現象:當最新一代的"會思考的AI"(也就是論文裡說的大型推理模型,簡稱LRM)解題時,它不只給出答案,還會把整個思考過程完整地寫下來,就像一個學生在草稿紙上寫下每一步推演。這些"思考日記"里藏著什麼秘密?研究團隊由此產生了一個大膽的想法:用AI的解題過程來預測一道題對人類來說有多難。於是,他們開發了一套叫做**Epi2Diff**(Episode to Difficulty,從認知片段到難度)的方法,將AI的推理軌跡轉化為可以量化的難度信號。
---
一、考題難度是個"老大難"問題
考一道題難不難,直覺上是個簡單問題。但教育測量領域的專家會告訴你,這其實非常複雜。一道題的"官方難度"是通過讓大批真實考生作答後統計得來的,比如在某次考試里,只有30%的考生答對,那這道題就是難題;80%都答對了,那就是簡單題。這個數字來自真實世界的數據,非常可靠,但代價是高昂的——每道新題都要經歷漫長的"試用期",期間還不能正式計入成績。
為了省掉這個麻煩,研究者們很早就開始嘗試用電腦預測題目難度。早期的方法是手工提取題目里的語言特徵,比如單詞有多難、句子有多長、涉及多少專業概念,然後用這些數字去預測難度。後來,隨著BERT這類語言模型的興起,研究者開始直接把題目文本"餵"給模型,讓模型自動學習什麼樣的題是難題。然而,這些方法都有一個共同的局限:它們都是在分析"題目長什麼樣",而不是在理解"做這道題需要多少腦力"。
這就好比判斷一條登山路線難不難,你只看了路線圖的樣子,卻沒有考慮實際攀爬時需要用多少力氣、中途需要休息幾次、哪些地方需要反覆調整路線。路線圖(題目文本)固然重要,但真正反映難度的,是實際攀爬過程中的體力消耗。
研究團隊認為,題目難度不僅是題目本身的屬性,更是解題過程所帶來的認知負擔的體現。而最新的AI大推理模型,恰好能把這個"攀爬過程"完整地記錄下來。
---
二、AI的"草稿紙"里藏著難度密碼
近年來出現的大型推理模型,比如DeepSeek-R1、QwQ-32B等,解題時會產生非常詳細的推理軌跡。這些軌跡不是簡單的一兩句話,而是幾百甚至上千個句子的詳細思考過程,包括"先理解題意"、"分析已知條件"、"規劃解題路徑"、"具體計算"、"檢驗答案是否正確"等各種階段。
問題在於,這些軌跡內容龐大、雜亂、重複,直接把它們塞進預測模型里,不但沒有幫助,反而可能帶來大量噪音。研究團隊的核心洞察是:需要把這些雜亂的推理文字,整理成有意義的結構,才能提取出真正有用的難度信號。
他們選擇用一個來自教育心理學的框架來做這件整理工作——舍費爾德的"認知片段理論
"(Schoenfeld's Episode Theory)。這個理論由數學教育學家艾倫·舍費爾德提出,他通過觀察真實學生解題時的過程,發現解題行為可以歸納為幾種功能性的片段:閱讀(讀懂題目)、分析(理解結構)、規劃(制定策略)、實施(具體計算)、探索(嘗試不同方向)、驗證(檢查答案)、監控(評估當前進展),以及研究團隊額外加入的回答(最終提交答案)。這八種片段構成了一套完整的解題"動作詞典"。
把這個詞典應用到AI的推理軌跡上,就像給一段連續的旅行錄像打上路標標籤:這段是"出發準備",那段是"正在爬坡",另一段是"休息檢查地圖"。通過這種方式,一條雜亂的推理軌跡就變成了一個整齊的認知片段序列,比如:"閱讀→分析→規劃→實施→實施→驗證→回答"。
---
三、把解題日記
變成數字:Epi2Diff的具體做法
有了這套框架,研究團隊接下來要解決的是如何自動給AI的每一句推理打上"片段標籤"。他們訓練了一個基於RoBERTa(一種擅長理解文本含義的AI模型)的句子分類器,專門負責判斷每個句子屬於八種認知片段中的哪一種。
訓練這個分類器用到了一個名為ThinkARM的數據集,其中包含來自五種不同推理AI在奧林匹克數學題上生成的推理軌跡,由GPT-5大規模標註,並由人工驗證了7067個句子。清洗去重後,最終用於訓練的句子對超過23萬條。這個分類器在人工標註的測試集上達到了79.9%的準確率,整體性能相當穩健。
有了自動標註工具,每道題就能產生一條認知片段序列,接下來就是從這條序列里提取數字特徵了。研究團隊設計了三類特徵,共同描述一次解題過程的全貌。
第一類是長度特徵,記錄整個推理軌跡的總長度、思考部分的長度以及最終回答部分的長度,用詞彙數量衡量。這就像記錄一次旅行的總里程、路上走了多遠、到達目的地後停了多久。
第二類是片段分布特徵,統計每種認知片段各自占用了多少詞彙,以及它們各自占整個推理過程的比例。這相當於記錄旅行中各類活動各占多少時間:爬山占了40%、休息占了20%、拍照占了15%……
第三類是轉換特徵,統計相鄰片段之間的切換次數,形成一個8乘8的矩陣。舉例來說,矩陣中"分析→實施"這個格子裡的數字,就代表在整個推理過程中,AI從"分析狀態"直接切換到"實施狀態"發生了多少次。這相當於記錄旅行中路線調整的模式:從爬坡切換到休息多少次,從休息又切換回爬坡多少次。
這三類特徵合併成一個83維的數字向量(3個長度特徵加8個片段數量加8個片段比例加64個轉換次數),就是所謂的"認知片段驅動的過程表示"。
僅有過程表示還不夠,研究團隊還用一個叫Sentence-BERT的模型把題目本身的文字內容轉化成一個向量,捕捉題目"講的是什麼"。最終,將題目內容向量和過程特徵向量拼接在一起,形成一道題的完整表示,再用機器學習模型(最終選用的是XGBoost)來預測難度。
---
四、讓AI扮演不同水平的學生:多重視角的聰明設計
研究團隊還加入了一個頗具創意的設計:對每道題,不僅讓AI以它自己的正常方式解題,還分別讓它"扮演"弱、中、強三種不同水平的學生來解題,一共產生四條推理軌跡。然後把這四條軌跡各自提取的過程特徵取平均值,作為這道題最終的過程表示。
這個設計背後的邏輯是:不同水平的學生面對同一道題,會走出截然不同的解題路徑。弱學生可能反覆試錯、大量探索;強學生可能一步到位、迅速切入核心。通過聚合多個"視角"的過程資訊,能夠獲得對這道題認知負擔更全面、更穩健的刻畫。
為了驗證這個設計是否真的有效,研究團隊還做了一個嚴格的對照實驗:讓AI用同一種方式(直接作答,不角色扮演)重複解題四次,產生同樣數量的軌跡後取平均值。結果發現,單純增加重複次數帶來的收益遠不如角色扮演帶來的收益明顯。這說明,有效的多樣性來自不同的"認知視角",而不僅僅是更多的隨機樣本。
---
五、在四個真實考試數據集上的較量
研究團隊用四個來自真實考試的數據集來檢驗Epi2Diff的效果,覆蓋了醫療、英語閱讀理解、語言推理和數學推理四個不同領域。
第一個數據集來自美國醫師執照考試USMLE,包含667道多選題,每道題的難度值是通過300多名醫學生的真實作答統計出來的連續數值。第二個數據集來自劍橋英語資質考試,包含793道閱讀理解題,難度同樣是連續數值。第三和第四個數據集來自SAT考試的語文閱讀寫作部分(1338題)和數學部分(1075題),難度被標註為簡單、中等、困難三個等級。
與Epi2Diff對比的方法分為幾大類:一是微調小型編碼器模型,包括BERT、RoBERTa、ModernBERT和ELECTRA;二是直接用大型語言模型做零樣本或少樣本推理,測試了GPT-4o、GPT-5、QwQ-32B、Qwen3-32B;三是對小型解碼器模型做監督微調,包括全參數微調和LoRA(一種參數高效微調技術)。
結果顯示,Epi2Diff在全部四個數據集的全部指標上均取得了最佳表現。在SAT數學分類任務上,Epi2Diff達到了73.0%的準確率和72.8%的宏觀F1分數,相比表現最好的LLM監督微調基線(Qwen3-4B全參數微調的70.5%)實現了超過8%的相對提升。在SAT語文部分,同樣超過了所有基線。在連續難度預測任務上,Epi2Diff在劍橋數據集上的RMSE(預測誤差)為7.612,R?(解釋方差比例)為0.396,在USMLE上的RMSE為0.291,R?為0.121,同樣優於所有對比方法。
值得關注的是,很多大型語言模型在零樣本或少樣本推理中表現非常差,某些情況下R?甚至出現負值,意味著它們的預測還不如簡單地猜平均值準確。這說明"模型越大越聰明"並不等於"對人類考題難度的判斷就越准"。
---
六、數字背後的故事:難題究竟難在哪裡
Epi2Diff不僅能預測難度,還能解釋難度從何而來。研究團隊對SAT數學數據進行了深入的特徵分析,發現了一些耐人尋味的規律。
從長度來看,難題誘導出更長的推理軌跡,但主要是"思考"部分變長,而"回答"部分的增幅遠小於"思考"部分。這意味著難題讓AI更費力地想,而不僅僅是寫了更多的回答文字。
從片段分布來看,"實施"(Implement)片段的絕對數量和比例在難題中都顯著偏高,而"閱讀"、"規劃"和"驗證"的比例則相對下降。簡單來說,難題讓解題過程更集中於"真正動手算"的環節,而不是均勻地分散在各個階段。這和我們的直覺是吻合的:簡單題讀完就知道怎麼做,難題則需要大量的具體推演。
從片段轉換模式來看,最強的正向影響來自"分析→實施"、"實施→實施"和"實施→分析"這幾種轉換。這揭示了一種"分析-執行-再分析"的循環模式:AI在遇到難題時,會頻繁地在理解和計算之間來回切換,形成一種局部的"分析-執行-精煉"循環。即使整體上"驗證"片段的比例沒有顯著上升,驗證行為也可能以"在執行中順帶檢驗"的形式滲透進實施階段。
三道具體題目的案例進一步印證了這一點。一道簡單題("函數f(x)=4x-3,求f(10)的值")的AI推理軌跡總計557個詞,實施片段占25.3%,驗證片段占17.2%;一道中等題(求直線斜率)的軌跡長795詞,實施占34.7%;一道難題(已知函數的截距和參數乘積,求參數a的值)的軌跡長995詞,實施片段高達40.3%。隨著難度上升,實施比例持續攀升,驗證和閱讀的比例則持續下降。
對這些特徵重要性的定量分析表明,認知片段分布特徵和轉換特徵組合起來的預測價值,在某些實驗設置中甚至超過了題目內容本身的語義特徵。這意味著"AI如何解題"所攜帶的資訊量,不亞於"題目本身寫了什麼"。
---
七、消融實驗:每一塊拼圖都不可或缺
為了驗證設計中每一個組件的必要性,研究團隊進行了細緻的消融實驗,系統地拆除各個部分,觀察性能變化。
只用題目內容的語義特徵,準確率和F1分數大約在60.7%左右,比完整版低了約12個百分點。只用過程特徵(不加語義),最好情況下能達到68.4%/67.7%,依然低於完整版。完整版(語義加過程特徵)在最佳聚合設置下達到73.0%/72.8%,是所有組合中最優的。拿掉任意一組過程特徵(長度、片段分布或轉換),性能都有所下降,三類特徵各自貢獻了互補的資訊,缺一不可。
對於轉換特徵的設計,研究團隊還測試了多種替代方案,包括歸一化的轉換比例、唯一轉換對的數量、三元組轉換等,發現原始的相鄰二元組計數在所有對比中表現最穩定。原因在於,原始計數既保留了轉換的強度資訊,又足夠緊湊(64維),不像三元組那樣會產生512維的稀疏表示。
此外,研究團隊還對角色扮演聚合策略進行了拆解:分別測試了單模型單次推理、雙模型聚合、單模型角色扮演聚合和雙模型角色扮演聚合。結果表明,雙模型角色扮演聚合(即論文最終採用的方案)始終取得最優表現,且提升主要來自引入不同學生角色,而非單純增加推理次數。
---
說到底,這項研究做了一件既有趣又實用的事:它把AI的"腦內獨白"當作一面鏡子,從中照出題目對人類的認知挑戰究竟有多大。對於考試設計者來說,這意味著未來可能不再需要昂貴的大規模預測試,就能提前知道一道新題大概有多難、難在哪裡。對於普通學習者來說,這種方法如果進一步發展,或許有一天可以幫助智能輔導系統更精準地判斷某道題對某個學生來說到底是不是"剛剛好"的挑戰。
當然,研究團隊也坦率地指出了這套方法的局限。AI推理軌跡是AI自己產生的,不是真實人類的思維記錄,不同AI在表達習慣、推理詳細程度上可能差異很大,這些都會影響最終提取的特徵。目前的實驗只覆蓋了四個數據集,未來還需要在更多領域和更多類型的題目上驗證。計算成本也是現實的考量:對每道題生成多條推理軌跡需要大量算力,如何在保持精度的前提下降低成本,是下一步要解決的問題。
對於教育測量、自然語言處理或人工智慧感興趣的讀者,完整的技術細節和實驗數據收錄在arXiv編號2606.28186的論文中,以弗吉尼亞理工大學為第一單位,感興趣的讀者可以直接檢索查閱。
---
Q&A
Q1:Epi2Diff方法和直接讓AI猜題目難度有什麼區別?
A:直接讓AI猜題目難度(零樣本或少樣本推理)是讓AI讀完題後直接給出一個難度判斷,結果往往很不準確,甚至比隨機猜測還差。Epi2Diff則不是讓AI直接"猜",而是讓AI先完整解題,再分析它解題時的思考過程有多複雜、花了多少力氣在哪些環節,最後用這些過程特徵結合題目內容來預測難度。前者問的是"你覺得這題難嗎",後者觀察的是"解這道題實際花了多少腦力"。
Q2:認知片段理論是什麼,為什麼用它來分析AI解題過程?
A:認知片段理論由數學教育學家艾倫·舍費爾德提出,他通過觀察真實學生解題發現,解題過程可以分成閱讀、分析、規劃、實施、探索、驗證、監控幾種功能性階段。研究者選用它是因為這套框架有明確的教育心理學依據,能把雜亂的AI推理文字整理成有意義的結構,讓"解題過程的複雜程度"變成可以量化的數字,而不是一堆無法比較的文字。
Q3:SAT數學難題和簡單題在AI解題過程上最明顯的區別是什麼?
A:最明顯的區別在於"實施"階段(具體計算和推演)占整個推理過程的比例。簡單題的實施比例約為25%,中等題約35%,難題可以超過40%。同時,難題的總推理長度更長,思考部分增幅明顯大於回答部分,並且"分析→實施→再分析"的來回切換更加頻繁,形成一種反覆精煉的循環模式。






