想像一下,如果你參加一場考試,但考官不是根據你的真正水平打分,而是根據你能否猜中標準答案的套路,這樣的考試還能公平嗎?清華大學、北京大學、中科院自動化所等多家知名研究機構的學者最近發表了一項研究,發現當今AI模型的評測方式存在著類似的問題。這項名為"Beyond Multiple Choice: Verifiable OpenQA for Robust Vision-Language RFT"的研究由劉燁晟、李昊、徐海宇等十多位研究者共同完成,發表於2025年1月。感興趣的讀者可以通過arXiv:2511.17405v2查閱完整論文。
研究團隊發現了一個讓人意外的現象:目前廣泛使用的多選題評測方式就像是一場"有標準答案的猜謎遊戲",AI模型往往不是通過真正理解問題來回答,而是通過分析選項之間的細微差別來"投機取巧"。這種現象在視覺-語言模型的評測中尤其明顯,導致我們可能高估了AI的真實能力。
更令人擔憂的是,當研究者用這些"有水分"的評測數據來訓練AI模型時,反而會讓模型學會更多的"投機技巧",而不是提升真正的理解能力。就好比一個學生如果總是通過背答案來應付考試,雖然分數可能很高,但真實的學習能力卻在下降。
為了解決這個問題,研究團隊開發了一個名為"ReVeL"的框架,這個系統就像是一位經驗豐富的出題老師,能夠將傳統的多選題改寫成開放式問題,同時保持評分的客觀性和準確性。通過這種方法,他們不僅讓AI評測變得更加真實可靠,還訓練出了性能更加穩定的AI模型。
這項研究的重要意義在於,它不僅揭示了當前AI評測中存在的系統性問題,更提供了切實可行的解決方案。對於AI行業的發展來說,這意味著我們將能夠更準確地評估AI的真實能力,避免被虛高的分數所迷惑,從而推動AI技術向更加實用和可靠的方向發展。
一、多選題的"陷阱":當AI學會了考試技巧而非真正理解
研究團隊首先深入調查了多選題評測中存在的問題,他們的發現就像揭開了一層華麗外衣下的真相。通過一系列巧妙設計的實驗,研究者發現AI模型在面對多選題時表現出了令人意外的"投機行為"。
為了驗證這個問題,研究團隊設計了一個有趣的實驗。他們選取了原本是開放式回答的問題,比如SimpleQA和VisualSimpleQA這兩個基準測試,然後人工為每個問題添加了包含正確答案的選項。結果發現,幾乎所有的AI模型在有了選項提示後,準確率都出現了大幅提升。這就像是給一個不太會做數學題的學生提供了計算器,分數確實提高了,但數學能力本身並沒有真正改善。
更有趣的是,研究者還計算了一個"隨機猜測上界"的概念。簡單來說,就是假設AI模型對於那些原本不會的問題完全靠猜,那麼在六個選項中猜中的概率是六分之一。然而實驗結果顯示,AI模型的實際表現遠遠超過了這個理論上界,這強烈暗示模型正在從選項中獲取額外的資訊來幫助回答。
研究團隊還進行了另一個更加直接的測試。他們將多選題中的正確答案替換成"以上都不對"這個選項,結果發現了一個非常有趣的現象。當正確答案被移除後,許多AI模型出現了明顯的邏輯混亂。比如在一個關於識別圖片中環境類型的問題中,模型的推理過程明確指出這是一片森林,但最終卻選擇了"家庭"這個明顯錯誤的選項。這種推理過程與最終答案不一致的現象,就像是學生明明知道正確答案,但因為答案不在選項中就隨便選了一個。
研究團隊還發現了另一個令人擔憂的現象:位置記憶效應。當他們改變選項的內容但保持原來正確答案的位置標記時,很多AI模型仍然會選擇原來的位置,即使那個位置現在是錯誤答案。這就好比一個學生習慣性地認為"C選項總是正確的",而不是真正理解題目內容。
為了進一步驗證問題的普遍性,研究者還測試了如果完全移除選項會發生什麼。他們發現,只有大約一半的多選題在去掉選項後仍然是有意義的問題。而在那些仍然有效的問題中,幾乎所有AI模型的表現都明顯下降,這再次證明了模型對選項資訊的依賴程度。
最關鍵的發現來自於訓練效果的分析。當研究團隊使用多選題數據來訓練AI模型時,雖然模型在多選題測試中的分數有所提高,但在開放式問題上的表現卻變得更差。這種現象就像是一個學生過度依賴標準化考試的技巧,雖然考試成績不錯,但真正的理解能力和應用能力反而在下降。
通過這一系列實驗,研究團隊證明了多選題評測存在系統性的問題。AI模型學會的不是真正的理解和推理能力,而是如何在給定選項中找到最可能的答案。這種"投機取巧"的能力雖然能夠提高測試分數,但並不代表AI的真實水平,甚至可能誤導我們對AI發展方向的判斷。
二、ReVeL框架:像經驗豐富的教師一樣重新設計考試
面對多選題評測中發現的問題,研究團隊開發了一個名為ReVeL的創新框架。這個框架的核心思想就像是一位經驗豐富的教師,能夠將傳統的多選題巧妙地轉化為開放式問題,同時保證評分的客觀性和準確性。
ReVeL框架的工作流程可以用三個步驟來形容:分類識別、智能改寫和混合評估。整個過程就像是一個精密的質量控制系統,確保每個問題都能得到最適合的處理方式。
在分類識別階段,系統首先會像一位細心的圖書管理員一樣,將所有問題按照答案類型進行分門別類。數值類問題就像是數學題,答案通常是具體的數字或計算結果。關鍵詞類問題的答案往往是簡短的名詞或短語,比如人名、地名或專業術語。開放式問題需要用完整的句子或段落來回答,涉及解釋、描述或分析。而選項驗證類問題則是那些高度依賴原有選項設置的題目,需要逐一判斷每個選項的對錯。
智能改寫階段是整個框架的核心,就像是一位擅長出題的老師在重新設計考試。對於數值類問題,系統會在問題中明確指定答案的單位和格式要求。比如原來問"這個物體的重量是多少?"可能會改寫為"這個物體的重量是多少千克?請只給出數值。"這樣既保持了問題的核心內容,又讓評分變得客觀可行。
對於關鍵詞類問題,系統不僅會移除選項,還會預先準備好答案的各種可能表達方式。比如問"這輛車的製造商是誰?"時,系統會準備"BMW""寶馬""Bayerische Motoren Werke"等所有可能的正確表達,用特殊符號連接起來,確保評分時不會因為表達方式的差異而出現誤判。
開放式問題的改寫則更注重保持問題的核心意圖。系統會將"下列哪個選項正確描述了..."這樣的問法改為"請描述..."或"請解釋..."的直接問法,讓AI模型必須基於真正的理解來回答,而不能依賴選項對比。
對於選項驗證類問題,ReVeL採用了一種巧妙的轉換方式。它會保留原來的問題描述,然後將每個選項轉化為一個獨立的判斷題,要求AI模型對每個陳述給出"正確"或"錯誤"的判斷。這種方式既保持了原題的判別能力,又避免了選項之間的相互干擾。
混合評估階段則展現了ReVeL框架的智慧之處。系統並不是一刀切地使用同一種評估方法,而是像一位經驗豐富的閱卷老師,根據不同類型的問題採用最合適的評分方式。數值類和關鍵詞類問題使用精確的規則匹配,這種方式不僅成本低,速度快,而且完全客觀,避免了人工評分可能存在的主觀差異。
對於選項驗證類問題,系統會檢查AI模型給出的判斷序列是否與標準答案完全匹配。比如如果正確答案是"正確,錯誤,正確,錯誤",那麼AI模型必須給出完全一致的判斷才能得分。
只有那些真正需要語義理解的開放式問題才會使用AI評判員進行評估。這種設計大大降低了評估成本,同時也減少了因為AI評判員可能存在的偏見而導致的評分不一致問題。
研究團隊在四個重要的評測基準上測試了ReVeL框架的效果。這四個基準分別是EMMA(專注於STEM領域的多模態推理)、MMMU(大學級別的多學科理解)、MME-RealWorld(高質量的現實世界任務)和MMLU-Pro(更具挑戰性的語言理解)。
測試結果顯示,ReVeL框架能夠將70%到96%的問題轉化為可以用規則自動評估的形式。這意味著大部分問題都不再需要昂貴和可能不穩定的AI評判員。更重要的是,即使在需要AI評判員的情況下,ReVeL框架的混合評估方式也比純粹使用AI評判員的方式更加準確和穩定。
通過這種精心設計的轉換和評估流程,ReVeL框架成功地解決了傳統多選題評測中的主要問題,為AI模型的評估和訓練提供了一個更加可靠和真實的方法。
三、實驗驗證:用ReVeL訓練出更智能的AI
為了驗證ReVeL框架的實際效果,研究團隊進行了一系列全面的實驗。這些實驗就像是對比兩種不同教學方法的效果,一種是傳統的"背答案"式教學,另一種是注重真正理解的開放式教學。
研究團隊選擇了Qwen2.5-VL系列模型作為實驗對象,這些模型在視覺-語言理解任務中表現出色。他們使用了2萬個經過ReVeL框架轉換的問題來訓練模型,採用的是GRPO(Group Relative Policy Optimization)算法,這是一種先進的強化學習方法,能夠讓AI模型通過試錯來不斷改進自己的回答質量。
實驗設計非常巧妙,研究團隊創建了四種不同的訓練配置來進行對比。第一種是純多選題訓練,就像讓學生只做標準化考試的模擬題。第二種是多選題加原始開放式問題的混合訓練。第三種是純ReVeL轉換問題的訓練,相當於完全採用新的教學方法。第四種是ReVeL問題加原始開放式問題的組合訓練。
實驗結果令人印象深刻。使用ReVeL框架訓練的模型在保持多選題表現的同時,在開放式問題上的準確率平均提升了約6個百分點。這個提升幅度看似不大,但在AI評測中已經是非常顯著的改進。更重要的是,這種提升是在沒有犧牲原有能力的情況下實現的,就像是學生既保持了考試技巧,又真正提高了理解能力。
具體來看,經過ReVeL訓練的Qwen2.5-VL-7B模型在綜合評估中達到了40.4分,而使用傳統多選題訓練的同一模型只有36.3分。這個差距相當於從一個中等水平的學生提升到了優秀學生的水平。更令人欣喜的是,ReVeL訓練的模型甚至超過了一些知名的開源模型,比如R1-OneVision-7B、Mixed-R1-7B和VL-Rethinker-7B,儘管這些模型使用了更複雜的訓練數據。
研究團隊還發現了一個重要現象:傳統多選題訓練與開放式表現之間存在明顯的"鴻溝"。當模型在多選題上表現越好時,它在開放式問題上的表現往往相對更差。這就像是過度依賴標準化考試技巧的學生,雖然考試分數很高,但在需要靈活思考的問題上反而表現不佳。
為了更全面地驗證ReVeL的效果,研究團隊在多個知名AI模型上測試了多選題與開放式問題之間的性能差距。測試對象包括了從開源模型到最先進的商業模型,比如GPT-5、Gemini-2.5和各種規模的Qwen、InternVL模型。
令人驚訝的是,即使是最先進的商業模型也無法完全避免這種性能差距。比如GPT-5在MMMU基準測試中,從多選題的79.2%準確率下降到開放式的59.5%,降幅接近20個百分點。Gemini-2.5 flash在EMMA測試中也出現了15.7個百分點的下降。這說明多選題評測的問題不僅僅存在於開源模型中,而是一個更加普遍的系統性問題。
更值得關注的是,開源模型的性能差距往往更大。比如R1-OneVision-7B在EMMA測試中出現了24.2個百分點的巨大下降,InternVL3-8B在MMMU測試中下降了27.9個百分點。這表明許多開源模型可能過度適應了多選題格式,在真實的開放式應用場景中可能會表現不佳。
通過深入分析這些實驗結果,研究團隊證明了ReVeL框架不僅能夠提供更準確的AI能力評估,還能訓練出在真實應用中表現更好的模型。這種改進不是通過增加模型複雜度或使用更多數據實現的,而是通過改進訓練和評估方法實現的,這使得ReVeL框架具有很強的實用價值和推廣潛力。
四、深度剖析:AI"投機取巧"的三大表現
研究團隊通過細緻的分析,發現AI模型在多選題中的"投機行為"主要表現在三個方面,就像是學生在考試中可能採用的各種小聰明技巧。
第一種表現是"推理答案不匹配"現象。這種情況就像是學生在考試時,推理過程明明得出了正確結論,但最終卻選擇了錯誤答案。研究團隊發現,當正確答案被"以上都不對"選項替換後,這種不匹配現象的發生率從原來的18%急劇上升到50%以上。
比如在一個要求識別圖片環境類型的問題中,AI模型的推理過程是這樣的:首先分析圖片顯示了大量高大的樹木和綠色植被,然後逐一排除購物中心、街道、住宅等選項,明確指出這是一個森林環境。然而當森林選項被移除後,模型最終卻選擇了明顯錯誤的"住宅"選項。這種現象表明,AI模型並非真正理解自己的推理過程,而是在推理完成後又依據選項可用性做出了不一致的決策。
第二種表現是"位置記憶效應"。這就像是一些學生會形成"C選項最常是正確答案"這樣的錯誤印象。研究團隊發現,即使改變了選項內容,很多AI模型仍然傾向於選擇原來正確答案所在的位置標記。比如如果原來正確答案是B選項,當研究者將B選項的內容改為明顯錯誤的答案時,模型仍然可能選擇B,而不是根據內容進行判斷。
這種位置記憶效應在不同模型中的表現程度有所不同,但普遍存在。比如在MMMU測試中,Qwen2.5-VL-72B模型的位置記憶率達到42.2%,意味著接近一半的情況下,模型的選擇受到了原始位置資訊的影響而非內容本身。這種現象可能源於訓練數據中的位置偏見,也可能是模型在學習過程中無意中習得的非理性模式。
第三種表現是"選項錨定效應"。這種現象類似於人類心理學中的認知偏見,即在做判斷時過分依賴最初獲得的資訊。AI模型並不是客觀地分析問題內容後給出答案,而是先在提供的選項中找到看似合理的答案,然後構建支持這個答案的理由。
研究團隊通過一個藝術史的例子清晰地展示了這種現象。當問及某藝術作品的創作材料時,如果選項中包含"蛋彩畫",模型會分析作品的啞光質感和精細色彩,得出這些特徵符合蛋彩畫的特點。但如果將"蛋彩畫"選項移除,只保留"油畫"等其他選項,同一個模型會改口說作品展現了油畫特有的豐富層次和細膩質感。這種前後矛盾的分析表明,模型的"推理"實際上是圍繞預設答案進行的事後合理化。
研究團隊還發現了一個有趣的規律:這些"投機行為"在不同類型的問題中表現程度不同。在光學字符識別、物體定位和抽象代數等領域,選項依賴性特別嚴重。這可能是因為這些領域的選項往往比較簡單(比如純數字選項),當模型內部推理得出的答案不在選項中時,缺乏足夠的語義線索來進行有效的排除判斷。
相比之下,那些選項包含完整短語或句子的問題,AI模型的表現相對更穩定。這表明當選項提供更豐富的語義資訊時,模型能夠進行更好的意義理解和排除推理,而不是簡單地依賴表面特徵。
通過這些詳細分析,研究團隊揭示了AI模型在多選題中表現出的複雜行為模式。這些發現不僅幫助我們更好地理解當前AI模型的局限性,也為改進訓練和評估方法提供了重要依據。ReVeL框架正是基於這些深度洞察而設計,旨在引導AI模型發展真正的理解能力,而非僅僅是考試技巧。
五、未來展望:構建更真實的AI評估體系
這項研究的意義遠遠超出了技術層面的改進,它為整個AI領域提出了一個根本性問題:我們應該如何真正評估AI的能力?就像教育改革需要從應試教育轉向質素教育一樣,AI評估也需要從關注分數轉向關注真實能力。
ReVeL框架的成功驗證為AI評估體系的改革提供了具體的實施路徑。研究團隊發現,通過將多選題轉換為開放式問題,不僅能夠更準確地評估AI的真實能力,還能在訓練過程中培養AI模型更好的理解和推理能力。這種方法的優勢在於它既保持了自動化評估的效率,又避免了多選題格式固有的偏見問題。
從技術實現的角度來看,ReVeL框架已經證明了其實用性和可擴展性。在四個主要基準測試中,70%到96%的問題都能夠轉化為規則可驗證的形式,這大大降低了評估成本,提高了評估的一致性和可靠性。這種高比例的自動化評估意味著該框架可以輕鬆應用到大規模的AI評測中,而不會因為人工評估的成本和主觀性而受到限制。
研究結果還揭示了一個重要現象:即使是最先進的商業AI模型,如GPT-5和Gemini-2.5,在從多選題轉向開放式問題時也會出現明顯的性能下降。這表明多選題依賴性是一個普遍存在的問題,不僅影響開源模型,也影響商業模型。這一發現對AI行業具有重要的警示意義,提醒我們需要重新審視當前的評估標準和方法。
從訓練效果來看,ReVeL框架訓練出的模型展現出了更好的泛化能力。這些模型不僅在保持多選題性能的同時提升了開放式問題的表現,更重要的是它們學會了更加穩健的推理模式。這種改進對於AI模型在真實世界中的應用具有重要意義,因為現實中的問題很少以多選題的形式出現。
研究團隊還指出了當前工作的一些局限性和未來的改進方向。首先,雖然ReVeL的分類和改寫過程已經相當準確,但仍然存在少量錯誤的可能性。隨著大語言模型能力的不斷提升,這種錯誤率有望進一步降低。其次,雖然該框架有效地解決了評估格式的問題,但並沒有完全消除AI評判員本身可能存在的偏見問題。
未來的研究可能會朝著幾個方向發展。一個重要方向是將這種方法擴展到其他類型的NLP任務,比如長文本生成、對話系統等領域。另一個方向是開發更加智能的評估機制,能夠根據問題的複雜程度和模型的回答質量動態選擇最合適的評估方法。
此外,這項研究還為AI訓練數據的質量控制提供了新的思路。通過識別和轉換那些可能導致模型產生偏見的訓練樣本,我們可以構建更加均衡和有效的訓練數據集,從而培養出更加智能和可靠的AI模型。
對於AI行業的實際應用來說,ReVeL框架的意義在於它提供了一種更加真實和可靠的AI能力評估方法。這對於AI產品的開發和部署具有重要價值,因為它能夠幫助開發者更準確地了解模型的真實能力邊界,避免在實際應用中出現意外的性能下降。
說到底,這項研究提醒我們,在追求AI技術進步的過程中,我們不應該被表面的高分所迷惑,而應該關注AI模型是否真正掌握了理解和推理的能力。就像評價一個學生不應該只看考試成績,而應該看他是否真正理解了知識的本質一樣,評價AI也應該關注其真實的智能水平。通過ReVeL這樣的創新方法,我們正在朝著構建更加智能、更加可靠的AI系統邁出重要一步。感興趣的讀者可以通過論文編號arXiv:2511.17405v2查閱更詳細的技術內容和實驗數據,深入了解這一重要研究成果。
Q&A
Q1:ReVeL框架是什麼?
A:ReVeL框架是由清華、北大等機構研發的AI評測系統,能夠將傳統多選題轉換為開放式問題,同時保持評分的客觀性。它通過智能分類、改寫和混合評估三個步驟,讓AI評測更加真實可靠,避免了多選題中的"投機取巧"問題。
Q2:為什麼多選題評測不夠準確?
A:多選題評測讓AI模型學會了"考試技巧"而非真正理解。AI會通過分析選項差別、記住答案位置、圍繞選項構建推理等方式來答題,就像學生背標準答案一樣。這導致評測分數虛高,無法反映AI的真實能力。
Q3:ReVeL框架訓練的AI模型有什麼優勢?
A:使用ReVeL訓練的AI模型在開放式問題上的準確率平均提升6個百分點,同時保持了多選題的表現。這些模型展現出更好的泛化能力和更穩健的推理模式,在真實應用場景中表現更加可靠。






