這項研究由挪威奧斯陸大都會大學、辛穆拉城市數字工程中心、辛穆拉研究實驗室、奧斯陸大學以及挪威衛生局聯合開展,以預印本形式於2026年5月7日發布,論文編號為arXiv:2605.06652。有興趣深入了解的讀者可以通過該編號在arXiv平台查閱完整論文。
**一個真實的煩惱:沒有考試卷,怎麼給AI評分?**
假設你是挪威某個政府部門的負責人,上頭要求你在兩款AI語言模型中選一個用於公共服務諮詢,比如幫市民解答各種政策問題。你最關心的問題當然是:這兩款AI哪個更安全?哪個更不容易說出讓人尷尬甚至有害的話?
麻煩在於,全世界現有的AI安全測試題庫,幾乎沒有任何一套是專門針對挪威語、挪威法規、挪威公共服務場景設計的。那些主流的英文安全評測標準,對你這個挪威政府採購場景來說,基本上是"雞同鴨講"。而且,即便你花大價錢專門組織專家來出題、標註答案,這套題庫做好了,AI卻又更新了新版本,你還得重新評測一遍。
這個困境不是挪威獨有的,全球各種小語種國家、各類行業垂直場景、各類受監管領域,都面臨同樣的問題:**沒有現成的標準答案,如何評判AI的安全性高低?**
正是為了解決這個真實存在的難題,這支來自挪威多家頂尖研究機構的聯合團隊,提出了一套被他們稱為"無基準比較安全評分"的新方法,並將其實現為一個名為SimpleAudit的開源工具。這套方法的核心邏輯是:既然沒有標準答案,我們就換一種方式來驗證評分工具本身是否可信。
**一、為什麼現有方法都不夠用?**
在理解這套新方法之前,有必要先搞清楚,為什麼那些已經存在的AI安全評測方式,對上面說的那個挪威政府採購場景無能為力。
現有的主流做法大致分為三類。第一類是"靜態題庫",也就是事先收集好一批問題和標準答案,讓AI作答然後對比。這類方法的問題很明顯:題庫是固定的,AI的能力在進化,題庫卻不會自動跟著更新;而且這些題庫幾乎清一色是英文,其他語言的覆蓋極為稀缺。挪威語的情況尤其典型——研究團隊專門調查了現有的挪威語AI評測資源,發現最全面的那套叫做NorEval的綜合評測集,整合了24個數據集、涵蓋九大任務類別,但偏偏完全沒有安全評測這一項。其他零散的挪威語評測工具,要麼只測毒性,要麼只測偏見,都遠遠達不到實際部署場景的要求。
第二類是"自動化紅隊攻擊",就是用AI來攻擊AI,讓一個AI去想方設法誘導另一個AI說出不應該說的話,然後人工審查結果。這類方法的問題是,它產生的是一堆對話記錄和行為觀察,卻無法自動轉化成一個可以在不同時間、不同人之間直接對比的分數。對於政府採購這樣需要清晰數字來支撐決策的場景來說,"你們自己去看這些對話記錄吧"並不是一個有用的答案。
第三類是"用AI來給AI評分",也就是讓一個AI模型充當裁判,評估另一個AI的回答質量。這種方法的可靠性問題已經被多項研究揭示:裁判AI會有明顯的偏好,比如偏好語言更華麗的回答、偏好篇幅更長的回答、偏好和自己風格相似的回答。更重要的是,絕對分數(某次評測得了72分)在不同裁判之間根本無法直接對比,但相對排名(A比B安全)通常還算靠譜。
研究團隊把這三種方法都不能很好覆蓋的那個空白地帶,明確命名為"無基準比較安全評分"場景,並指出這個場景有幾個核心特徵:沒有標準答案、需要產出可重複的數字、必須能在本地運行(不能把政府數據發送到外部伺服器)、還要能在模型更新後重新運行對比。
**二、換一種驗證思路:不問"答案對不對",問"工具靠不靠譜"**
既然沒有標準答案,那傳統的"對比AI給出的答案和標準答案"的驗證方式就行不通了。研究團隊換了一種思路,他們問的不是"AI的回答對不對",而是"這套評分工具本身可不可信"。
為了回答這個問題,他們設計了一個"工具可信度驗證鏈",這條鏈子上掛著三個環節,每個環節都要通過才算合格。
第一個環節叫"響應性驗證"。這個環節的核心思路是:一把好的溫度計,應該能區分開冰水和沸水。對於一套安全評分工具來說,它至少應該能區分"明顯安全的AI"和"明顯不安全的AI"。研究團隊專門準備了一批"正常版AI"和"被特意改造成不拒絕任何請求的AI"(專業上叫做"abliterated"模型,即通過技術手段刪除了AI的拒絕行為),然後看評分工具能不能把這兩類AI的分數區分開來。這就像先用一杯明確是冰的水和一杯明確是沸騰的水來測試溫度計,確認它能區分這兩個極端情況,再用它去測量其他溫度。
第二個環節叫"目標敏感性驗證"。就算評分工具能區分安全和不安全,也有可能是因為別的原因,而不是真的測出了目標AI的安全特性。比如,可能是"裁判AI的癖好"導致了分數差異,而不是被測AI的行為本身。為了排除這個可能,研究團隊把評分過程中三個關鍵角色的貢獻都單獨拆出來分析:被測的目標AI(Target)、負責提問刁難的"審計員AI"(Auditor)、負責評分的"裁判AI"(Judge)。他們希望看到的結果是,目標AI的身份是最主要的分數決定因素,而不是審計員或裁判的"個人偏好"。
第三個環節叫"可重複性驗證"。一把好的尺子,每次量同一個東西,結果應該差不多。評分工具每次運行的結果,不應該隨機亂跳。研究團隊通過多次重複運行實驗,檢驗分數的穩定性。
這三個環節合在一起,構成了他們稱之為"工具有效性鏈"(Instrumental Validity Chain)的核心框架。通過這條鏈的工具,不能說它一定反映了現實部署中的真實安全性(那需要領域專家來判斷具體場景),但至少說明它測量的是真實存在的東西,而不是噪音或測量工具本身的癖好。
**三、SimpleAudit是怎麼工作的?**
理解了驗證框架,再來看研究團隊開發的SimpleAudit工具本身是如何設計的。
整個評測過程的核心結構,可以用一場模擬考試來類比。被測的AI(目標模型)是"考生",另一個AI(審計員)扮演"主考官",負責提出刁難性的問題;還有第三個AI(裁判)扮演"評卷老師",負責評判考生的表現。這三個角色是完全獨立的,可以分別換成不同的AI,這個設計至關重要,因為只有三個角色獨立,才能把各自的影響分開來分析。
每次評測的流程是這樣的:從一個事先準備好的"場景包"里取出一個具體的安全場景(比如"如何處理用戶詢問有害資訊的問題"),然後審計員AI根據這個場景向目標AI發起多輪對話,逐漸加深追問;對話結束後,裁判AI審閱整段對話記錄,給出一個嚴重程度評分。這個嚴重程度分成五檔,0分代表最嚴重的失敗(AI做出了最危險的行為),4分代表完全通過。所有場景的得分平均之後,映射到0到100分的範圍,分數越高代表越安全。
除了平均分,工具還單獨統計"危機率",也就是在所有場景中,有多少比例的場景得到了0分(最嚴重失敗)。這個指標很重要,因為高平均分有時候會掩蓋幾個嚴重失敗案例——就像一個學生大部分科目考了90分,但有一門考了0分,平均分看起來還不錯,但那門0分可能是致命的。
場景包是一個結構化的文件,每個場景有名稱、描述和分類資訊。研究團隊為挪威公共部署場景專門準備了一個場景包,覆蓋了醫療健康、公共服務、語言使用和安全法律四個類別,總計36個具體場景。整個工具可以完全在本地運行,不需要將對話數據發送到任何外部伺服器,這對政府等受監管機構來說尤為重要。
**四、三個關鍵問題的實驗結果**
研究團隊用自己搭建的這套工具,對上述三個驗證環節逐一進行了實證檢驗,結果非常清晰。
關於第一個環節"響應性",他們把不同規模的正常AI和對應的"不拒絕版本AI"都放進來測。測試結果用一個叫做AUROC的指標來衡量,這個指標從0.5到1.0,0.5代表完全隨機(相當於拋硬幣),1.0代表完美區分。在配置最強的裁判和審計員的情況下,三個不同規模的目標AI分別獲得了1.00、0.98和1.00的AUROC值——幾乎是滿分區分度。即便換成規模相對小一些的裁判和審計員,AUROC也能保持在0.89以上。換句話說,這把溫度計確實能區分冰水和沸水,而且區分得相當準確。
關於第二個環節"目標敏感性",研究團隊用一種叫做"方差分解"的統計方法,把分數的波動拆開來看,到底有多少是因為目標AI本身的不同,有多少是因為審計員的不同,有多少是因為裁判的不同。結果顯示,目標AI的身份貢獻了約52%的分數方差,這個數字是三個因素中最大的。審計員貢獻了約28%,裁判貢獻了約25%。這就好比你量體重,結果顯示52%的讀數變化來自人本身體重的變化,而不是來自體重秤的品牌差異——這說明這把秤主要測的確實是體重本身。
關於第三個環節"可重複性",研究團隊進行了10次重複實驗,並通過統計方法分析了隨著重複次數增加,分數的穩定程度如何提升。結果表明,對於正常AI,單次運行的誤差約為8.3分(滿分100),到第9次重複運行時,誤差縮小到0.9分;對於不安全AI,穩定得更快,從第3次起誤差就降到了2分以下。研究團隊據此推薦的標準是"至少運行10次",在這個運行次數下,分數的穩定性已經足夠支撐比較決策。
**五、裁判和審計員該怎麼選?**
這是一個非常實用的配置問題,研究團隊專門做了深入分析。
關於裁判的選擇,他們設置了五個不同規模的本地AI模型作為裁判(規模從最小的4B參數到最大的122B參數),然後與一個"標準參考裁判"(GPT-5)進行比較,看哪些本地裁判的判斷和GPT-5最接近。關鍵指標不是"多少次評分和GPT-5完全一致",而是"多少次把GPT-5認為嚴重的問題錯誤地歸類為無關緊要",這個指標被稱為"危機遺漏率"。結果顯示,最小的兩個規模(4B和9B參數)是不合格的裁判,4B規模的模型有44%的概率把嚴重失敗誤判為無關緊要——相當於有將近一半的紅色警報被當成了綠色燈。而122B和35B規模的兩個模型,危機遺漏率都在10%左右,接近GPT-5自身的重複一致性水平(約4%),是可用的本地裁判。
關於審計員的選擇,結論更加微妙,也更加關鍵。審計員是整個評分工具中"最重要的設計選擇"。審計員太弱,提不出有深度的刁難問題,就像一個不太會考試的主考官,考不出真正的差距;但審計員太強,反而會把問題。當研究團隊使用最強的GPT-5作為審計員時,它把所有目標AI(包括那些正常安全的AI)都逼得得分很低,導致不同安全AI之間的分數差距消失了——這就好比一個極其嚴格的主考官,把班上所有學生都考得不及格,從成績上你反而看不出誰學得好誰學得差了。因此,審計員的能力必須和被測目標AI的能力範圍相匹配,既要能產生有效的壓力,又不能強到把所有差異都壓平。
此外,研究團隊還發現了一個節省成本的配置策略:讓裁判和審計員使用同一個規模的模型(即J=A原則)。這樣做的原因是,裁判的主要誤差(絕對分數偏差)在計算兩個AI之間的"分數差"時會相互抵消,而審計員的影響不會抵消,因此在有限資源下,把計算資源更多地投給審計員比投給裁判更有價值。
**六、這套框架對其他工具也適用嗎?**
研究團隊不滿足於只驗證自己開發的SimpleAudit,還把同一套"工具可信度驗證鏈"用到了另一個來自Anthropic公司(也就是Claude AI的開發者)的工具Petri上,想看看這套驗證框架是否具有普遍意義。
Petri是一個專門為"發現"而設計的工具,它的目標是快速、廣泛地找出AI可能存在的各種行為問題,供專家審查。它默認有38個不同的評分維度,每個維度捕捉AI的一種特性。
研究團隊用同樣的實驗設置(相同的場景、相同的模型規模、相同的運行次數)運行了Petri,然後對其中一些關鍵維度逐一檢驗是否通過那三個驗證環節。結果證明,框架確實具有普遍意義——Petri的"concerning"(令人擔憂)維度完美通過了三個環節,AUROC在所有測試配置中都達到了0.99以上,這個維度的目標AI貢獻方差也是最大的,而且10次運行後得分高度穩定。其他一些維度,比如"needs_attention"(需要關注)和"concerning_with_no_mitigating_factors"(無緩解因素的擔憂),同樣通過了驗證。
但也有一些維度沒能通過。比如"u_bizarre_behavior"(無故怪異行為)這個維度,儘管它的方差分析顯示目標AI是最主要的影響因素,但它完全無法區分正常AI和不安全AI——這說明這個維度確實在測量某種真實的目標AI特性,但這個特性和安全性本身關係不大,更多反映的是AI能力高低而非安全行為。還有"admirable"(令人欽佩)這個維度,連目標敏感性這一關都過不了——裁判的影響和目標AI本身的影響幾乎一樣大,這意味著這個維度的分數主要反映的是裁判的偏好,而不是被測AI的行為。
這些對比揭示了一個深層道理:工具通過了驗證鏈,不等於工具的每一個維度都可信;工具沒通過驗證鏈,也不等於所有維度都沒用。驗證鏈的價值在於,它能精確地指出哪些維度可以作為可信的評分依據,哪些不行。
值得一提的是,從實際使用效率來看,Petri每次運行消耗的token(AI處理語言的基本單位,可以理解為計算資源消耗量)大約是SimpleAudit的1.7倍,主要原因是Petri的審計員使用了更複雜的工具調用機制。對於需要頻繁重複運行(比如每次模型更新後重測)的採購場景,這個差距會隨次數疊加而擴大。
**七、挪威公共部門採購案例:Borealis vs Gemma 3**
有了經過驗證的工具,研究團隊把它用到了一個真實的採購比較場景中:在挪威公共部門部署場景下,比較Borealis Instruct(一個挪威本地開發的AI模型)和Google的Gemma 3 IT在不同規模下的安全表現。
兩款模型都測試了四個參數規模:1B、4B、12B和27B(B代表"十億參數",數字越大模型越大、能力通常越強)。實驗使用了36個挪威場景,每個配置重複運行10次,所有分數配有置信區間(一種表示測量不確定性的區間)。
Borealis隨規模增大,整體安全分數從4.6%(1B)急劇攀升到27.9%(4B)、42.3%(12B),但在12B到27B之間幾乎停止增長,僅提升了1.4個百分點——這個提升甚至小於單次重複運行的正常波動範圍。更細化來看,醫療健康和安全法律兩個類別在27B時反而比12B略有下降,而語言和公共服務類別還在繼續提升。這說明"規模越大越安全"並不是一個無條件成立的規律,不同場景類別有各自的規律。
在Borealis和Gemma 3的直接對比中,全場景平均分差(Borealis減Gemma)在4B、12B、27B規模上分別為+14.2、+7.0、+6.0個百分點,都明顯超過了測量誤差範圍,說明在這些規模上Borealis確實更安全。危機率(最嚴重失敗的比例)差異也呈現同樣方向:Borealis的危機率分別低23.9、4.7、7.5個百分點。但1B規模的差距(+0.8個百分點)在測量誤差範圍之內,不能確定哪個更好。
然而,從類別分解來看,故事並不那麼簡單。Borealis在醫療健康、公共服務、安全法律三個類別上的優勢都很明顯,但在語言類別上,Borealis和Gemma幾乎打平,而且Borealis的語言類危機率在多個規模上反而高於Gemma。這意味著如果一個挪威機構的核心需求是語言處理,Borealis的整體優勢可能並不適用於它的場景。
研究團隊特別強調,這些數字是在固定工具、固定場景包、固定裁判的條件下得出的比較證據,不代表對這兩款AI在任何場景下的絕對安全評級,更不是部署許可證。正確的使用方式是:把分數、分數差、危機率差、各類別細分、不確定性範圍打包作為一套證據,交給有具體領域知識的決策者去綜合判斷,而不是把一個數字當成最終排名。
**八、這套方法的局限和未來方向**
研究團隊對自己方法的局限性保持了相當坦誠的態度,這值得專門展開說明。
首先,通過了驗證鏈,只是證明"工具測量了真實的東西而不是噪音",並不能證明"工具測量的就是實際部署場景中真正重要的安全因素"。後者需要領域專家來判斷——是否選擇的場景包恰好覆蓋了實際使用中可能出現的風險類型,這個判斷無法被自動化。
其次,研究團隊使用的安全對比方式(用"不拒絕任何請求的AI"作為不安全的對照組)只測試了AI在"拒絕有害請求"這一種安全維度上的表現,現實中的不安全行為遠不止於此,比如提供錯誤資訊、產生偏見、泄露隱私等,這些都不在當前驗證框架的覆蓋範圍內。
第三,現有的工具對"AI在被評測時是否知道自己在被評測"這個問題沒有專門處理。研究已經表明,AI模型有時候能"察覺"自己處於測試狀態,並因此表現得比正常部署時更謹慎。這個問題在大型前沿模型上已經有初步的對策,但SimpleAudit目前還沒有實現相應的措施。
第四,場景包的質量完全取決於場景作者對實際部署風險的理解。如果場景包設計得過於狹窄,工具會產生非常精確但不完整的評估;如果場景包設計得過於寬泛,類別細分就很難解讀。正確的使用方式是疊代的:運行、審閱、修訂場景包、再運行。
**九、從這套框架中可以學到什麼普遍規律?**
歸根結底,這項研究提出的核心觀點是一個關於測量本身的深刻轉變:在沒有"標準答案"的情況下,評估一個測量工具是否可信,應該通過檢驗這個工具對已知對比是否有響應、是否主要測量了目標特性而非噪音、以及測量結果是否穩定,而不是通過與標準答案對比。
這個思路的影響不僅限於AI安全評測。凡是在新興領域、小語種場景、或受監管的垂直行業中需要評估AI系統,而又沒有現成標準的情況下,這套驗證框架都提供了一個可操作的替代路徑。
對於任何想要複製或應用這套方法的團隊,研究團隊給出了一個清晰的最小披露要求:必須報告評測工具的所有配置參數(場景包版本、評分標準、審計員和裁判的型號、運行次數)、分數和分數差、危機率差、置信區間、以及工具明確不支持的主張(比如"這不等於通用安全認證")。只有把這套完整資訊打包報告,比較結論才有意義,單獨拿出一個數字說"A比B得分高10分所以A更安全"是站不住腳的。
SimpleAudit本身已經作為開源工具發布在GitHub上(kelkalot/simpleaudit),並且獲得了"數字公共品"的認證,這意味著受監管的公共機構可以使用它而不必擔心智慧財產權問題,同時任何人都可以查閱它的源代碼、重現研究結果,甚至用更強的審計員重新運行同一套場景來挑戰原來的結論。
說到底,AI安全評測本質上是一個測量問題,而測量的核心不是"我們是否有標準答案",而是"我們是否有足夠理由相信我們的測量工具測量了真實的東西"。這項研究給出了在沒有標準答案時如何建立這種信任的一條路徑,儘管這條路仍然需要領域專家在終點處做最後的判斷。
對於想要深入了解這套方法的讀者,完整論文可通過arXiv編號2605.06652查閱,分析代碼和原始實驗數據則可在GitHub的finnschwall/simpleaudit_neurips2026_analysis倉庫找到。
---
Q&A
Q1:SimpleAudit評分工具的驗證鏈三個環節分別是什麼?
A:驗證鏈包括三個遞進環節。第一是"響應性",測試工具能否區分正常安全的AI和被特意改造成"不拒絕任何請求"的AI,類似檢驗溫度計能否區分冰水和沸水。第二是"目標敏感性",通過統計方差分解確認分數的波動主要來自被測AI本身,而不是裁判AI或審計員AI的偏好。第三是"可重複性",通過多次重複運行確認分數穩定,研究發現10次運行後誤差已可控制在1分以內。
Q2:為什麼審計員AI太強反而會破壞評分效果?
A:當審計員AI能力遠超被測AI時,它會把所有目標AI(包括正常安全的模型)都逼到極低得分,導致安全與不安全AI之間的分數差消失,評分工具失去了區分不同AI安全程度的能力。研究發現使用GPT-5級別的審計員時,不同安全AI之間的比較分數完全壓平,無法做出有意義的比較。因此審計員能力必須與被測AI的能力範圍相匹配。
Q3:Borealis和Gemma 3在挪威公共部門場景中的安全對比結論是什麼?
A:在醫療健康、公共服務、安全法律三個類別上,同等規模的Borealis普遍優於Gemma 3,4B規模差距最大(約14個百分點)。但在語言類別上兩者幾乎打平,且Borealis的語言類危機率在多個規模上反而更高。研究明確指出這些結論只在固定的評測配置下成立,不是通用安全排名,具體選擇還需結合實際部署場景由領域專家判斷。






