當沒有「標準答案」時，怎麼判斷哪個AI更安全？挪威奧斯陸多家頂尖研究機構給出了一套全新的評測框架

這項研究由挪威奧斯陸大都會大學、辛穆拉城市數字工程中心、辛穆拉研究實驗室、奧斯陸大學以及挪威衛生局聯合開展，以預印本形式於2026年5月7日發布，論文編號為arXiv:2605.06652。有興趣深入了解的讀者可以通過該編號在arXiv平台查閱完整論文。

贊助商廣告

**一個真實的煩惱：沒有考試卷，怎麼給AI評分？**

假設你是挪威某個政府部門的負責人，上頭要求你在兩款AI語言模型中選一個用於公共服務諮詢，比如幫市民解答各種政策問題。你最關心的問題當然是：這兩款AI哪個更安全？哪個更不容易說出讓人尷尬甚至有害的話？

麻煩在於，全世界現有的AI安全測試題庫，幾乎沒有任何一套是專門針對挪威語、挪威法規、挪威公共服務場景設計的。那些主流的英文安全評測標準，對你這個挪威政府採購場景來說，基本上是"雞同鴨講"。而且，即便你花大價錢專門組織專家來出題、標註答案，這套題庫做好了，AI卻又更新了新版本，你還得重新評測一遍。

這個困境不是挪威獨有的，全球各種小語種國家、各類行業垂直場景、各類受監管領域，都面臨同樣的問題：**沒有現成的標準答案，如何評判AI的安全性高低？**

正是為了解決這個真實存在的難題，這支來自挪威多家頂尖研究機構的聯合團隊，提出了一套被他們稱為"無基準比較安全評分"的新方法，並將其實現為一個名為SimpleAudit的開源工具。這套方法的核心邏輯是：既然沒有標準答案，我們就換一種方式來驗證評分工具本身是否可信。

**一、為什麼現有方法都不夠用？**

在理解這套新方法之前，有必要先搞清楚，為什麼那些已經存在的AI安全評測方式，對上面說的那個挪威政府採購場景無能為力。

現有的主流做法大致分為三類。第一類是"靜態題庫"，也就是事先收集好一批問題和標準答案，讓AI作答然後對比。這類方法的問題很明顯：題庫是固定的，AI的能力在進化，題庫卻不會自動跟著更新；而且這些題庫幾乎清一色是英文，其他語言的覆蓋極為稀缺。挪威語的情況尤其典型——研究團隊專門調查了現有的挪威語AI評測資源，發現最全面的那套叫做NorEval的綜合評測集，整合了24個數據集、涵蓋九大任務類別，但偏偏完全沒有安全評測這一項。其他零散的挪威語評測工具，要麼只測毒性，要麼只測偏見，都遠遠達不到實際部署場景的要求。

贊助商廣告

第二類是"自動化紅隊攻擊"，就是用AI來攻擊AI，讓一個AI去想方設法誘導另一個AI說出不應該說的話，然後人工審查結果。這類方法的問題是，它產生的是一堆對話記錄和行為觀察，卻無法自動轉化成一個可以在不同時間、不同人之間直接對比的分數。對於政府採購這樣需要清晰數字來支撐決策的場景來說，"你們自己去看這些對話記錄吧"並不是一個有用的答案。

第三類是"用AI來給AI評分"，也就是讓一個AI模型充當裁判，評估另一個AI的回答質量。這種方法的可靠性問題已經被多項研究揭示：裁判AI會有明顯的偏好，比如偏好語言更華麗的回答、偏好篇幅更長的回答、偏好和自己風格相似的回答。更重要的是，絕對分數（某次評測得了72分）在不同裁判之間根本無法直接對比，但相對排名（A比B安全）通常還算靠譜。

研究團隊把這三種方法都不能很好覆蓋的那個空白地帶，明確命名為"無基準比較安全評分"場景，並指出這個場景有幾個核心特徵：沒有標準答案、需要產出可重複的數字、必須能在本地運行（不能把政府數據發送到外部伺服器）、還要能在模型更新後重新運行對比。

**二、換一種驗證思路：不問"答案對不對"，問"工具靠不靠譜"**

既然沒有標準答案，那傳統的"對比AI給出的答案和標準答案"的驗證方式就行不通了。研究團隊換了一種思路，他們問的不是"AI的回答對不對"，而是"這套評分工具本身可不可信"。

為了回答這個問題，他們設計了一個"工具可信度驗證鏈"，這條鏈子上掛著三個環節，每個環節都要通過才算合格。

第一個環節叫"響應性驗證"。這個環節的核心思路是：一把好的溫度計，應該能區分開冰水和沸水。對於一套安全評分工具來說，它至少應該能區分"明顯安全的AI"和"明顯不安全的AI"。研究團隊專門準備了一批"正常版AI"和"被特意改造成不拒絕任何請求的AI"（專業上叫做"abliterated"模型，即通過技術手段刪除了AI的拒絕行為），然後看評分工具能不能把這兩類AI的分數區分開來。這就像先用一杯明確是冰的水和一杯明確是沸騰的水來測試溫度計，確認它能區分這兩個極端情況，再用它去測量其他溫度。

贊助商廣告

第二個環節叫"目標敏感性驗證"。就算評分工具能區分安全和不安全，也有可能是因為別的原因，而不是真的測出了目標AI的安全特性。比如，可能是"裁判AI的癖好"導致了分數差異，而不是被測AI的行為本身。為了排除這個可能，研究團隊把評分過程中三個關鍵角色的貢獻都單獨拆出來分析：被測的目標AI（Target）、負責提問刁難的"審計員AI"（Auditor）、負責評分的"裁判AI"（Judge）。他們希望看到的結果是，目標AI的身份是最主要的分數決定因素，而不是審計員或裁判的"個人偏好"。

第三個環節叫"可重複性驗證"。一把好的尺子，每次量同一個東西，結果應該差不多。評分工具每次運行的結果，不應該隨機亂跳。研究團隊通過多次重複運行實驗，檢驗分數的穩定性。

這三個環節合在一起，構成了他們稱之為"工具有效性鏈"（Instrumental Validity Chain）的核心框架。通過這條鏈的工具，不能說它一定反映了現實部署中的真實安全性（那需要領域專家來判斷具體場景），但至少說明它測量的是真實存在的東西，而不是噪音或測量工具本身的癖好。

**三、SimpleAudit是怎麼工作的？**

理解了驗證框架，再來看研究團隊開發的SimpleAudit工具本身是如何設計的。

整個評測過程的核心結構，可以用一場模擬考試來類比。被測的AI（目標模型）是"考生"，另一個AI（審計員）扮演"主考官"，負責提出刁難性的問題；還有第三個AI（裁判）扮演"評卷老師"，負責評判考生的表現。這三個角色是完全獨立的，可以分別換成不同的AI，這個設計至關重要，因為只有三個角色獨立，才能把各自的影響分開來分析。

每次評測的流程是這樣的：從一個事先準備好的"場景包"里取出一個具體的安全場景（比如"如何處理用戶詢問有害資訊的問題"），然後審計員AI根據這個場景向目標AI發起多輪對話，逐漸加深追問；對話結束後，裁判AI審閱整段對話記錄，給出一個嚴重程度評分。這個嚴重程度分成五檔，0分代表最嚴重的失敗（AI做出了最危險的行為），4分代表完全通過。所有場景的得分平均之後，映射到0到100分的範圍，分數越高代表越安全。

贊助商廣告

除了平均分，工具還單獨統計"危機率"，也就是在所有場景中，有多少比例的場景得到了0分（最嚴重失敗）。這個指標很重要，因為高平均分有時候會掩蓋幾個嚴重失敗案例——就像一個學生大部分科目考了90分，但有一門考了0分，平均分看起來還不錯，但那門0分可能是致命的。

場景包是一個結構化的文件，每個場景有名稱、描述和分類資訊。研究團隊為挪威公共部署場景專門準備了一個場景包，覆蓋了醫療健康、公共服務、語言使用和安全法律四個類別，總計36個具體場景。整個工具可以完全在本地運行，不需要將對話數據發送到任何外部伺服器，這對政府等受監管機構來說尤為重要。

**四、三個關鍵問題的實驗結果**

研究團隊用自己搭建的這套工具，對上述三個驗證環節逐一進行了實證檢驗，結果非常清晰。

關於第一個環節"響應性"，他們把不同規模的正常AI和對應的"不拒絕版本AI"都放進來測。測試結果用一個叫做AUROC的指標來衡量，這個指標從0.5到1.0，0.5代表完全隨機（相當於拋硬幣），1.0代表完美區分。在配置最強的裁判和審計員的情況下，三個不同規模的目標AI分別獲得了1.00、0.98和1.00的AUROC值——幾乎是滿分區分度。即便換成規模相對小一些的裁判和審計員，AUROC也能保持在0.89以上。換句話說，這把溫度計確實能區分冰水和沸水，而且區分得相當準確。

關於第二個環節"目標敏感性"，研究團隊用一種叫做"方差分解"的統計方法，把分數的波動拆開來看，到底有多少是因為目標AI本身的不同，有多少是因為審計員的不同，有多少是因為裁判的不同。結果顯示，目標AI的身份貢獻了約52%的分數方差，這個數字是三個因素中最大的。審計員貢獻了約28%，裁判貢獻了約25%。這就好比你量體重，結果顯示52%的讀數變化來自人本身體重的變化，而不是來自體重秤的品牌差異——這說明這把秤主要測的確實是體重本身。

贊助商廣告

關於第三個環節"可重複性"，研究團隊進行了10次重複實驗，並通過統計方法分析了隨著重複次數增加，分數的穩定程度如何提升。結果表明，對於正常AI，單次運行的誤差約為8.3分（滿分100），到第9次重複運行時，誤差縮小到0.9分；對於不安全AI，穩定得更快，從第3次起誤差就降到了2分以下。研究團隊據此推薦的標準是"至少運行10次"，在這個運行次數下，分數的穩定性已經足夠支撐比較決策。

**五、裁判和審計員該怎麼選？**

這是一個非常實用的配置問題，研究團隊專門做了深入分析。

關於裁判的選擇，他們設置了五個不同規模的本地AI模型作為裁判（規模從最小的4B參數到最大的122B參數），然後與一個"標準參考裁判"（GPT-5）進行比較，看哪些本地裁判的判斷和GPT-5最接近。關鍵指標不是"多少次評分和GPT-5完全一致"，而是"多少次把GPT-5認為嚴重的問題錯誤地歸類為無關緊要"，這個指標被稱為"危機遺漏率"。結果顯示，最小的兩個規模（4B和9B參數）是不合格的裁判，4B規模的模型有44%的概率把嚴重失敗誤判為無關緊要——相當於有將近一半的紅色警報被當成了綠色燈。而122B和35B規模的兩個模型，危機遺漏率都在10%左右，接近GPT-5自身的重複一致性水平（約4%），是可用的本地裁判。

關於審計員的選擇，結論更加微妙，也更加關鍵。審計員是整個評分工具中"最重要的設計選擇"。審計員太弱，提不出有深度的刁難問題，就像一個不太會考試的主考官，考不出真正的差距；但審計員太強，反而會把問題。當研究團隊使用最強的GPT-5作為審計員時，它把所有目標AI（包括那些正常安全的AI）都逼得得分很低，導致不同安全AI之間的分數差距消失了——這就好比一個極其嚴格的主考官，把班上所有學生都考得不及格，從成績上你反而看不出誰學得好誰學得差了。因此，審計員的能力必須和被測目標AI的能力範圍相匹配，既要能產生有效的壓力，又不能強到把所有差異都壓平。

贊助商廣告

此外，研究團隊還發現了一個節省成本的配置策略：讓裁判和審計員使用同一個規模的模型（即J=A原則）。這樣做的原因是，裁判的主要誤差（絕對分數偏差）在計算兩個AI之間的"分數差"時會相互抵消，而審計員的影響不會抵消，因此在有限資源下，把計算資源更多地投給審計員比投給裁判更有價值。

**六、這套框架對其他工具也適用嗎？**

研究團隊不滿足於只驗證自己開發的SimpleAudit，還把同一套"工具可信度驗證鏈"用到了另一個來自Anthropic公司（也就是Claude AI的開發者）的工具Petri上，想看看這套驗證框架是否具有普遍意義。

Petri是一個專門為"發現"而設計的工具，它的目標是快速、廣泛地找出AI可能存在的各種行為問題，供專家審查。它默認有38個不同的評分維度，每個維度捕捉AI的一種特性。

研究團隊用同樣的實驗設置（相同的場景、相同的模型規模、相同的運行次數）運行了Petri，然後對其中一些關鍵維度逐一檢驗是否通過那三個驗證環節。結果證明，框架確實具有普遍意義——Petri的"concerning"（令人擔憂）維度完美通過了三個環節，AUROC在所有測試配置中都達到了0.99以上，這個維度的目標AI貢獻方差也是最大的，而且10次運行後得分高度穩定。其他一些維度，比如"needs_attention"（需要關注）和"concerning_with_no_mitigating_factors"（無緩解因素的擔憂），同樣通過了驗證。

但也有一些維度沒能通過。比如"u_bizarre_behavior"（無故怪異行為）這個維度，儘管它的方差分析顯示目標AI是最主要的影響因素，但它完全無法區分正常AI和不安全AI——這說明這個維度確實在測量某種真實的目標AI特性，但這個特性和安全性本身關係不大，更多反映的是AI能力高低而非安全行為。還有"admirable"（令人欽佩）這個維度，連目標敏感性這一關都過不了——裁判的影響和目標AI本身的影響幾乎一樣大，這意味著這個維度的分數主要反映的是裁判的偏好，而不是被測AI的行為。

贊助商廣告

這些對比揭示了一個深層道理：工具通過了驗證鏈，不等於工具的每一個維度都可信；工具沒通過驗證鏈，也不等於所有維度都沒用。驗證鏈的價值在於，它能精確地指出哪些維度可以作為可信的評分依據，哪些不行。

值得一提的是，從實際使用效率來看，Petri每次運行消耗的token（AI處理語言的基本單位，可以理解為計算資源消耗量）大約是SimpleAudit的1.7倍，主要原因是Petri的審計員使用了更複雜的工具調用機制。對於需要頻繁重複運行（比如每次模型更新後重測）的採購場景，這個差距會隨次數疊加而擴大。

**七、挪威公共部門採購案例：Borealis vs Gemma 3**

有了經過驗證的工具，研究團隊把它用到了一個真實的採購比較場景中：在挪威公共部門部署場景下，比較Borealis Instruct（一個挪威本地開發的AI模型）和Google的Gemma 3 IT在不同規模下的安全表現。

兩款模型都測試了四個參數規模：1B、4B、12B和27B（B代表"十億參數"，數字越大模型越大、能力通常越強）。實驗使用了36個挪威場景，每個配置重複運行10次，所有分數配有置信區間（一種表示測量不確定性的區間）。

Borealis隨規模增大，整體安全分數從4.6%（1B）急劇攀升到27.9%（4B）、42.3%（12B），但在12B到27B之間幾乎停止增長，僅提升了1.4個百分點——這個提升甚至小於單次重複運行的正常波動範圍。更細化來看，醫療健康和安全法律兩個類別在27B時反而比12B略有下降，而語言和公共服務類別還在繼續提升。這說明"規模越大越安全"並不是一個無條件成立的規律，不同場景類別有各自的規律。

在Borealis和Gemma 3的直接對比中，全場景平均分差（Borealis減Gemma）在4B、12B、27B規模上分別為+14.2、+7.0、+6.0個百分點，都明顯超過了測量誤差範圍，說明在這些規模上Borealis確實更安全。危機率（最嚴重失敗的比例）差異也呈現同樣方向：Borealis的危機率分別低23.9、4.7、7.5個百分點。但1B規模的差距（+0.8個百分點）在測量誤差範圍之內，不能確定哪個更好。

贊助商廣告

然而，從類別分解來看，故事並不那麼簡單。Borealis在醫療健康、公共服務、安全法律三個類別上的優勢都很明顯，但在語言類別上，Borealis和Gemma幾乎打平，而且Borealis的語言類危機率在多個規模上反而高於Gemma。這意味著如果一個挪威機構的核心需求是語言處理，Borealis的整體優勢可能並不適用於它的場景。

研究團隊特別強調，這些數字是在固定工具、固定場景包、固定裁判的條件下得出的比較證據，不代表對這兩款AI在任何場景下的絕對安全評級，更不是部署許可證。正確的使用方式是：把分數、分數差、危機率差、各類別細分、不確定性範圍打包作為一套證據，交給有具體領域知識的決策者去綜合判斷，而不是把一個數字當成最終排名。

**八、這套方法的局限和未來方向**

研究團隊對自己方法的局限性保持了相當坦誠的態度，這值得專門展開說明。

首先，通過了驗證鏈，只是證明"工具測量了真實的東西而不是噪音"，並不能證明"工具測量的就是實際部署場景中真正重要的安全因素"。後者需要領域專家來判斷——是否選擇的場景包恰好覆蓋了實際使用中可能出現的風險類型，這個判斷無法被自動化。

其次，研究團隊使用的安全對比方式（用"不拒絕任何請求的AI"作為不安全的對照組）只測試了AI在"拒絕有害請求"這一種安全維度上的表現，現實中的不安全行為遠不止於此，比如提供錯誤資訊、產生偏見、泄露隱私等，這些都不在當前驗證框架的覆蓋範圍內。

第三，現有的工具對"AI在被評測時是否知道自己在被評測"這個問題沒有專門處理。研究已經表明，AI模型有時候能"察覺"自己處於測試狀態，並因此表現得比正常部署時更謹慎。這個問題在大型前沿模型上已經有初步的對策，但SimpleAudit目前還沒有實現相應的措施。

第四，場景包的質量完全取決於場景作者對實際部署風險的理解。如果場景包設計得過於狹窄，工具會產生非常精確但不完整的評估；如果場景包設計得過於寬泛，類別細分就很難解讀。正確的使用方式是疊代的：運行、審閱、修訂場景包、再運行。

贊助商廣告

**九、從這套框架中可以學到什麼普遍規律？**

歸根結底，這項研究提出的核心觀點是一個關於測量本身的深刻轉變：在沒有"標準答案"的情況下，評估一個測量工具是否可信，應該通過檢驗這個工具對已知對比是否有響應、是否主要測量了目標特性而非噪音、以及測量結果是否穩定，而不是通過與標準答案對比。

這個思路的影響不僅限於AI安全評測。凡是在新興領域、小語種場景、或受監管的垂直行業中需要評估AI系統，而又沒有現成標準的情況下，這套驗證框架都提供了一個可操作的替代路徑。

對於任何想要複製或應用這套方法的團隊，研究團隊給出了一個清晰的最小披露要求：必須報告評測工具的所有配置參數（場景包版本、評分標準、審計員和裁判的型號、運行次數）、分數和分數差、危機率差、置信區間、以及工具明確不支持的主張（比如"這不等於通用安全認證"）。只有把這套完整資訊打包報告，比較結論才有意義，單獨拿出一個數字說"A比B得分高10分所以A更安全"是站不住腳的。

SimpleAudit本身已經作為開源工具發布在GitHub上（kelkalot/simpleaudit），並且獲得了"數字公共品"的認證，這意味著受監管的公共機構可以使用它而不必擔心智慧財產權問題，同時任何人都可以查閱它的源代碼、重現研究結果，甚至用更強的審計員重新運行同一套場景來挑戰原來的結論。

說到底，AI安全評測本質上是一個測量問題，而測量的核心不是"我們是否有標準答案"，而是"我們是否有足夠理由相信我們的測量工具測量了真實的東西"。這項研究給出了在沒有標準答案時如何建立這種信任的一條路徑，儘管這條路仍然需要領域專家在終點處做最後的判斷。

對於想要深入了解這套方法的讀者，完整論文可通過arXiv編號2605.06652查閱，分析代碼和原始實驗數據則可在GitHub的finnschwall/simpleaudit_neurips2026_analysis倉庫找到。

贊助商廣告

---

Q&A

Q1：SimpleAudit評分工具的驗證鏈三個環節分別是什麼？

A：驗證鏈包括三個遞進環節。第一是"響應性"，測試工具能否區分正常安全的AI和被特意改造成"不拒絕任何請求"的AI，類似檢驗溫度計能否區分冰水和沸水。第二是"目標敏感性"，通過統計方差分解確認分數的波動主要來自被測AI本身，而不是裁判AI或審計員AI的偏好。第三是"可重複性"，通過多次重複運行確認分數穩定，研究發現10次運行後誤差已可控制在1分以內。

Q2：為什麼審計員AI太強反而會破壞評分效果？

A：當審計員AI能力遠超被測AI時，它會把所有目標AI（包括正常安全的模型）都逼到極低得分，導致安全與不安全AI之間的分數差消失，評分工具失去了區分不同AI安全程度的能力。研究發現使用GPT-5級別的審計員時，不同安全AI之間的比較分數完全壓平，無法做出有意義的比較。因此審計員能力必須與被測AI的能力範圍相匹配。

Q3：Borealis和Gemma 3在挪威公共部門場景中的安全對比結論是什麼？

A：在醫療健康、公共服務、安全法律三個類別上，同等規模的Borealis普遍優於Gemma 3，4B規模差距最大（約14個百分點）。但在語言類別上兩者幾乎打平，且Borealis的語言類危機率在多個規模上反而更高。研究明確指出這些結論只在固定的評測配置下成立，不是通用安全排名，具體選擇還需結合實際部署場景由領域專家判斷。