當AI檢測器只會給你評分：加州大學聖地亞哥分校的研究者如何讓機器「說出理由」

這項由美國加州大學聖地亞哥分校計算、資訊與數據科學學院完成的研究，以預印本形式發表於2026年5月27日，論文編號為arXiv:2605.27921。有興趣深入了解的讀者可以通過該編號在arXiv資料庫中查閱完整論文。

贊助商廣告

一、一個讓教授陷入尷尬的故事

某位大學教授把學生的作業提交給一款AI內容檢測工具，螢幕上隨即彈出一個醒目的數字："95%由AI生成"。教授立刻啟動了學術不端調查程序，可當她坐在仲裁委員會面前時，卻發現自己根本無法回答最關鍵的問題——為什麼你認為這篇文章是AI寫的？她說不出任何具體理由，因為那個工具只給了她一個百分比，僅此而已。

這個場景並非假設，而是當下全球無數課堂里正在真實上演的困境。加州大學聖地亞哥分校的研究團隊正是從這個痛點出發，著手開發了一套名為TELL的全新AI文本檢測系統。TELL這個名字取得頗有深意，在英語俚語中，"tell"既有"告訴"的意思，也指能夠暴露一個人真實意圖或狀態的細微線索——就像撲克牌玩家手上不自覺抖動的小動作，被稱為"tell"。研究者希望這套系統不僅能識別AI生成的文字，更能把那些關鍵的"線索"一一指出來，讓使用者自己判斷。

二、為什麼光有一個分數遠遠不夠

在理解TELL的設計思路之前，有必要先弄清楚當前AI檢測工具的處境究竟有多尷尬。從表面上看，學術界在這個領域發表了大量論文，很多模型都宣稱在測試集上達到了接近完美的準確率，仿佛"識別AI文本"已經是一個被解決的問題。

然而現實卻截然不同。以一款名為Fast-DetectGPT的檢測工具為例，它的原始論文報告了高達0.9887的AUROC分數（這個指標可以理解為"在隨機挑選一篇AI文章和一篇人類文章時，系統正確區分兩者的概率"，滿分為1）。可是當其他研究者獨立測試時，這個分數跌到了0.8405，另一批研究者測出了0.5533，還有人只測到了0.4632——而0.5意味著純粹靠猜硬幣正反面。同一個工具，換一批數據，效果可以從"堪稱完美"驟降到"比瞎猜強不了多少"。

贊助商廣告

更令人憂慮的是一些廣為流傳的真實案例。2023年，多家媒體報道稱，當時的AI檢測工具把美國憲法全文判定為AI生成的內容。這種荒謬的誤判雖然被後續工作修正，但造成的信任損耗卻難以彌補。與此同時，有研究顯示，部分學生群體正在採取各種奇特的"反檢測"策略——故意在作文里留下拼寫錯誤、刻意寫得"笨拙"一些，甚至花錢購買所謂的"AI人性化"工具來把自己的真實人類寫作改造成看起來更像人寫的樣子。這種局面頗具諷刺意味：為了證明自己是人類，人們不得不把自己的文字弄得更像他們心目中"不那麼完美的人類"該有的樣子。

這批來自聖地亞哥的研究者將這種現象定義為"信任危機"——一次看得見的失敗，能摧毀大量正確預測所積累的信任。他們的核心判斷是：這個領域長期以來追求的方向出了問題。單純追求更高的準確率分數，就像是一個醫生只告訴你"你有85%的概率患了某種病"，但拒絕告訴你任何具體症狀、檢查指標或診斷依據——這樣的診斷，你敢據此做手術嗎？

三、TELL的核心理念：偵探式推理而非黑箱判決

TELL的設計哲學可以用一個偵探破案的框架來理解。一位優秀的偵探不會只宣布"我認為嫌疑人就是他"，而是會把所有關鍵證據一一擺出來，告訴你：這個人的鞋底有特定地點的泥土，他的手機在案發時出現在現場附近，他的證詞裡有前後矛盾的地方……有了這些具體證據，你作為陪審團成員才能獨立判斷這份證據是否充分、邏輯是否成立。

TELL的工作方式與此如出一轍。當你把一段文字輸入TELL，它不會只吐出一個百分比，而是把原文重新呈現給你，同時在其中標註出一個個具體的片段，並對每個片段給出理由。比如，它會指出某個詞組的搭配方式是AI訓練數據的典型產物，或者某處出現了邏輯上的矛盾，又或者某種不尋常的拼寫錯誤恰恰說明這很可能是真人在打字時的手誤——因為AI的分詞機制讓它幾乎不可能自然產生那種特定類型的錯別字。

贊助商廣告

這種設計的妙處在於，它把"決策權"真正交還給了使用者。教授看到這些具體證據後，可以結合自己對學生寫作習慣的了解，加上對文章本身主題和語境的判斷，最終形成自己的結論。如果她認為某個被標註的"AI信號"其實是該學生一貫的表達風格，她完全可以推翻系統的建議。這是其他任何現有檢測工具都做不到的事情。

研究者還指出，TELL潛在的價值遠不止於此。它還可以作為一種教學工具。已有研究表明，經過專門訓練的人類能夠相當準確地識別AI文本，而TELL給出的詳細解釋，正是幫助普通人建立這種直覺的最好教材。每次閱讀TELL的分析，使用者都在潛移默化地學習"AI寫作的典型痕跡是什麼"，久而久之，即便沒有任何工具輔助，他們自己也能成為更好的判斷者。

四、從零到可用：TELL是怎麼被訓練出來的

要理解TELL的訓練過程，可以把它類比成培養一個法醫偵探的過程，分為兩個截然不同的階段。

第一個階段相當於"課堂學習"。研究團隊需要先教會模型"什麼叫做標註線索"這件事本身。問題在於，現有的數據集裡根本沒有帶有"片段級標註和自然語言解釋"的AI/人類文本數據——換句話說，沒有現成的教材。於是研究者自己動手，在一個名為EditLens的數據集基礎上，利用GPT-5.5來比較人類文本和AI修改版本之間的差異，並生成帶有片段標註的示例。此外，他們還借用了來自拉塞爾等人2025年研究的300份文檔，這些文檔包含了真實人類標註者的書面評論——研究者挑選其中100份，再次讓GPT-5.5和GPT-5.4根據這些評論生成對應的片段標註。為了保證質量，他們過濾掉了評論字數少於50個單詞的樣本，最終得到316條額外的訓練示例。整個第一階段產出約1440條帶標註的訓練樣本。

這個階段訓練出來的中間模型，還不是一個合格的檢測器——它的AUROC分數只有0.638，在極低假陽性率下的檢出能力幾乎為零。但這並不是問題，因為第一階段的目的只是讓模型學會"用正確的格式思考和輸出答案"，而非真正學會辨別真偽。

贊助商廣告

第二個階段才是真正的實戰訓練，採用的是一種名為GRPO的強化學習方法。可以把它類比為讓一個已經學會了法庭陳述格式的新晉偵探，真正去接觸海量真實案件，並根據每次結案後的評分反饋來不斷調整自己的判斷邏輯。訓練數據來自研究者精心整合的一個超大型數據集，涵蓋10個不同來源、橫跨15個領域（包括學術論文摘要、創意寫作、新聞、學生作文等），共計約920萬條樣本。

這個訓練階段有幾個頗具匠心的設計值得細說。

關於數據採樣策略，研究者遇到的一個現實挑戰是：這些來源的數據量差異懸殊，最大的RAID數據集有765萬行，最小的ArguGPT只有4038行。如果按比例採樣，模型就會被大數據集的特徵所主導；如果每個來源等量採樣，又會浪費大量數據。最終採用的解決方案是：按"數據集+領域"的組合劃分層級，每層的採樣量按該層數據量的平方根來確定——這是一種介於"按比例"和"等量"之間的折中方案，兼顧了覆蓋廣度和分布均衡。

關於課程學習機制，並非所有訓練樣本對模型都同等有用。如果某個樣本太簡單，模型每次都能答對，就學不到任何新東西；如果太難，模型每次都答錯，同樣無法有效學習。研究團隊採用了一種"動態難度窗口"機制：系統持續追蹤模型在每個數據層級上的正確率，優先給模型餵那些"大約一半情況下答對、一半情況下答錯"的樣本——這正是學習效率最高的難度區間。隨著訓練的推進，這個難度窗口會逐漸向更難的樣本偏移，讓模型不斷挑戰自己的極限。

關於"經驗回放"機制，研究者還維護了一個"成功案例緩存"，最多保存6000條模型之前答對的樣本。在每批訓練中，會混入一定比例的歷史成功案例——訓練初期這個比例是35%，後期升到50%。這相當於在讓偵探處理新案件的同時，定期回顧他曾經成功破獲的經典案例，既防止他忘記已經掌握的技巧，又避免他對新案件產生過度自信。

贊助商廣告

關于格式崩潰問題，訓練過程中出現了一個有趣的"頑疾"：模型有時會進入某種異常狀態，比如開始"糾正"輸入文本中的語法錯誤並輸出修正版，或者不停重複結構性符號，或者乾脆輸出與輸入無關的內容。為此研究者開發了一套格式檢測和自動修複流程，對那些格式偏差不超過10%的輸出進行自動矯正，並把矯正後的版本用於訓練更新。早期他們曾嘗試直接給格式錯誤的輸出打0分，結果導致模型完全崩潰——因為很多情況下格式錯誤只是少了一個逗號之類的小問題，對所有相關的詞元一律懲罰，會給模型發出非常混亂的信號。

關於獎勵信號的設計，這是TELL訓練方案中最精妙的一部分，也是研究者偏離標準做法最遠的地方。在TELL的輸出中，不同位置的詞元扮演著完全不同的角色：有些是必須原樣複製輸入文本的"文檔複製詞元"，有些是固定格式中的"結構詞元"（如標籤的開頭和結尾符號），有些是核心的"標註類型詞元"（判斷某段文字是AI還是人類的詞元），還有些是"解釋詞元"（闡述為何認為這段文字是AI或人類寫的）。

對於文檔複製詞元，研究者給予零獎勵——無論輸出質量好壞，模型都應該原樣複製輸入文字，如果對這些詞元施加獎勵或懲罰，會給模型發出"根據你的表現好壞，有時候應該修改原文"這樣的錯誤信號。對於結構詞元，給予小幅固定正向獎勵，鼓勵模型始終遵守輸出格式。對於標註類型詞元（AI還是人類），獎勵設計最為精巧：如果判斷與實際標籤一致，獎勵為"可信度分數×(+1)"；如果判斷相反，懲罰為"可信度分數×(-1)+1"。這意味著，如果模型找到了一個可信度極高的證據，但這個證據恰好指向與整體判斷相反的方向，它只會受到較小的懲罰——因為發現與主流判斷相悖的高質量證據本身是有價值的，體現了模型在認真分析而非一味討好。對於解釋詞元，獎勵取決於一個凍結的外部評判模型（Grok-4.1-Fast）對這條解釋的可信度評分，同時還會考查這批解釋在長度和重複性方面是否達標。

贊助商廣告

五、TELL的表現究竟如何

測試結果顯示，經過完整訓練的TELL在5000個測試樣本上達到了0.927的AUROC分數，在所有被對比的檢測器中排名第一。這意味著：隨機抽取一篇AI文章和一篇人類文章，TELL正確區分兩者的概率約為92.7%。

排名第二的MAGE得了0.913，差距雖然不大（統計檢驗表明這個差距不具有顯著性），但在另一個關鍵指標上，兩者之間的鴻溝就相當明顯了。這個指標叫做"1%假陽性率下的真陽性率"——可以通俗理解為：當你把系統設置得極為嚴格、只允許每100篇人類文章被誤判為AI的不超過1篇時，系統還能檢測出多少比例的AI文章。在這個指標上，TELL達到了63.8%，而MAGE只有4.2%。這意味著在需要高度謹慎、不能隨便冤枉人的場景下，TELL的實際可用性遠高於MAGE。

榜單上的其他檢測器表現參差不齊。Pangram-EditLens得了0.911，Fast-DetectGPT得了0.861，ArguGPT得了0.828，往後則是T5Sentinel（0.802）、DetectLLM-NPR（0.782）、OpenAI RoBERTa（0.777）等一串依次下降的分數。Binoculars和DNA-GPT的分數更是分別只有0.616和0.581——與原始論文中宣稱的高分相去甚遠，印證了研究者在論文開篇就提出的那個警告：很多檢測器的高分不過是在特定測試集上的"鏡中花"，換一批數據就原形畢露。

按領域細分來看，TELL在大多數領域都表現穩健，唯一的軟肋是"常識補全"類文本（AUROC 0.734），研究者認為這與該類數據在訓練集中覆蓋不足有關。總體而言，TELL是所有被測系統中跨領域表現最為均衡的一個，沒有任何領域出現大幅落後於整體水平的情況。

六、那些解釋到底有多好

準確率固然重要，但對TELL來說，更核心的問題是：它給出的那些解釋，質量究竟怎麼樣？能不能真正幫助用戶做出有依據的判斷？

為了回答這個問題，研究者設計了一套精心的評估方案。他們使用了拉塞爾等人2025年研究中的數據，這批數據包含200份文檔（之前沒有被用於訓練），每份文檔由5位人類專家分別寫下了他們的判斷理由，共計1000條人類評論。研究者讓TELL對這200份文檔各生成一條標註，然後把每份文檔對應的1條TELL輸出和5條人類評論混在一起，以隨機盲評的方式交給5個不同的AI評判模型（GPT-5.4-mini、DeepSeek 當AI檢測器只會給你評分加州大學聖地亞哥分校的研究者如何讓機器說出理由 V4 Flash、Nemotron Super、Gemma 4 26B和GPT-OSS 120B）進行排名評估。

贊助商廣告

評判標準涵蓋五個維度：證據的具體性（是否指向文檔中的特定內容而非泛泛而談）、可證偽性（讀者是否能夠根據解釋自行核查）、內部一致性（解釋是否自相矛盾）、合理性（是否符合常識和世界知識）以及現實根基（是否與文檔的具體語境相符）。

為了減少評判中的表面風格偏見——已有研究表明AI評判模型傾向於偏好更像AI寫的表達風格——研究者專門用同一款模型對人類評論進行了風格標準化處理，使人類評論和TELL的輸出在表達風格上儘量統一，讓評判者能夠純粹根據內容質量評分。

最終結果是，TELL在1000次兩兩比較中贏得了72.3%的勝利（95%置信區間為68.3%至76.2%）。五個評判模型的分數從66.3%到78.3%不等，但所有的分數都顯著高於50%的隨機水平，統計檢驗的p值均小於萬分之一。從字數上看，人類評論平均357.4個字符，標準差204.3；TELL的輸出平均443.8個字符，標準差157.1——TELL的解釋不僅普遍更長，而且長度更加穩定。

七、TELL在真實案例中的實際表現

研究者在論文附錄中分析了12個具體的文本樣本，這些案例非常直觀地展示了TELL相比其他工具的實際優勢所在。

在一段被同形異義字攻擊篡改的醫學文本中——攻擊者把拉丁字母替換成了外觀相似的西里爾字母，以混淆檢測系統——Pangram將其判定為"100%人類寫作"，而TELL不僅正確判斷了這段文字存在問題，還逐字指出了哪些詞裡混入了不屬於英文字母體系的字符，並解釋了這種字符替換的機制。研究者指出，對於這類文本，單純的真/假判斷本身意義不大，重要的是揭示出它被刻意篡改過的事實——而這正是TELL能做到、分數型工具永遠無法做到的事。

在哈利·波特第一章開頭段落的測試中，兩個工具都正確判斷為人類寫作，但TELL額外給出的資訊是：這段文字可能來自一本已出版的書，並指出了"thank you very much"這種帶有英式社交禮貌色彩的老派表達、"Grunnings"這個具有典型羅琳式幽默質感的虛構品牌名，以及敘述節奏中刻意製造的喜劇效果——這些都是真人作者風格的具體印記。

贊助商廣告

在一段故意塞滿地理錯誤的法國旅行文字中（文中把柏林說成法國首都、把德國超市奧樂齊說成法國超市、把法國說成與匈牙利接壤），Pangram判斷為"100%AI"，TELL同樣判斷為AI，但TELL還額外注意到文中那個故意插入的笑話——把奧樂齊說成法國超市。研究者頗為自得地寫道，他們沒想到TELL能察覺到這個細節，因為那恰恰是他們這些"人類創作者"刻意加入的一個梗。

在一段包含算術矛盾的學校活動報告中（文中說24名學生分別選擇了15人玩機器人、12人參加辯論、9人學藝術，但聲稱沒有學生同時參加多個項目，而15+12+9=36明顯超過了24），Pangram判斷為"100%人類寫作"，TELL判斷為AI，並明確指出了15+12+9不等於24這個矛盾，以及結尾處那句"數字證明了一切"的過度自信表達。

在一段多語言學生習作中（作者夾雜了西班牙語詞彙，語法也帶有非母語英語的特點），Pangram判斷為"100%AI"，而TELL判斷為"84.6%人類寫作"，給出的理由是：混用"abuela"和"la tarea"這種隨意的語碼切換是真實雙語環境的自然表現、"maybe is not perfect"這種非標準語序是真實非母語寫作者的典型特徵、描述晚飯後的具體場景和祖母催促做作業的細節具有難以偽造的真實感。研究者特別強調了這個案例的公平性意義：一個只會給出分數的檢測器，很可能系統性地歧視那些非母語英語寫作者或雙語文化背景的學生。

八、研究者對自身局限的誠實態度

TELL並非沒有問題，研究者相當坦誠地列出了他們認為需要正視的局限。

最值得警惕的是"錨定偏差"問題。心理學研究表明，當人們獲得帶有解釋的建議時，他們往往會過度依賴這個建議，即便建議是錯的。TELL提供解釋的初衷是幫助用戶獨立判斷，但反過來也可能讓用戶對系統的錯誤判斷更加深信不疑——因為有一套聽起來言之有理的說法支撐著那個錯誤結論。研究者試圖通過強調證據導向、在訓練中鼓勵模型同時標註支持AI和支持人類的證據來緩解這個問題，但承認這仍然是一個未能完全解決的挑戰。

贊助商廣告

關於多語言能力，TELL的訓練數據幾乎全部是英語，雖然非正式測試顯示它對其他語言也有一定的泛化能力，但這方面的系統性評估完全付之闕如，留待未來研究。

關於"無法解釋的案例"，研究者在人工檢查失敗樣本時發現，其中很多案例對他們自己來說也難以判斷——有時候，區分AI寫作和人類寫作的具體依據根本無法用普通人能理解和驗證的語言表達出來。他們認為，AI文本檢測在某些情況下本質上就是一個超出人類可理解範圍的問題，而TELL的設計哲學恰恰依賴於提供人類可驗證的證據，這形成了一個內在張力。

關於混合作者問題，目前TELL只處理"完全由人類寫作"對"完全由AI寫作"這個二元問題，而現實中大量文本處於兩者之間的灰色地帶——人類寫了草稿，用AI潤色；或者AI生成了大綱，人類填充了細節。這是比純粹的二元判斷複雜得多的任務，也是留給未來研究的重要方向。

關於解釋質量的評估，研究者最後坦承，他們用於評估TELL解釋質量的"黃金標準"本身也是AI生成的——他們雖然使用了5個不同的AI評判模型來增加多樣性，但終究沒有進行真正意義上的人類評估，原因很實際：經費不足。他們希望未來的研究能用真實人類評估來驗證這部分結果。

歸根結底，TELL這項研究的意義或許不在於它把檢測準確率又推高了幾個百分點，而在於它提出了一個更根本的問題：當我們使用這類工具時，我們真正需要的是什麼？是一個數字，還是一個能夠幫助我們思考的夥伴？研究團隊的答案很明確：真正有用的工具，應該讓使用者變得更聰明，而不是讓使用者變得更依賴。這個方向，或許比任何一個具體的準確率分數都更值得長久追索。感興趣的讀者可以通過arXiv:2605.27921查閱原始論文，也可以在ai-tells.tech體驗這套系統的實際效果，或在github.com/ACMCMC/TELL查看完整的開源代碼和數據。

贊助商廣告

Q&A

Q1：TELL系統在檢測AI生成文本方面的準確率能達到多少？

A：TELL在5000個測試樣本上達到了0.927的AUROC分數，在所有對比系統中排名第一。更關鍵的是，在極嚴格的低誤判設置下（每100篇人類文章最多誤判1篇），TELL仍能檢出63.8%的AI文章，而排名第二的MAGE在同等條件下只能檢出4.2%，差距相當懸殊。

Q2：TELL和普通AI檢測工具的最大區別是什麼？

A：普通AI檢測工具只輸出一個百分比分數，無法告訴用戶為什麼這篇文章被判定為AI寫的。TELL則會在原文中標註具體的片段，並用自然語言解釋每個片段為何是AI或人類寫作的線索，比如指出某處邏輯矛盾、某個不符合地理常識的細節、或者某種只有真實打字者才會犯的拼寫錯誤，讓用戶可以自行驗證和判斷。

Q3：TELL的解釋質量和人類專家相比如何？

A：研究者將TELL的解釋與真實人類專家撰寫的評論做盲評對比，在具體性、可證偽性、一致性、合理性和現實根基五個維度上，TELL的輸出在72.3%的比較中勝過人類專家評論，五個不同AI評判模型給出的分數在66.3%到78.3%之間，均顯著高於隨機水平。TELL的解釋平均長度也比人類評論更長，且長度更穩定。