當AI學會"看穿"寫作風格：俄勒岡大學研究團隊教會機器分辨"誰寫的文章"

這項由美國俄勒岡大學與Adobe研究院聯合開展的研究，以預印本形式發布於2026年4月，論文編號為arXiv:2604.21300，有興趣深入了解的讀者可通過該編號查詢完整論文。

贊助商廣告

**每個人都有獨特的"寫作指紋"**

每個人寫東西都有自己獨特的習慣。有人喜歡用長句子，有人說話簡短有力；有人愛用感嘆號，有人行文一本正經；有人寫著寫著總把話題扯回自己最喜歡的領域。這些細微的語言習慣，就像指紋一樣，構成了一個人獨特的"寫作風格"。

正因如此，版權糾紛里可以通過文風來判斷誰才是真正的作者，學術界可以用這種方法來查論文是否造假，甚至刑事調查中也能靠分析文字來鎖定犯罪嫌疑人。這個研究領域有個專業名稱叫"作者歸因"，說白了就是：給你一段文字，讓機器猜出是誰寫的。

但近年來，隨著ChatGPT等大型語言模型的興起，這件事變得越來越難了。現在的AI寫出來的文章流暢自然，越來越難以與人類寫作區分。於是，"這篇文章是不是AI寫的"這個問題也變得同樣迫切。

俄勒岡大學與Adobe研究院的研究團隊為此開發了一套全新的系統，取名為"可解釋作者變分自編碼器"，英文縮寫為EAVAE。這套系統的核心目標，是教會機器真正讀懂"風格"，而不是被文章的話題所迷惑——因為在這件事上，以往的機器犯了一個很常見但很根本的錯誤。

**一、機器是如何"認錯作者"的**

以一位專門寫偵探小說的作家柯南·道爾為例。他的作品裡充滿了推理、謀殺、線索和偵探，這些是他的"內容標籤"。以往的機器學習系統在接觸大量他的作品之後，會建立起一個簡單粗暴的關聯：柯南·道爾等於偵探小說。

這就引發了一個嚴重的問題。假設另一位作家阿加莎·克里斯蒂也寫偵探小說，當你拿出一段阿加莎的文字讓機器判斷是誰寫的，機器看了看——哦，是偵探題材——於是自信滿滿地回答：柯南·道爾寫的！

贊助商廣告

機器錯不是因為它不聰明，而是因為它在走捷徑。它學會的是"這類話題通常對應這位作者"，而不是"這位作者的寫作習慣有哪些獨特之處"。這個問題在學術界被正式稱為"話題混淆"——機器把話題當成了風格。

這就好比一個餐廳評論員，他見過太多次一家叫"小李川菜"的餐廳做麻辣紅油的菜，於是只要在任何地方看到麻辣紅油，就認為那一定是小李做的——哪怕其實是隔壁老王的手藝。風格與話題之間的混淆，讓機器無法真正做到跨領域、跨話題地認識一個人的寫作。

為了解開這個死結，研究團隊設計了一套全新的框架，核心思路是：把"寫作風格"和"文章內容"徹底分開來學習，讓機器學會用兩隻眼睛看文章，一隻眼睛專門看"寫的是什麼話題"，另一隻眼睛專門看"怎麼寫的、有什麼語言習慣"。

**二、兩階段訓練：先打基礎，再精細拆分**

EAVAE系統的訓練分為兩個大階段，可以理解為先上"基礎課"，再上"高級課"。

基礎課階段叫做"對比預訓練"。研究團隊首先收集了一個規模極為龐大的數據集，其中包含了來自黑客新聞、Stack Exchange問答平台、推特、《紐約時報》留言區、亞馬遜商品評論、部落格、Yelp餐廳點評、Reddit論壇、豆瓣讀書、電影評論等數十個不同來源的文章。最終，這個數據集包含了超過2744萬篇文檔，來自超過134萬個不同作者，覆蓋了各種話題和寫作風格。

數據集中的每一篇文章都知道是誰寫的。訓練的方法是這樣的：把同一個作者寫的兩篇文章拉在一起，讓機器學會把它們的"表示"（可以理解為機器對這篇文章的"理解摘要"）靠近；同時，把不同作者的文章推遠。久而久之，機器就能學會：哪些文字特徵是屬於這個作者的標記。

為了讓這個訓練更有難度、更有效，研究團隊還特意引入了"難負樣本挖掘"的技巧。具體來說，對於每一篇文章，系統會用一種叫BM25的資訊檢索技術，從資料庫里找出那些詞彙上與當前文章極其相似但其實是別人寫的文章，然後把這些"幾乎一樣但不是同一作者"的文章作為對比訓練材料。這樣一來，機器就必須學會更細微、更深層的風格差異，而不能只靠詞彙表面的相似度來做判斷。

贊助商廣告

除此之外，訓練所用的語言模型本身也採用了一種叫"雙向注意力機制"的技術。通俗地說，普通的語言模型看文字像讀書一樣，從頭到尾順著讀。而雙向注意力機制讓模型既能向前看也能向後看，就像人類閱讀時可以隨時回頭重讀前文一樣，這樣能更充分地理解句子的整體含義。

這個基礎課階段結束後，機器已經有了相當不錯的作者識別能力。但研究團隊認為還不夠，因為風格與話題的糾纏問題並沒有從根本上解決。於是進入了第二階段——高級課。

**三、雙鏡頭架構：分開學習風格與內容**

高級課階段是EAVAE真正的核心創新，採用了一種叫做"變分自編碼器"的技術框架，英文縮寫VAE。

變分自編碼器是什麼？可以這樣理解：假設你是一個很厲害的畫家，每次看到一幅畫，你能把它的精髓歸納成一個簡短的"描述"，然後憑藉這個描述就能重新畫出一幅相似的作品。這個"歸納描述"的過程叫編碼，"根據描述重新畫出來"的過程叫解碼。VAE做的就是這件事——把文章壓縮成一個"潛在表示"，然後從這個表示重新生成原文。

EAVAE的關鍵改進在於：它不用一個畫家，而是用兩個專門化的畫家。一個只負責歸納"文章寫的是什麼話題、內容是什麼"（內容編碼器），另一個只負責歸納"這篇文章的語言習慣、句式結構、用詞偏好是什麼"（風格編碼器）。這兩個編碼器完全獨立，各司其職，互不干擾。

風格編碼器是從第一階段訓練好的模型繼承而來的，它已經具備了不錯的風格識別能力。內容編碼器則是另一個現成的語言模型，專門處理語義內容。

兩個編碼器各自產生自己的"描述"，然後有一個共用的"重建器"把風格描述和內容描述合併起來，嘗試重新生成原始文章。如果重建得越像原文，說明這兩個描述合在一起沒有損失太多資訊；而如果它們各自都很專注於自己的任務，那麼風格描述里就不會混雜話題資訊，內容描述里也不會混雜語言習慣資訊。

贊助商廣告

這個過程在數學上通過一個叫"KL散度"的計算來約束，確保編碼出來的"描述"不會過於發散，始終保持在合理範圍內。研究團隊為風格和內容分別設置了獨立的約束參數，精細控制兩邊的學習力度。

**四、會"說話"的評判官：可解釋鑑別器**

僅有雙編碼器還不夠，因為機器很容易"表面上分開，實際上還是混在一起"。研究團隊為此引入了第三個關鍵組件：一個會生成自然語言解釋的鑑別器。

這個鑑別器的工作是這樣的：給它兩個風格描述，它不僅要判斷"這兩段文字是不是同一個人寫的"，還要用自然語言解釋自己為什麼這麼判斷。同樣地，給它兩個內容描述，它要判斷"這兩段文字講的是不是同一類話題"，同樣要給出解釋。

這個"要說出理由"的設計非常巧妙。普通的鑑別器只輸出一個是或否的答案，機器可以用各種捷徑來得到正確答案。但當鑑別器必須生成一段有邏輯的文字解釋時，它就不得不真正理解自己在看什麼——風格描述里到底有沒有混入話題資訊，內容描述里到底有沒有混入風格資訊。這種"倒逼理解"的機制，讓整個系統的風格和內容分離做得更徹底。

此外，這個設計還帶來了一個額外好處：用戶可以看到機器的判斷依據，而不是面對一個黑箱子。機器說"這兩篇是同一個人寫的，因為他們都喜歡用非正式口語，而且寫完食譜點評後都習慣說'下次還會做'"，這種解釋對人類來說是可信的、可驗證的。

在技術實現上，鑑別器和重建器被整合到了一個統一的生成模型里。這個生成模型使用了一種叫"混合提示"的技術：既有固定的文字模板來告訴模型該做什麼任務，也有可學習的"軟提示"來讓模型靈活適應不同需求。具體操作是，先把文字模板輸入模型的嵌入層獲得一串向量，然後把其中的占位符位置替換成風格或內容的編碼向量，再讓模型根據這個混合了指令和內容的輸入來生成目標文字。這個替換操作還特意保留了位置資訊，確保模型知道每個表示在語境中的位置關係。

贊助商廣告

**五、精心篩選的訓練數據：只用最難的例子**

高級課階段的訓練數據也經過了專門設計。研究團隊不是隨機取數據，而是專門挖掘兩類"難題"。

第一類難題：同一個作者，寫的是截然不同話題的兩篇文章。比如同一個人既寫過科技評測也寫過美食日記，這兩篇放在一起，話題毫無共同點，但風格應該是一致的。這類數據逼迫系統學會：即使話題不同，也要識別出相同的風格特徵。

第二類難題：不同的作者，寫的是極其相似話題的兩篇文章。比如兩個不同的人都寫了關於同一款手機的評測，話題幾乎一模一樣，但他們的寫作習慣是不同的。這類數據逼迫系統學會：即使話題相同，也要區分出不同的風格特徵。

為了找出這些難題數據，研究團隊先用一個叫GTE-Qwen2-1.5B的語言模型計算文章之間的語義相似度，再用K均值聚類算法把所有文章按話題分成1000個簇，從而系統性地識別出跨話題同作者和同話題跨作者的組合。最終，這個精心篩選的微調數據集包含了13.2萬對文章，來自1.2萬個不同作者。

每一對文章還附帶了由QwQ-32B這個大型語言模型生成的詳細說明，解釋為什麼這對文章在風格上相同或不同，在內容上相同或不同。這些說明就成了鑑別器學習"如何解釋判斷"的訓練素材。

**六、實驗結果：在三個測試場景中的表現**

研究團隊在多個不同場景下測試了EAVAE的表現。

第一個測試場景是作者級歸因，用的是亞馬遜商品評論數據集和PAN21數據集。測試方法是：給定一批候選作者，系統對他們的文章做了歸納，然後來一篇新文章，看系統能不能從候選人中找出正確的作者。評判標準有兩個：MRR（平均倒數排名，衡量正確答案排在第幾位）和R@8（正確答案是否在前8名之內的比例）。

在亞馬遜數據集上，EAVAE的MRR達到了97%，R@8達到了99%，相比此前最強的對比系統LUAR分別提升了3.6和3.3個百分點。在PAN21數據集上，MRR達到61%，R@8達到66.2%，與歷史最佳成績持平或略有超越。值得注意的是，僅做第一階段對比預訓練的版本MRR是94%，加上第二階段的VAE微調後提升到了97%，說明風格內容分離的架構本身帶來了實質性的提升，而不僅僅是因為用了更大的語言模型。

贊助商廣告

第二個測試場景更為嚴苛，用的是HRS語料庫，包含五個完全不同領域的內容：桌遊評論網站BoardGameGeek、全球新聞媒體Global Voices、手工製作教學網站Instructables、文學類Stack Exchange問答和STEM類Stack Exchange問答。這五個來源的話題分布差異極大，而且作者之間有大量交叉——同一個人可能在好幾個平台上都有發言，但講的是完全不同的事情。這是對"跨話題風格識別"最嚴苛的測試。

在這個測試集上，EAVAE的平均MRR達到了47.3%，平均R@8達到了72.2%，相比此前最強對比系統（Man和Nguyen 2024年的方法）分別提升了10.7個百分點和27.4個百分點。以R@8來說，這是超過40%的相對提升幅度，差距相當顯著。單看第一階段訓練的版本，平均MRR是41.2%，加入VAE微調後跳到了47.3%，這6.1個百分點的提升再次驗證了風格內容分離架構的價值。

第三個測試場景是AI生成文本檢測，用的是M4數據集，包含來自多個大型語言模型在四個不同領域（學術論文ArXiv、學術評審PeerRead、操作指南WikiHow、百科全書Wikipedia）的輸出。測試方法是：給系統一篇文章和幾篇參考文檔，讓它判斷這篇文章是不是某個AI模型生成的。評判標準是pAUC（曲線下面積的部分統計值），特別關注在誤報率極低時的檢測精度。

在"單目標檢測"模式（系統知道要檢測的是哪個特定AI模型的輸出）下，EAVAE的平均pAUC@1為65.7%，pAUC@5為93.5%，pAUC@10為98.5%。在"多目標檢測"模式（同時檢測多個可能的AI來源）下，平均pAUC@1為62%，pAUC@5為87.4%，pAUC@10為94.7%。這些成績相比對比系統有所提升，而且這一切都在EAVAE完全沒有針對AI檢測任務進行專門訓練的前提下取得的，完全依賴它學到的通用風格表示能力。

**七、拆開零件看貢獻：消融實驗的發現**

為了弄清楚是哪個設計起了關鍵作用，研究團隊做了一系列"拆零件"實驗，每次去掉一個組件看性能如何變化，全部在最難的HRS測試集上進行。

贊助商廣告

去掉VAE微調階段，只保留對比預訓練：平均MRR從47.3%跌到41.2%，R@8從72.2%跌到52.7%，兩項指標都大幅下降，證明微調階段的價值不可忽視。

把雙編碼器架構改成單編碼器（風格和內容共用同一個編碼器）：MRR從47.3%跌到44.5%，R@8從72.2%跌到58.3%，跌幅達13.9個百分點。這是所有消融實驗中最大的單項跌幅，證明"把風格和內容分開學習"是整個系統中最關鍵的設計選擇，不可或缺。

把可解釋鑑別器去掉，只保留VAE重建損失：MRR從47.3%跌到45.4%，R@8從72.2%跌到66%，說明鑑別器的對抗訓練對強制實現風格內容分離有獨立貢獻。

把可解釋鑑別器換成普通的MLP分類器（只輸出是否判斷，不生成解釋）：MRR是45.5%，R@8是65.4%，比可解釋鑑別器稍差，說明生成自然語言解釋的機制確實有助於更徹底的分離。

把生成模型的混合提示機制（固定模板加可學習軟提示）改成只用可學習軟提示：MRR跌到43.3%，比使用混合提示的版本低了4個百分點，說明固定文字模板提供的任務指引對生成質量有重要影響。

**八、機器的解釋：它到底在看什麼**

論文還展示了一個真實的案例，讓讀者看到EAVAE的鑑別器是如何解釋自己的判斷的。

兩段被測試的文字，第一段是某位作者對一道菜譜的評價，說做出來味道太淡，下次會加墨西哥香料和辣椒，末尾註明"為PAC Spring 09製作"。第二段也是食譜評價，說檸檬味紙杯蛋糕口感絕佳，自己加了新鮮檸檬汁，但從烤盤裡取出時容易碎，末尾註明"為Comfort Cafe Summer 09製作"。

系統判斷這兩段文字是同一個人寫的，然後給出了解釋：兩段文字都使用了口語化的非正式表達，比如第一段的"就那樣"和第二段的"絕了"；都是在寫食譜評價的同時描述自己的改動，第一段提到加香料，第二段提到加檸檬汁；兩段結尾都有"下次還會做"這類重複出現的表達；而且格式上都附有"為...製作"這樣的註記，保持了相似的記錄習慣。

贊助商廣告

這個解釋抓住的都是風格層面的特徵，而不是內容——雖然兩段文字一個寫的是墨西哥風味雞肉菜，另一個寫的是檸檬紙杯蛋糕，話題完全不同，但機器識別出了它們在語言習慣上的共性，而這正是作者歸因真正應該關注的東西。

**說到底，這項研究意味著什麼**

歸根結底，EAVAE做到的事情可以用一句話概括：它教會機器真正地讀懂"怎麼寫"，而不只是"寫了什麼"。

這件事的意義遠不止於文學鑑定或學術誠信審查。隨著生成式AI越來越普及，網路上的AI生成內容將越來越多，而且質量越來越高。依靠話題特徵來判斷是否是AI寫的方法會越來越失效，因為AI可以寫任何話題。只有真正抓住語言習慣層面的深層特徵，才能在日新月異的AI時代保持識別能力。

當然，這套系統並非無懈可擊。研究團隊自己也指出，鑑別器生成的自然語言解釋依賴於底層語言模型的能力，解釋的質量和人類的直覺並不總是完全吻合，還需要進一步提升解釋的準確性和實用性。此外，當前系統主要針對單人作者的歸因，面對多人合寫或協作寫作的場景還需要調整。還有一個更深層的挑戰是：隨著AI寫作能力不斷增強，它們生成的文字正在越來越接近人類的獨特風格，風格識別方法的長期有效性仍需持續關注。

研究團隊還展望了未來的工作方向：把這套框架擴展到多語言場景，將情感、正式程度等更多風格維度納入分析，甚至應用到代碼或語音等其他模態。這些方向讓人期待，畢竟一個真正能讀懂"一個人獨特表達方式"的系統，在未來的資訊世界裡將有極廣泛的應用空間。

對這項研究感興趣的讀者，可以通過arXiv編號2604.21300查閱完整論文，系統的代碼也已在GitHub公開，數據集也在HuggingFace平台上公開供研究使用。

Q&A

Q1：EAVAE是如何區分寫作風格和文章話題的？

A：EAVAE使用了兩個獨立的編碼器，一個專門學習文章的話題內容，另一個專門學習作者的語言習慣和表達方式。這兩個編碼器在訓練過程中被強制分開工作，不能互相"借用"對方的資訊。此外，系統還引入了一個需要生成文字解釋的鑑別器，通過要求機器說明判斷理由來進一步確保風格和內容真正被分開學習，而不是表面分開、實際混用。

贊助商廣告

Q2：EAVAE檢測AI生成文章的準確率有多高？

A：在M4數據集的測試中，EAVAE在單目標檢測模式下的pAUC@5平均達到93.5%，pAUC@10平均達到98.5%，這意味著在誤報率控制在10%以內的條件下，檢測成功率接近99%。值得注意的是，EAVAE並沒有專門針對AI檢測任務進行訓練，這些成績完全來自它在作者風格識別上學到的通用能力。

Q3：訓練EAVAE需要多少數據？

A：EAVAE的預訓練階段使用了超過2744萬篇文檔，來自約134萬個不同作者，涵蓋新聞、部落格、社交媒體、評論等多種類型。後續的精細微調階段使用了13.2萬對精心挑選的文章對，這些文章對專門選取了"同作者跨話題"和"跨作者同話題"兩類最難的樣本，以訓練系統真正學會分辨風格與話題的差異。