大模型是怎麼學會講故事的？科羅拉多大學博爾德分校等機構揭開了預訓練數據的敘事密碼

這項由美國科羅拉多大學博爾德分校、瑞士蘇黎世聯邦理工學院和加拿大麥吉爾大學聯合完成的研究，以預印本形式發布於2026年6月，編號為arXiv:2606.19468，目前已公開於arXiv平台供學術界查閱。

贊助商廣告

我們都愛聽故事。從小時候睡前的睡前故事，到朋友圈裡的感人日記，再到新聞報道里的親歷敘述——故事是人類溝通最古老、也最有力的方式之一。正因如此，當人們開始使用ChatGPT這樣的大型語言模型（簡稱大模型）來寫故事、續寫小說、生成劇情時，他們理所當然地期待這些模型能講出好故事。

然而，現實往往令人失望。大模型寫出來的故事常常"沒有靈魂"——情節平淡、人物扁平、細節蒼白。研究界把這個現象叫做"創意缺陷"。很多人把責任歸咎於後續的微調階段出了問題，但這支研究團隊有不同的想法：也許問題出在更早的地方，出在大模型最開始"上學"的那個階段——也就是預訓練數據里。

大模型學習語言的方式，類似於一個孩子通過大量閱讀來習得寫作能力。他讀了什麼，他就會寫什麼風格的文字。如果他讀的全是說明書和法律文件，你很難指望他寫出一篇動人的散文。同樣，如果大模型在訓練時接觸到的敘事內容質量參差不齊、分布失衡，它的講故事能力自然也會受到影響。

但問題在於，到目前為止，幾乎沒有人系統地研究過：那些餵給大模型的海量訓練數據里，到底含有多少"故事性"？這些故事性的內容是均勻分布的，還是集中在某些角落？不同來源的數據，敘事風格又有什麼差異？

這支研究團隊決定填上這個空白。他們選擇了一個名叫DOLMA的公開預訓練語料庫作為研究對象。這個語料庫規模極為龐大，包含超過三萬億個字（token），來源涵蓋網頁、新聞、百科、圖書、社交媒體等十二個子類別。他們的目標，是為這片浩瀚的文字海洋繪製一張"敘事地圖"——找出哪裡故事多、哪裡故事少，哪些地方的故事有人物情感，哪些地方的故事有具體場景。

贊助商廣告

為了完成這項工作，他們從敘事學（研究故事結構的學問）中汲取靈感，設計了一套包含11個維度的評分框架，並開發了一個名為NARRABERT 大模型是怎麼學會講故事的科羅拉多大學博爾德分校等機構揭開了預訓練數據的敘事密碼的自動評分模型。最終，他們對約三百萬個文本段落完成了標註，形成了一個叫做NARRADOLMA的新數據集，並對整個預訓練資料庫的敘事面貌進行了全面分析。

一、什麼才算"講故事"？研究團隊如何給敘事評分

要研究數據里有多少敘事性，首先得回答一個基本問題：什麼叫"敘事性"？

這個問題聽起來簡單，實際上相當複雜。一篇流水賬日記算敘事嗎？一則天氣預報算敘事嗎？一段歷史教材呢？學術界為此爭論了幾十年。研究團隊沒有走極端——不把敘事當成非此即彼的東西（要麼是故事，要麼不是故事），而是把它理解成一個連續的、多維度的概念：每段文字都可以在"敘事性的光譜"上占據一個位置，並且在不同的敘事維度上表現不同。

打個比方，就像評價一道菜不僅僅看它"好吃不好吃"，而是從色、香、味、口感、擺盤等多個維度去評價。同樣地，這個研究團隊把"敘事性"分解成了三大類共11個具體維度，分別考察一段文字在這些方面表現得如何。

第一大類是"能動性"，也就是文章中是否有具有內心世界的人物在驅動故事。這包含五個子維度。第一個叫做"聚焦"，衡量的是故事是否通過某個特定人物的眼睛來敘述——比如一篇日記里，"我走進房間，立刻感到一陣寒意"，這就是高度聚焦的敘事，因為讀者完全隨著"我"的視角去感受世界。第二個是"內心情感"，考察文章中人物的情緒狀態是否被描寫出來——不僅僅是"他哭了"這種外部行為，更高級的是"他感到一種難以名狀的悲傷壓在胸口"這種內心狀態的直接呈現。第三個是"內心認知"，關注的是人物的思維、推理和內心獨白，比如"她反覆回想那封信的措辭，總覺得哪裡不對勁"。第四個是"狀態變化"，考察文章中是否有人物經歷了某種轉變——身體的、心理的、關係的或者命運上的改變。第五個是"衝突"，衡量文章中是否存在張力或對抗，無論是人與人之間的衝突、人內心的掙扎，還是人與環境的對抗。

贊助商廣告

第二大類是"場景"，描述的是故事世界被構建得多麼清晰可感。這包含四個子維度。"具體性"考察語言是否足夠具體，能讓讀者在腦海中形成畫面——"那個破損的藍色馬克杯放在水槽邊緣"比"桌上放著一個杯子"具體得多。"時間錨定"考察文章是否讓讀者感受到自己置身於某個特定的時間點，比如"那是2003年的夏天"就是很強的時間錨定。"空間錨定"類似，考察讀者是否能感受到一個具體的地方，比如"那不勒斯狹窄的小巷裡"就是強烈的空間錨定。"感官細節"考察文章是否調動了視覺、聽覺、嗅覺、觸覺等感官來描寫場景。

第三大類是"事件關係"，描述的是文章中事件之間的組織方式。這裡有兩個核心指標。"時間順序"考察文章中提到的事件是否按照先後順序排列，以及這種時間邏輯是否清晰。"因果關係"考察事件之間是否存在原因和結果的邏輯鏈——"他走進房間發現了那封信"與"他因為發現了那封信而心生疑慮，於是離開了"，後者就有更強的因果敘事。此外，研究團隊還用了一個自動化工具來統計每段文字中"事件觸發詞"（即動詞所代表的具體事件）的密度，也就是說，文章里每個詞中有多少個是在講一件具體發生的事。

每一個前九個維度，由人類注釋員在1到5分的量表上評分，表示該特徵在文本中的核心程度。時間順序和因果關係則是段落層面的比例值（0到1之間），表示段落內多少對相鄰事件具有時間或因果關係。事件密度是每個詞中事件觸發詞的比率。

為了讓這套框架更直觀，可以用論文開篇舉的例子來理解。那段文字是這樣的："我走進面試室，立刻注意到面試官的人數是我預期的兩倍。我的手開始顫抖。我坐下來，深吸一口氣，不知怎地撐過了第一個問題。"這段話在"聚焦"上得4分（強烈的第一人稱視角）、"情感"上得4分（顫抖的手傳遞了緊張感）、"認知"上得3分（有一些內心活動）、"狀態變化"上得3分（從緊張到勉強撐過）、"衝突"上得3分（人與處境的對抗）。而在場景維度上，這段話的得分明顯偏低——"具體性"只有3分、"時間錨定"僅1分、"空間錨定"2分、"感官細節"2分。這段話沒有告訴你面試發生在哪座城市哪棟樓、是什麼季節什麼時刻、房間裡是否有冷氣的嗡嗡聲或咖啡的氣味。這就是所謂的"敘事側寫大模型是怎麼學會講故事的科羅拉多大學博爾德分校等機構揭開了預訓練數據的敘事密碼 "——這段話的敘事性高度集中在人物內心和事件推進上，但場景建構相對薄弱。

贊助商廣告

這套框架來自敘事學的經典理論，尤其借鑑了敘事學學者大衛·赫爾曼的工作，他把敘事定義為"通過一個代理人的視角，在一個有根基的世界裡對事件進行有結構的排序"。研究團隊把這個理論性定義翻譯成了可以被人類（以及後來的機器）操作的評分標準。

二、給三千億字評分的工程：從人工標註到AI自動評估

有了這套評分框架，下一個挑戰是：怎麼把它用到一個三萬億詞的語料庫上？

靠人工一段一段地讀，顯然不可能。但直接用機器，又怎麼保證機器打的分是可信的？研究團隊設計了一個層層遞進、步步驗證的流程，就像建一座橋——先用人工驗證地基，再用大模型搭建中間的結構，最後用輕量級的小模型快速推進到終點。

首先，他們從DOLMA語料庫里抽取了大約一千七百萬個三句話長的文本段落，分布於約五百萬個獨立文檔中。然後他們用一個已有的敘事分類模型對每個段落打了一個0到1的"敘事置信分"——分數越高，說明這段話越像一段有敘事內容的文字。

接著，他們從這個大池子裡精心篩選出400個段落，由真人注釋員按照上述11個維度逐一評分。為了保證質量，一位主要注釋員對全部400個段落都做了標註，另外還有多位注釋員對其中部分段落進行了交叉驗證。在這個過程中，研究團隊發現人與人之間的評分結果相當接近——在能動性維度上，不同注釋員之間的平均一致性係數（Krippendorff's α）達到0.76；在場景維度上也有0.70。事件關係的一致性用另一種指標衡量（Cohen's κ），時間順序達到0.60，因果關係達到0.78。這說明這套評分框架是相對客觀的，不同的人對同一段話的理解大體相近。

有了400個人工標註段落後，研究團隊做了一件在學術界越來越常見的事：他們請了三個大語言模型來"當助手"，對更多的文本進行標註，然後把這些大模型的標註結果和人工標註進行對比，看哪個大模型表現最好。他們測試的三個模型分別是Claude Sonnet 4.6、Qwen3-235B-A22B和Gemma4-31B。測試結果顯示，沒有哪個模型在所有維度上都明顯優於其他兩個，但綜合來看，Gemma4-31B的表現與人工標註的吻合程度最好，同時它還有開源和成本可控的優勢。於是，他們用Gemma對五千個段落進行了大規模標註，得到了一批機器生成的"教師標籤"。

贊助商廣告

最後一步是把這五千個Gemma標註的樣本用來訓練一個小得多的模型——NARRABERT。這是一個基於RoBERTa（一種輕量級的語言理解模型）的專用分類器，配備了九個不同的評分頭（對應九個敘事維度），可以在一次前向傳播中同時給出所有九個維度的分數。用大模型的標註結果來訓練小模型，這種方法叫做"知識蒸餾"——就像請一位資深廚師把自己的手藝教給一個學徒，讓學徒日後能獨立完成工作。

研究團隊對NARRABERT的表現進行了獨立驗證，確認它的評分結果與人工標註之間的一致性係數均在0.50到0.78之間，平均絕對誤差（MAE）在0.41到0.70分之間（分數範圍是1到5分）。這個表現水準與大模型本身相當，說明蒸餾是成功的。唯一的薄弱環節是事件關係的分類，因為數據集中事件關係的分布極度不均衡（約95%的事件對被標為"有時間關係"，約75%被標為"無因果關係"），這讓分類器學習起來比較困難。

最終，NARRABERT被用來處理全部約三百萬個NARRADOLMA段落，為每個段落生成了一個包含12個敘事特徵的向量。在後續分析中，同一文檔的多個段落的特徵向量被平均，得到每個文檔的敘事側寫，共約七十八萬五千個文檔。

三、預訓練數據的敘事地圖：不同來源的故事風格大相徑庭

有了這七十八萬五千個文檔的敘事側寫，研究團隊終於可以回答最關鍵的問題了：大模型的訓練數據里，故事是怎麼分布的？

他們首先把所有文檔按照來源或主題進行分類。來自Common Crawl（網際網路通用爬取數據）的文檔被WEBORGANIZER分類器細分為24個主題，比如"旅遊"、"科技"、"犯罪與法律"、"美食"等；而Reddit、Gutenberg（公版書籍）、Wikipedia（維基百科）和MegaWika（多語言百科）這四個非爬取來源則作為獨立類別。接著，他們計算了每個類別在12個敘事維度上的平均得分，並用z分數（一種標準化方式，讓不同維度可以放在一起比較）把結果可視化為一張熱力圖。

贊助商廣告

這張熱力圖揭示出了一個清晰的敘事生態：不同類別的文檔占據著敘事空間中截然不同的位置。

能夠明顯看出，Reddit和Gutenberg構成了一個"高內心性"的聚類——它們在聚焦、情感和認知這三個維度上得分最高，也就是說這些文本非常擅長呈現人物的內心世界。與這個聚類相鄰的是"成人內容"（Adult）和"文學"（Literature）兩個類別，它們也表現出類似的高內心性特徵。不過，有趣的是，儘管這四個類別都以內心性見長，它們在"場景構建"方面的表現卻大相徑庭——Gutenberg的場景維度相對更強，而Reddit在這方面幾乎毫無建樹。換句話說，Gutenberg里的公版文學不僅有豐富的內心世界，還會精心描繪一個可感知的故事世界；而Reddit上的帖子更像是人們在傾訴自己的感受，不太在意告訴讀者這件事發生在哪裡、什麼時候、現場是什麼氣味。

另一個明顯的聚類是以"美食與餐飲"、"時尚與美麗"、"旅遊"、"家居與愛好"、"藝術與設計"為核心的"感官質感"群體。這些類別在具體性和感官細節上得分最高，卻在能動性維度上相對較低。這說明美食部落格、旅遊攻略、家居裝修指南之類的文章雖然會描寫食物的色香味、旅途的風景細節，但通常不太涉及人物的內心世界。

而Wikipedia、歷史類文章、政治類文章和犯罪與法律類文章則構成了"有根基的事件性"聚類——它們在狀態變化、衝突、事件密度以及時間和空間錨定上得分較高，但在內心性方面幾乎為零。這很好理解：維基百科告訴你"1989年11月9日，柏林圍牆倒塌"，時間非常清晰，事件非常明確，但它不會告訴你當時站在牆邊的某個人內心在想什麼、感受到什麼。

這些發現有一個對大模型訓練很重要的啟示：如果你想讓大模型學會寫出有內心世界的人物，你必須保證訓練數據里有足夠多的Reddit式和Gutenberg式內容；如果你想讓它學會描寫具體可感的場景，美食和旅遊類文章是好的來源；如果你想讓它學會講有事件推進和時間邏輯的故事，新聞和百科類內容反而更重要。三者不可偏廢，而且簡單地"增加某類來源的權重"並不能一次性解決所有問題。

贊助商廣告

四、敘事不是單一的維度：預訓練數據中隱藏著三條敘事軸

發現各類別之間存在差異只是第一步。研究團隊還想知道：在這11個敘事維度背後，有沒有更深層的結構？這些維度是互相獨立的，還是有一些維度總是同步變化？

他們對10個主要敘事維度（排除了在三分之一文檔中因為沒有事件對而無法計算的時間順序和因果密度）進行了主成分分析（PCA）——這是一種統計方法，專門用來在多個相互關聯的變量中找出"最核心的變化軸"。就像如果你在描述一個人的外貌，可以從身高、體重、膚色、發色等很多維度來說，但"身高體重"往往會同步變化（高個子通常也更重），所以可以用"體型大小"這一個概念來概括這兩個維度。

分析結果非常整潔：前三個主成分合計解釋了約72%的敘事變異，也就是說，這三條"軸"已經足夠描述預訓練數據敘事結構的大部分變化。

第一條軸被研究團隊命名為"內心性"，主要反映的是聚焦、情感和認知三個維度的聯合變化。一篇文章在這條軸上得分越高，說明它對人物內心世界的呈現越深入。Reddit上的個人經歷帖子、Gutenberg里的經典小說，都集中在這條軸的高端。

第二條軸叫做"有根基的事件性"，主要反映的是狀態變化、衝突、事件密度與時間和空間錨定的聯合變化。犯罪新聞、政治報道、Wikipedia條目在這條軸上得分最高——它們講述的是"發生了什麼事，在哪裡，什麼時候"。

第三條軸叫做"故事世界質感"，主要反映的是具體性、感官細節和空間錨定的聯合變化。美食內容、旅遊指南、時尚文章在這條軸上領先——它們會把一道菜的顏色、溫度、氣味都寫出來，把一個地方的街道感覺都呈現出來。

為了驗證這三條軸不只是統計上的人造物，研究團隊還把它們投影到了一張基於語義嵌入的文本地圖上（用UMAP降維技術，把每篇文章的語義內容壓縮到二維坐標里）。結果發現，第一條"內心性"軸在這張語義地圖上呈現出非常清晰的空間聚類——高內心性的文章聚集在地圖的一個區域，而低內心性的文章聚集在另一側，中間有明顯的漸變地帶。這說明"敘事內心性"在大量預訓練數據中是真實存在的結構性差異，而不僅僅是標註的產物。

贊助商廣告

更值得關注的是：沒有任何一個類別在三條軸上都占據主導地位。Gutenberg在內心性和故事世界質感上很強，但在有根基的事件性上只是中等；Reddit在內心性上遙遙領先，但在另兩條軸上幾乎毫無建樹；Wikipedia和犯罪報道在事件性上領先，但在內心性和質感上幾乎為零。這意味著，如果大模型的訓練數據中缺少某一類來源，它在敘事能力的某一個維度上就會出現盲區，並且這個盲區無法通過增加其他來源來彌補。

五、敘事性的分布不均衡：誰在金字塔頂端，誰被遺忘在底層

研究團隊進一步分析了每個類別在三條敘事軸上的極端集中情況。他們計算了每個類別有多少比例的文檔落入了整個NARRADOLMA數據集中各軸得分的前25%（即"高敘事性"區間）。如果敘事性均勻分布，每個類別應該有25%的文檔進入這個區間。實際情況與這個均勻基準相比，差異相當顯著。

在內心性維度上，Reddit和Gutenberg有超過60%的文檔進入了前25%區間，是基準值的2.4倍。"社交生活"和"文學"類別緊隨其後，都超過了40%。而另一個極端，Wikipedia只有約1%的文檔進入了前25%，歷史、政治和犯罪法律類別也都在10%以下徘徊。

在有根基的事件性維度上，犯罪與法律類別以約68%的高比例領先，Wikipedia和政治類別以51%和46%緊隨其後，MegaWika也接近45%。反過來，在這個維度上表現最差的正是那些質感強烈的內容——美食（約7%）、時尚（約4%）、軟體開發（約1%）幾乎不存在於這個維度的頂端。

在故事世界質感維度上，美食（約73%）、旅遊（約65%）和時尚（約62%）以壓倒性優勢占據頂端，藝術與設計和家居愛好也超過50%。Gutenberg在這個維度上也相當強（約41%），而Reddit出乎意料地低（約15%），軟體開發（約1%）和軟體（約2%）幾乎可以忽略不計。

這些數據勾勒出了一幅"敘事極化"的圖景：不同來源之間敘事性的集中程度差異極為懸殊，沒有任何一個來源能在三個維度上全面領先。這對於大模型的訓練數據策略有直接影響——"減少百科類數據、增加書籍類數據"這樣的粗粒度操作，充其量只能強化某一個敘事維度，同時可能削弱另一個維度，甚至帶來意想不到的副作用。

贊助商廣告

此外，研究團隊還發現了一個微妙但重要的現象：同一類別內部的敘事差異也非常巨大。以整個語料庫的敘事多樣性為基準（標準差為1.0），各類別內部的敘事多樣性平均也高達0.87。也就是說，即使你知道一篇文章是"Reddit帖子"或者"維基百科條目"，這個分類標籤只能幫你消除不到15%的敘事不確定性，剩下的85%的變化仍然存在於類別內部。Reddit里既有冷靜分析時事的評論，也有情緒激昂的個人經歷敘述；維基百科既有以事件為主的人物傳記，也有幾乎完全是數字和公式的科學詞條。最敘事多樣的類別恰恰是那些最富敘事性的類別——Reddit（內部標準差1.07）和文學（1.00）；而最單調的類別是Wikipedia（0.68）和軟體開發（0.71）。換句話說，那些你最想多餵給大模型的"敘事寶庫"，內部其實也是最複雜的。

說到底，這項研究的核心發現是：大模型預訓練數據中的敘事性，既不是均勻分布的，也不是一維的。它是一個多維度的結構，不同的敘事維度來自不同的數據來源，而單純調整來源比例這一粗粒度的操作，既無法全面提升敘事能力，也無法精準控制模型學到的敘事風格。

這意味著，如果研究者想要有意識地影響大模型的敘事能力，就需要在數據層面做出更精細的操作——不僅要看來源，還要看每篇文檔的敘事側寫，有選擇地強化某些敘事維度，同時避免不必要的質量損失。NARRADOLMA和NARRABERT的公開發布，正是為這種精細操作提供了工具基礎。

當然，研究團隊也坦承了這項工作的局限。NARRADOLMA是對DOLMA語料庫的有策略性抽樣，並且刻意過採樣了敘事內容，所以無法直接推斷原始語料庫中敘事內容的絕對比例。人工標註僅有400個段落，在如此多樣化的網路文本面前顯得相當有限。NARRABERT在事件關係預測方面存在較明顯的噪聲。研究也只涵蓋了英語文本，其他語言的敘事結構可能遵循完全不同的模式。最關鍵的是，研究團隊並沒有去實際訓練一個模型來驗證"調整敘事性分布能否改善敘事能力"——這個因果驗證留給了後續工作。

贊助商廣告

歸根結底，這項工作就像是第一次為大模型的"故事營養"建立了一張詳細的成分表——以前我們只知道它吃了"很多字"，現在我們開始了解它吃進去的"故事養分"究竟是什麼配方、來自哪裡、分布是否均衡。接下來，如何根據這張成分表來調整大模型的"飲食結構"，進而真正改善它的講故事能力，是一個極具價值也極具挑戰性的研究方向。

對敘事與人工智慧的交叉感興趣的讀者，可以通過arXiv編號2606.19468查詢這篇論文的完整版本，NARRADOLMA數據集和NARRABERT模型也已在Hugging Face平台公開，可以直接下載使用。

Q&A

Q1：NARRABERT是什麼，它和普通的文本分類模型有什麼不同？

A：NARRABERT是一種專門用來評估文本敘事特徵的模型，基於RoBERTa結構，通過知識蒸餾用Gemma大模型的標註結果訓練而來。與普通分類模型不同，它不是判斷文本屬於哪個類別，而是同時給出聚焦、情感、認知、衝突、場景具體性等九個敘事維度的連續評分，可以在一次運行中生成完整的"敘事側寫"，適合處理大規模文本。

Q2：DOLMA預訓練數據中，哪類內容的敘事性最強？

A：不同敘事維度的強項不同。Reddit和Gutenberg（公版書籍）在人物內心世界的呈現上得分最高，超過60%的文檔進入整體敘事內心性的前四分之一區間。美食、旅遊和時尚類內容在感官細節和場景質感上領先。而犯罪與法律、Wikipedia類內容在事件邏輯和時間空間錨定上最強。沒有任何來源在所有敘事維度上同時占據主導地位。

Q3：這項敘事分析研究對大模型的訓練有什麼實際意義？

A：研究表明，僅靠調整某類數據來源的比重（如"多加點書籍"）並不能均勻提升大模型的敘事能力，因為不同敘事維度分布在不同來源中，同一來源內部的差異也非常大。真正有效的做法是對訓練數據進行更精細的敘事維度標註，有針對性地調整特定敘事特徵的數據分布，而非粗粒度地增減某類來源的整體比例。

贊助商廣告