哈薩克斯坦獨立研究員建了一個10萬條電影評論資料庫，裡面藏著語言演變的秘密

這項由哈薩克斯坦獨立研究員完成的研究成果發布於2026年5月，以預印本形式收錄於arXiv平台，論文編號為arXiv:2605.08600v2，分類為電腦科學·計算與語言（cs.CL）領域。有興趣深入了解的讀者可以通過該編號在arXiv上查詢完整原文。

贊助商廣告

**一、一個人花了110天，整理出了一座語言寶庫**

你有沒有在某個電影購票網站上讀過別人寫的評論，然後突然發現評論里夾著幾句完全不同的語言？這種現象在哈薩克斯坦的網路上相當普遍。當地人上網寫電影評論，有時用俄語，有時用哈薩克語，有時兩種語言混著寫，甚至在同一句話里切換。這背後究竟隱藏著什麼？哈薩克斯坦的一位獨立研究員決定認認真真地把這些評論整理起來，看看能發現什麼。

他用了整整110天時間，從2025年8月一直干到2026年1月，從哈薩克斯坦主流電影購票及娛樂平台kino.kz上爬取並逐條閱讀、標註了超過10萬條電影評論。最終整理出一個包含100,502條評論的數據集，時間跨度從2001年一直延伸到2025年，覆蓋了4,943部獨立電影，評論來自31,453個公開可見的用戶賬號。這個數據集現在已經完整公開在Hugging Face數據平台上，任何人都可以免費使用。

為什麼這件事值得關注？因為在自然語言處理這個領域裡，研究人員想要訓練電腦讀懂人類寫的文字，就需要大量真實的語料作為原材料。英語的原材料多到用不完，中文的資源也相當豐富，但哈薩克語的資源卻極其匱乏。更特別的是，哈薩克斯坦的語言生態本身就是一個活生生的實驗室——這個國家有兩種官方通用語言在日常生活中共存，而普通網民在網上寫評論時，會自然而然地在兩種語言之間遊走，留下了大量珍貴的混語文本。這份數據集，某種程度上就是25年間哈薩克斯坦網路語言生活的一個完整切片。

**二、10萬條評論里，語言是怎麼分布的？**

把這10萬條評論按語言一一拆開來看，會得到一幅相當有意思的圖景。絕大多數評論使用俄語，共96,749條，占總量的96%出頭。哈薩克語評論有2,639條，占比約2.6%。還有1,114條被標註為"混碼"（code-switching），也就是在一條評論里同時出現了兩種語言的實質性內容。此外還有極少量的英語和其他語言評論，總共65條，在後續分析中被剔除。

贊助商廣告

研究者在標註語言時特別做了一個區分，值得多說幾句。他把"混碼"和"借詞"分開處理。借詞是指某種語言在長期接觸中吸收了另一種語言的個別詞彙，並把它當成本語言詞彙來用，比如俄語日常用語裡有很多英語來源的詞，但說俄語的人不會覺得自己在說英語。混碼則不同，它是指在一段話里真正插入了另一種語言的短語、從句或完整句子，那些插入的部分保留著原語言的語法結構和功能詞。研究者在論文裡舉了一個真實的混碼例子，讀來頗有趣味：那段評論開頭用哈薩克語說"如果你有時間的話，這部電影還不錯，聲音處理得很好"，然後中間突然切換成俄語說"劇情好，但是短"，最後又用帶著哈薩克語風格的俄語收尾說"值得去看"。整段話在兩種語言之間自然切換，完全不違和，這就是典型的混碼。

從評論長度來看，三種語言的評論篇幅都不算太長。俄語評論的中位數長度是30個詞，哈薩克語評論是24個詞，混碼評論是33個詞。95%的評論在各自語言下都不超過70到108個詞。這說明電影評論雖然比微博發文要長一些，但基本還是短文本。

**三、從情感傾向看：人類為什麼普遍愛給好評？**

除了語言標註，研究者還給每一條評論打上了情感標籤，分為正面、中性和負面三類。這件事也是他一個人手工完成的，總量超過10萬條。結果顯示，正面評論占到68,858條，約占總量的68.5%。負面評論有27,315條，約占27.2%。中性評論只有4,329條，約占4.3%。

這種"正面遠多於負面"的分布，其實是評論類平台的普遍規律。研究者在論文裡引用了前人的觀察——很多評論平台都呈現出類似的傾向，願意花時間寫評論的用戶，往往是對內容有較強情感投入的人，而那些覺得還不錯的觀眾也更願意寫下來分享。中性評論之所以特別稀少，是因為一個既不太滿意也不太失望的觀眾，通常沒有什麼動力去特意寫評論。

贊助商廣告

在沒有其他標註人員協助的情況下，研究者用了一個實用的方法來驗證自己的標註質量：他把所有評論也餵給了GPT-4.1-nano這個AI模型，讓它按相同的三分類標準獨立給出判斷，然後和自己的標註結果對比。兩者的一致率達到了89.54%，Cohen's κ係數為0.78。κ這個係數用來衡量兩個判斷者的一致性是否超過了純粹湊巧的概率——0.78在學界通常被認為是"相當強的一致性"。最終發布的數據集使用的是研究者本人的人工標註，AI標註作為參考存檔。

**四、11,309條有明確評分的評論，背後是個複雜的數學題**

kino.kz這個平台允許用戶給電影打一到十分的星級評分，但這些評分並不公開展示，只有評論文字是公開的。不過，有11,309條評論（約占總量的11%）的作者在評論正文裡自己寫出了分數，比如寫"10/10"、"9分滿分10"、"твердая семерка"（俄語"穩穩七分"的意思）之類的表達。研究者把這些評分全部手工提取出來，統一換算成0到10分的標準。

換算過程中有幾個細節值得留意。有些用戶是按1到5分制評分的，研究者把這些乘以2，對齊到10分制。有些用戶明確說某部電影爛到不配得一分，只能給0分，這些也被記錄在案。還有少數情況，用戶只寫了一個數字，沒說是10分制還是5分制，研究者就結合評論的文字內容，依據上下文判斷最合理的解讀。

從這些評分的分布來看，滿分10分的評論最多，達到4,575條，幾乎占了有評分評論總量的40%出頭。這再次印證了前面說的"平台正面偏向"。反過來，0分、1分、2分的評論合計只有1,062條。這種極度不均衡的分布，在後來設計評分預測任務時造成了不小的麻煩，後文會細說。

**五、時間軸上的語言變遷：哈薩克語是如何一步步走上檯面的**

這份數據集之所以特別有價值，其中一個原因是它橫跨了整整25年。研究者在逐條閱讀的過程中，清楚地觀察到了哈薩克語在這個平台上的使用軌跡。

贊助商廣告

kino.kz這個平台在2000年上線，但根據標註數據，平台上的第一條哈薩克語評論直到2011年才出現——也就是平台運營十年後，才有人用哈薩克語寫評論。在此之前的十年裡，評論全部是俄語。這一現象折射出哈薩克斯坦獨立後的現實：俄語在城市、網路、商業和文化生活中長期居於主導地位，哈薩克語的日常書寫習慣在相當長的時間裡是缺席的。

更有意思的細節在於，早期用戶寫的評論里經常出現這樣的內容：對哈薩克語配音質量的批評、對翻譯質量的吐槽，甚至有人在評論開頭客氣地問"可以用哈薩克語寫嗎？"，好像用本國官方語言發言這件事本身還需要先徵求許可。到了後期，哈薩克語評論的數量和比例穩步上升，內容也越來越自信，越來越多地表達對哈薩克語電影製作的支持和肯定。

從具體數字看，2020年代以後哈薩克語評論的占比出現了明顯跳躍。從圖表數據來看，2022到2025年間，部分年份的哈薩克語評論占當年總評論數的10%以上，峰值甚至接近13%和26%。這背後是哈薩克斯坦近年來推動語言政策轉型、哈薩克語電影產業不斷壯大的社會背景。順帶一提，數據集裡評論數量最多的五部電影全都是哈薩克斯坦本土製作。

**六、哈薩克斯坦的俄語，和莫斯科的俄語不完全一樣**

數據集裡還有一個語言學層面的亮點：這裡的俄語帶有明顯的本地色彩。研究者在閱讀評論的過程中注意到，大量評論使用了"哈薩克斯坦俄語"的特有表達——這是一種受哈薩克語長期影響、又帶著本地社會文化印記的俄語變體，如果拿去給俄羅斯本土的俄語母語者看，他們可能會有不少詞彙和表達不明白。

這些本地特色詞彙涵蓋了親屬稱謂（比如ажека、агашка，分別指老年女性長輩和年長男性親屬），社會角色詞（бастык，意為"老闆、頭兒"；токалка，指小妾），文化觀念詞（уят，大致相當於"羞恥、有失體面"的概念），節日名稱（Наурыз，即哈薩克新年），媒體節目（Бауржан Шоу，一檔本地電視節目），以及商業機構名稱（Sulpak是家電連鎖，Керуен是購物中心，Kcell是電信運營商，Otau Cinema是本地院線品牌）。

贊助商廣告

更有趣的是語法層面的混融現象。比如有評論寫了чёп-чёрный（字面意思是"黑透了"），這是把哈薩克語重疊加強的構詞規律直接"翻譯"進了俄語表達里；有人寫не уятьте，這是把哈薩克語詞根уят（羞恥）接上了俄語的否定前綴和命令式詞尾，造出一個兩種語言雜交的動詞；還有人寫еркеки，這是用哈薩克語詞根（男人）加上俄語複數詞尾造出來的複數形式。這些現象表明，語言接觸在真實的日常文字里留下的痕跡，遠比教科書描述的要生動和複雜得多。

**七、研究者設計了兩道考題，來測試電腦讀懂情感的能力**

整理好數據之後，研究者設計了兩個機器學習任務，用來測試各種電腦模型能否從評論文字里自動判斷情感。

第一道考題叫做"情感極性分類"，任務目標很直接：看一段評論，判斷它是正面、中性還是負面。這是一個三選一的判斷題。

第二道考題叫做"評分分類"，目標是在不看任何明確評分的情況下，僅憑評論正文預測用戶給的是什麼分數段。由於10個評分檔位太細，數據分布極不均衡，研究者把0到10分合併成了五個大類：0到2分算一檔，3到4分算一檔，5到6分算一檔，7到8分算一檔，9到10分算一檔。

特別值得注意的是第二道考題里的一個防漏措施。前面說過，有11,309條評論在正文裡直接寫了評分數字。如果讓模型直接讀這些評論，模型只需要找到那個數字就能答對，完全不需要真正理解情感——這就像考試作弊一樣，分數高但沒有意義。為了防止這種"作弊"，研究者把所有評論正文裡的評分表達全部替換成了一個占位符"scoretoken"，把有效資訊隱藏掉，強迫模型真正去讀懂語言本身，而不是抄答案。

數據集按照8:1:1的比例分成訓練集（80,009條）、驗證集（10,829條）和測試集（9,664條）三份。為了防止同一部電影的評論同時出現在訓練集和測試集裡造成"題目泄露"，切分是按電影進行的——每部電影的所有評論只會出現在三個集合中的一個，確保模型在測試時面對的是真正沒見過的新電影，考驗泛化能力。

贊助商廣告

**八、六支隊伍參加考試，成績單出爐了**

研究者找來了六個模型參加考試，分成兩大類。

一類是傳統的統計方法模型，包括線性支持向量機（SVM）、邏輯回歸（LR）和多項樸素貝葉斯（MNB）。這類方法的原理類似於"詞頻統計"：把文字拆成單個詞和詞組，數一數它們出現的頻率，然後據此判斷情感。這是過去二三十年裡文本分類的主流方法，雖然看起來簡單，但經過了大量實踐驗證，效果相當穩定。

另一類是基於Transformer架構的多語言預訓練模型，包括mBERT、XLM-RoBERTa和RemBERT。這三個模型都是在大量多語言文本上預先訓練好的神經網路，能夠理解詞語在上下文中的含義變化，而不僅僅是統計詞頻。mBERT由谷歌發布，在維基百科的100多種語言上預訓練，包含俄語和哈薩克語，參數量約1.68億。XLM-RoBERTa由Facebook發布，用了更大規模的網路爬蟲數據（CC-100數據集，覆蓋100種語言），參數量約2.7億，在很多多語言任務上表現優於mBERT。RemBERT也是谷歌發布的，在110多種語言上訓練，專門針對低資源語言（即數據量少的語言）做了優化設計。

這三個模型在參加考試之前，都用訓練集數據做了針對性微調，相當於先上了一段專項輔導課。微調在Vast.ai提供的雲端GPU上完成，用的是一塊NVIDIA RTX 3090顯卡，所有模型加起來總共花了大約2美元的算力費用。

**九、第一道考題的成績：Transformer模型贏了，但贏得不算懸殊**

在情感極性分類這道考題上，Transformer模型確實表現更好，但領先幅度比想像中小一些。

RemBERT的測試集宏平均F1分數（這是一種考慮了各類別均衡表現的綜合指標）為0.82，Cohen's κ為0.88。XLM-RoBERTa緊隨其後，F1為0.81，κ為0.87。mBERT稍弱，F1為0.74，κ為0.83。傳統方法裡，SVM表現最好，F1達到0.73，邏輯回歸為0.71，樸素貝葉斯為0.70。

換句話說，最好的傳統方法（SVM，0.73）和最好的Transformer模型（RemBERT，0.82）之間的差距大約是9個百分點。這個差距說明Transformer確實有優勢，但傳統方法也並沒有被甩開太遠——在電影評論這種詞語情感信號相當明確的文本里，光靠統計詞頻就能捕捉到相當多的有效資訊。

贊助商廣告

按類別細看RemBERT的表現，結果很能說明問題：正面評論的F1為0.97，負面評論的F1為0.94，而中性評論的F1隻有0.56。中性評論的識別之所以這麼難，原因是雙重的：一方面，中性評論只占總量的4%多一點，訓練樣本稀少；另一方面，中性評論在語言上本來就模糊，往往是那種"有點好有點不好，說不清楚"的狀態，不像正面或負面評論有那麼多旗幟鮮明的情感詞彙。

研究者對錯誤案例做了具體的分析。有一條俄語評論寫道"這部電影對我來說很出乎意料，完全不像我兒時對印度電影的記憶，舞蹈哪去了？！！"——標註是中性，模型預測為負面。這條評論主要表達的是一種"預期落空"的驚訝，作者對電影本身沒有強烈的好惡，更多是在感嘆風格變了，但模型被結尾的感嘆號和反問句帶偏，判斷成了批評。另一個錯誤來自一條哈薩克語評論，大意是"我們得去支持自己的哈薩克電影，但說實話，導演和編劇還需要加強，演員表現得非常棒"——標註是中性（褒貶參半），模型預測為正面，因為被"非常棒"這類強烈的正面詞彙帶著跑了，沒有充分權衡前面那句委婉的批評。這兩個錯誤案例說明了同一個道理：中性情感經常是通過期望落差、反問語氣或褒貶並陳來表達的，這比直接說"好"或"爛"要複雜得多。

按語言細看，俄語評論的F1最高（0.81，κ為0.88），哈薩克語評論次之（F1為0.77，κ為0.68），混碼評論也還不錯（F1為0.76，κ為0.73）。哈薩克語和混碼評論的表現略低，部分原因是訓練數據量更少，模型見過的樣本不夠多。

**十、第二道考題的成績：所有模型都"將將及格"**

在隱藏了明確評分表達之後，評分分類這道考題就難多了。六個模型的宏平均F1分數全部落在0.51到0.55這個區間裡，彼此之間的差距微乎其微。RemBERT和SVM並列最高，測試集F1為0.54到0.55，XLM-RoBERTa和MNB緊跟其後（F1為0.54），mBERT最弱（F1為0.51）。

贊助商廣告

這個結果很能說明問題：隱藏了評分數字之後，Transformer模型的優勢幾乎完全消失，它們的表現和傳統統計方法旗鼓相當。這意味著在沒有"作弊材料"的情況下，從文字本身推斷用戶的精確評分檔位，是一件遠比判斷"好評還是負評"難得多的事情。

按分類細看RemBERT的表現，第五檔（9到10分，即高分評論）的F1高達0.88，因為這一檔的樣本最多，模型見過足夠多的例子。但第二檔（3到4分）的F1隻有0.09，幾乎沒什麼識別能力，因為這一檔的樣本實在太少，模型根本沒有學到足夠的規律。第一檔（0到2分）F1為0.68，第三檔（5到6分）為0.53，第四檔（7到8分）為0.52。

整體準確率是69%，但宏平均F1隻有0.54——這兩個數字之間的巨大落差正好說明了"準確率"在不均衡數據集上有多麼具有誤導性。模型如果每次都猜"高分評論"，準確率也會相當可觀，因為近一半的樣本本來就是高分。宏平均F1把每個分類檔位平等對待，暴露了模型在中低分區間幾乎束手無策的真實狀況。

**十一、這份數據集還能用來做什麼？**

研究者在論文裡明確說，情感分類只是這份數據集的一種用法，而且是相對基礎的那種。數據集真正的潛力可能在其他方向上。

25年的時間跨度讓它非常適合研究語言和輿論的歷史演變。比如，早期評論和近期評論對哈薩克傳統文化的態度是否發生了變化？家庭暴力、性別角色、民族認同這些話題在不同年代的電影評論里是如何被討論的？哈薩克語使用者在25年裡的寫作風格和詞彙選擇又經歷了怎樣的變遷？這些問題都可以用這份數據集來探索。

在語言學研究方面，哈薩克斯坦俄語的本地變體特徵——那些只有在哈薩克斯坦才會出現的詞彙、構詞模式和語義引申——在這份數據集裡有大量真實案例，是研究語言接觸與區域變異的寶貴素材。混碼評論的子集則為研究自然發生的語言切換行為提供了實例，而不是實驗室里人為設計的語料。

贊助商廣告

對於電腦科學領域的研究者來說，這份數據集還是一個相對罕見的真實世界長文本多語言基準測試集，可以用來評估模型在俄語、哈薩克語和混碼文本上的泛化能力，尤其對於那些希望在中亞語言環境下部署應用的團隊來說，這是目前為數不多的可用資源之一。

說到底，一位研究者用110天時間、大約2美元的算力成本，把一個網站25年間的10萬條用戶評論變成了一份公開資源。這件事本身並不複雜，但在哈薩克語NLP資源極度匱乏的現實下，它填補了一個實實在在的空白。研究結論揭示的幾件事也值得記住：判斷好評負評比推斷精確評分容易得多；中性情感是最難捕捉的；隱藏了"作弊資訊"之後，再先進的神經網路也和簡單的詞頻統計差不多；而俄語和哈薩克語之間25年的語言交融，在一條條網路評論里留下了遠比想像中更多、更有趣的痕跡。

歸根結底，語言是一面鏡子。哈薩克斯坦這10萬條電影評論里，映出的不只是某部電影好不好看，還有一個社會在兩種語言之間尋找自己聲音的漫長過程。研究者在論文末尾提到，他在閱讀評論時還記錄了一些反覆出現的主題：期望落空的失望、"只值得看一遍"的評價、對某個具體情節或段落的不滿，以及"整體很爛但還是推薦特定人群去看"的複雜評價……這些都沒有成為這篇論文的正式分析對象，但它們藏在那10萬條評論里，等待下一個有興趣的研究者去挖掘。有興趣的讀者可以在Hugging Face的yeshpanovrustem/100k_movie_reviews_from_kz數據集主頁找到完整數據，也可以通過arXiv編號2605.08600查閱原論文。

Q&A

Q1：kino.kz電影評論數據集裡有哪些語言，各占多少比例？

A：數據集共100,502條評論，俄語評論占絕大多數，約96,749條（約96%）；哈薩克語評論2,639條（約2.6%）；混碼（哈薩克語和俄語混用）評論1,114條（約1.1%）；英語及其他語言評論65條，因數量極少被排除在分析之外。

贊助商廣告

Q2：評分預測任務中為什麼要隱藏評分表達，直接用原文不行嗎？

A：因為有11,309條評論在正文裡直接寫出了評分數字，如"10/10"或"9分滿分10"。如果不隱藏，模型只需找到那個數字就能答對，完全不需要理解文字情感，這是一種"作弊"行為。隱藏後模型必須真正讀懂語言，但這也讓任務難度大幅提升，所有模型的宏平均F1都只有0.51到0.55。

Q3：哈薩克語評論是從什麼時候開始出現在kino.kz上的？

A：雖然kino.kz平台在2000年就上線了，但根據數據集裡的時間戳，第一條哈薩克語評論直到2011年才出現，即平台運營約十年後。此前十年的評論全部是俄語。2020年代以後，哈薩克語評論的數量和占比明顯上升，部分年份占當年總評論的10%甚至更高。