這項由哈薩克斯坦獨立研究員完成的研究成果發布於2026年5月,以預印本形式收錄於arXiv平台,論文編號為arXiv:2605.08600v2,分類為電腦科學·計算與語言(cs.CL)領域。有興趣深入了解的讀者可以通過該編號在arXiv上查詢完整原文。
**一、一個人花了110天,整理出了一座語言寶庫**
你有沒有在某個電影購票網站上讀過別人寫的評論,然後突然發現評論里夾著幾句完全不同的語言?這種現象在哈薩克斯坦的網路上相當普遍。當地人上網寫電影評論,有時用俄語,有時用哈薩克語,有時兩種語言混著寫,甚至在同一句話里切換。這背後究竟隱藏著什麼?哈薩克斯坦的一位獨立研究員決定認認真真地把這些評論整理起來,看看能發現什麼。
他用了整整110天時間,從2025年8月一直干到2026年1月,從哈薩克斯坦主流電影購票及娛樂平台kino.kz上爬取並逐條閱讀、標註了超過10萬條電影評論。最終整理出一個包含100,502條評論的數據集,時間跨度從2001年一直延伸到2025年,覆蓋了4,943部獨立電影,評論來自31,453個公開可見的用戶賬號。這個數據集現在已經完整公開在Hugging Face數據平台上,任何人都可以免費使用。
為什麼這件事值得關注?因為在自然語言處理這個領域裡,研究人員想要訓練電腦讀懂人類寫的文字,就需要大量真實的語料作為原材料。英語的原材料多到用不完,中文的資源也相當豐富,但哈薩克語的資源卻極其匱乏。更特別的是,哈薩克斯坦的語言生態本身就是一個活生生的實驗室——這個國家有兩種官方通用語言在日常生活中共存,而普通網民在網上寫評論時,會自然而然地在兩種語言之間遊走,留下了大量珍貴的混語文本。這份數據集,某種程度上就是25年間哈薩克斯坦網路語言生活的一個完整切片。
**二、10萬條評論里,語言是怎麼分布的?**
把這10萬條評論按語言一一拆開來看,會得到一幅相當有意思的圖景。絕大多數評論使用俄語,共96,749條,占總量的96%出頭。哈薩克語評論有2,639條,占比約2.6%。還有1,114條被標註為"混碼"(code-switching),也就是在一條評論里同時出現了兩種語言的實質性內容。此外還有極少量的英語和其他語言評論,總共65條,在後續分析中被剔除。
研究者在標註語言時特別做了一個區分,值得多說幾句。他把"混碼"和"借詞"分開處理。借詞是指某種語言在長期接觸中吸收了另一種語言的個別詞彙,並把它當成本語言詞彙來用,比如俄語日常用語裡有很多英語來源的詞,但說俄語的人不會覺得自己在說英語。混碼則不同,它是指在一段話里真正插入了另一種語言的短語、從句或完整句子,那些插入的部分保留著原語言的語法結構和功能詞。研究者在論文裡舉了一個真實的混碼例子,讀來頗有趣味:那段評論開頭用哈薩克語說"如果你有時間的話,這部電影還不錯,聲音處理得很好",然後中間突然切換成俄語說"劇情好,但是短",最後又用帶著哈薩克語風格的俄語收尾說"值得去看"。整段話在兩種語言之間自然切換,完全不違和,這就是典型的混碼。
從評論長度來看,三種語言的評論篇幅都不算太長。俄語評論的中位數長度是30個詞,哈薩克語評論是24個詞,混碼評論是33個詞。95%的評論在各自語言下都不超過70到108個詞。這說明電影評論雖然比微博發文要長一些,但基本還是短文本。
**三、從情感傾向看:人類為什麼普遍愛給好評?**
除了語言標註,研究者還給每一條評論打上了情感標籤,分為正面、中性和負面三類。這件事也是他一個人手工完成的,總量超過10萬條。結果顯示,正面評論占到68,858條,約占總量的68.5%。負面評論有27,315條,約占27.2%。中性評論只有4,329條,約占4.3%。
這種"正面遠多於負面"的分布,其實是評論類平台的普遍規律。研究者在論文裡引用了前人的觀察——很多評論平台都呈現出類似的傾向,願意花時間寫評論的用戶,往往是對內容有較強情感投入的人,而那些覺得還不錯的觀眾也更願意寫下來分享。中性評論之所以特別稀少,是因為一個既不太滿意也不太失望的觀眾,通常沒有什麼動力去特意寫評論。
在沒有其他標註人員協助的情況下,研究者用了一個實用的方法來驗證自己的標註質量:他把所有評論也餵給了GPT-4.1-nano這個AI模型,讓它按相同的三分類標準獨立給出判斷,然後和自己的標註結果對比。兩者的一致率達到了89.54%,Cohen's κ係數為0.78。κ這個係數用來衡量兩個判斷者的一致性是否超過了純粹湊巧的概率——0.78在學界通常被認為是"相當強的一致性"。最終發布的數據集使用的是研究者本人的人工標註,AI標註作為參考存檔。
**四、11,309條有明確評分的評論,背後是個複雜的數學題**
kino.kz這個平台允許用戶給電影打一到十分的星級評分,但這些評分並不公開展示,只有評論文字是公開的。不過,有11,309條評論(約占總量的11%)的作者在評論正文裡自己寫出了分數,比如寫"10/10"、"9分滿分10"、"твердая семерка"(俄語"穩穩七分"的意思)之類的表達。研究者把這些評分全部手工提取出來,統一換算成0到10分的標準。
換算過程中有幾個細節值得留意。有些用戶是按1到5分制評分的,研究者把這些乘以2,對齊到10分制。有些用戶明確說某部電影爛到不配得一分,只能給0分,這些也被記錄在案。還有少數情況,用戶只寫了一個數字,沒說是10分制還是5分制,研究者就結合評論的文字內容,依據上下文判斷最合理的解讀。
從這些評分的分布來看,滿分10分的評論最多,達到4,575條,幾乎占了有評分評論總量的40%出頭。這再次印證了前面說的"平台正面偏向"。反過來,0分、1分、2分的評論合計只有1,062條。這種極度不均衡的分布,在後來設計評分預測任務時造成了不小的麻煩,後文會細說。
**五、時間軸上的語言變遷:哈薩克語是如何一步步走上檯面的**
這份數據集之所以特別有價值,其中一個原因是它橫跨了整整25年。研究者在逐條閱讀的過程中,清楚地觀察到了哈薩克語在這個平台上的使用軌跡。
kino.kz這個平台在2000年上線,但根據標註數據,平台上的第一條哈薩克語評論直到2011年才出現——也就是平台運營十年後,才有人用哈薩克語寫評論。在此之前的十年裡,評論全部是俄語。這一現象折射出哈薩克斯坦獨立後的現實:俄語在城市、網路、商業和文化生活中長期居於主導地位,哈薩克語的日常書寫習慣在相當長的時間裡是缺席的。
更有意思的細節在於,早期用戶寫的評論里經常出現這樣的內容:對哈薩克語配音質量的批評、對翻譯質量的吐槽,甚至有人在評論開頭客氣地問"可以用哈薩克語寫嗎?",好像用本國官方語言發言這件事本身還需要先徵求許可。到了後期,哈薩克語評論的數量和比例穩步上升,內容也越來越自信,越來越多地表達對哈薩克語電影製作的支持和肯定。
從具體數字看,2020年代以後哈薩克語評論的占比出現了明顯跳躍。從圖表數據來看,2022到2025年間,部分年份的哈薩克語評論占當年總評論數的10%以上,峰值甚至接近13%和26%。這背後是哈薩克斯坦近年來推動語言政策轉型、哈薩克語電影產業不斷壯大的社會背景。順帶一提,數據集裡評論數量最多的五部電影全都是哈薩克斯坦本土製作。
**六、哈薩克斯坦的俄語,和莫斯科的俄語不完全一樣**
數據集裡還有一個語言學層面的亮點:這裡的俄語帶有明顯的本地色彩。研究者在閱讀評論的過程中注意到,大量評論使用了"哈薩克斯坦俄語"的特有表達——這是一種受哈薩克語長期影響、又帶著本地社會文化印記的俄語變體,如果拿去給俄羅斯本土的俄語母語者看,他們可能會有不少詞彙和表達不明白。
這些本地特色詞彙涵蓋了親屬稱謂(比如ажека、агашка,分別指老年女性長輩和年長男性親屬),社會角色詞(бастык,意為"老闆、頭兒";токалка,指小妾),文化觀念詞(уят,大致相當於"羞恥、有失體面"的概念),節日名稱(Наурыз,即哈薩克新年),媒體節目(Бауржан Шоу,一檔本地電視節目),以及商業機構名稱(Sulpak是家電連鎖,Керуен是購物中心,Kcell是電信運營商,Otau Cinema是本地院線品牌)。
更有趣的是語法層面的混融現象。比如有評論寫了чёп-чёрный(字面意思是"黑透了"),這是把哈薩克語重疊加強的構詞規律直接"翻譯"進了俄語表達里;有人寫не уятьте,這是把哈薩克語詞根уят(羞恥)接上了俄語的否定前綴和命令式詞尾,造出一個兩種語言雜交的動詞;還有人寫еркеки,這是用哈薩克語詞根(男人)加上俄語複數詞尾造出來的複數形式。這些現象表明,語言接觸在真實的日常文字里留下的痕跡,遠比教科書描述的要生動和複雜得多。
**七、研究者設計了兩道考題,來測試電腦讀懂情感的能力**
整理好數據之後,研究者設計了兩個機器學習任務,用來測試各種電腦模型能否從評論文字里自動判斷情感。
第一道考題叫做"情感極性分類",任務目標很直接:看一段評論,判斷它是正面、中性還是負面。這是一個三選一的判斷題。
第二道考題叫做"評分分類",目標是在不看任何明確評分的情況下,僅憑評論正文預測用戶給的是什麼分數段。由於10個評分檔位太細,數據分布極不均衡,研究者把0到10分合併成了五個大類:0到2分算一檔,3到4分算一檔,5到6分算一檔,7到8分算一檔,9到10分算一檔。
特別值得注意的是第二道考題里的一個防漏措施。前面說過,有11,309條評論在正文裡直接寫了評分數字。如果讓模型直接讀這些評論,模型只需要找到那個數字就能答對,完全不需要真正理解情感——這就像考試作弊一樣,分數高但沒有意義。為了防止這種"作弊",研究者把所有評論正文裡的評分表達全部替換成了一個占位符"scoretoken",把有效資訊隱藏掉,強迫模型真正去讀懂語言本身,而不是抄答案。
數據集按照8:1:1的比例分成訓練集(80,009條)、驗證集(10,829條)和測試集(9,664條)三份。為了防止同一部電影的評論同時出現在訓練集和測試集裡造成"題目泄露",切分是按電影進行的——每部電影的所有評論只會出現在三個集合中的一個,確保模型在測試時面對的是真正沒見過的新電影,考驗泛化能力。
**八、六支隊伍參加考試,成績單出爐了**
研究者找來了六個模型參加考試,分成兩大類。
一類是傳統的統計方法模型,包括線性支持向量機(SVM)、邏輯回歸(LR)和多項樸素貝葉斯(MNB)。這類方法的原理類似於"詞頻統計":把文字拆成單個詞和詞組,數一數它們出現的頻率,然後據此判斷情感。這是過去二三十年裡文本分類的主流方法,雖然看起來簡單,但經過了大量實踐驗證,效果相當穩定。
另一類是基於Transformer架構的多語言預訓練模型,包括mBERT、XLM-RoBERTa和RemBERT。這三個模型都是在大量多語言文本上預先訓練好的神經網路,能夠理解詞語在上下文中的含義變化,而不僅僅是統計詞頻。mBERT由谷歌發布,在維基百科的100多種語言上預訓練,包含俄語和哈薩克語,參數量約1.68億。XLM-RoBERTa由Facebook發布,用了更大規模的網路爬蟲數據(CC-100數據集,覆蓋100種語言),參數量約2.7億,在很多多語言任務上表現優於mBERT。RemBERT也是谷歌發布的,在110多種語言上訓練,專門針對低資源語言(即數據量少的語言)做了優化設計。
這三個模型在參加考試之前,都用訓練集數據做了針對性微調,相當於先上了一段專項輔導課。微調在Vast.ai提供的雲端GPU上完成,用的是一塊NVIDIA RTX 3090顯卡,所有模型加起來總共花了大約2美元的算力費用。
**九、第一道考題的成績:Transformer模型贏了,但贏得不算懸殊**
在情感極性分類這道考題上,Transformer模型確實表現更好,但領先幅度比想像中小一些。
RemBERT的測試集宏平均F1分數(這是一種考慮了各類別均衡表現的綜合指標)為0.82,Cohen's κ為0.88。XLM-RoBERTa緊隨其後,F1為0.81,κ為0.87。mBERT稍弱,F1為0.74,κ為0.83。傳統方法裡,SVM表現最好,F1達到0.73,邏輯回歸為0.71,樸素貝葉斯為0.70。
換句話說,最好的傳統方法(SVM,0.73)和最好的Transformer模型(RemBERT,0.82)之間的差距大約是9個百分點。這個差距說明Transformer確實有優勢,但傳統方法也並沒有被甩開太遠——在電影評論這種詞語情感信號相當明確的文本里,光靠統計詞頻就能捕捉到相當多的有效資訊。
按類別細看RemBERT的表現,結果很能說明問題:正面評論的F1為0.97,負面評論的F1為0.94,而中性評論的F1隻有0.56。中性評論的識別之所以這麼難,原因是雙重的:一方面,中性評論只占總量的4%多一點,訓練樣本稀少;另一方面,中性評論在語言上本來就模糊,往往是那種"有點好有點不好,說不清楚"的狀態,不像正面或負面評論有那麼多旗幟鮮明的情感詞彙。
研究者對錯誤案例做了具體的分析。有一條俄語評論寫道"這部電影對我來說很出乎意料,完全不像我兒時對印度電影的記憶,舞蹈哪去了?!!"——標註是中性,模型預測為負面。這條評論主要表達的是一種"預期落空"的驚訝,作者對電影本身沒有強烈的好惡,更多是在感嘆風格變了,但模型被結尾的感嘆號和反問句帶偏,判斷成了批評。另一個錯誤來自一條哈薩克語評論,大意是"我們得去支持自己的哈薩克電影,但說實話,導演和編劇還需要加強,演員表現得非常棒"——標註是中性(褒貶參半),模型預測為正面,因為被"非常棒"這類強烈的正面詞彙帶著跑了,沒有充分權衡前面那句委婉的批評。這兩個錯誤案例說明了同一個道理:中性情感經常是通過期望落差、反問語氣或褒貶並陳來表達的,這比直接說"好"或"爛"要複雜得多。
按語言細看,俄語評論的F1最高(0.81,κ為0.88),哈薩克語評論次之(F1為0.77,κ為0.68),混碼評論也還不錯(F1為0.76,κ為0.73)。哈薩克語和混碼評論的表現略低,部分原因是訓練數據量更少,模型見過的樣本不夠多。
**十、第二道考題的成績:所有模型都"將將及格"**
在隱藏了明確評分表達之後,評分分類這道考題就難多了。六個模型的宏平均F1分數全部落在0.51到0.55這個區間裡,彼此之間的差距微乎其微。RemBERT和SVM並列最高,測試集F1為0.54到0.55,XLM-RoBERTa和MNB緊跟其後(F1為0.54),mBERT最弱(F1為0.51)。
這個結果很能說明問題:隱藏了評分數字之後,Transformer模型的優勢幾乎完全消失,它們的表現和傳統統計方法旗鼓相當。這意味著在沒有"作弊材料"的情況下,從文字本身推斷用戶的精確評分檔位,是一件遠比判斷"好評還是負評"難得多的事情。
按分類細看RemBERT的表現,第五檔(9到10分,即高分評論)的F1高達0.88,因為這一檔的樣本最多,模型見過足夠多的例子。但第二檔(3到4分)的F1隻有0.09,幾乎沒什麼識別能力,因為這一檔的樣本實在太少,模型根本沒有學到足夠的規律。第一檔(0到2分)F1為0.68,第三檔(5到6分)為0.53,第四檔(7到8分)為0.52。
整體準確率是69%,但宏平均F1隻有0.54——這兩個數字之間的巨大落差正好說明了"準確率"在不均衡數據集上有多麼具有誤導性。模型如果每次都猜"高分評論",準確率也會相當可觀,因為近一半的樣本本來就是高分。宏平均F1把每個分類檔位平等對待,暴露了模型在中低分區間幾乎束手無策的真實狀況。
**十一、這份數據集還能用來做什麼?**
研究者在論文裡明確說,情感分類只是這份數據集的一種用法,而且是相對基礎的那種。數據集真正的潛力可能在其他方向上。
25年的時間跨度讓它非常適合研究語言和輿論的歷史演變。比如,早期評論和近期評論對哈薩克傳統文化的態度是否發生了變化?家庭暴力、性別角色、民族認同這些話題在不同年代的電影評論里是如何被討論的?哈薩克語使用者在25年裡的寫作風格和詞彙選擇又經歷了怎樣的變遷?這些問題都可以用這份數據集來探索。
在語言學研究方面,哈薩克斯坦俄語的本地變體特徵——那些只有在哈薩克斯坦才會出現的詞彙、構詞模式和語義引申——在這份數據集裡有大量真實案例,是研究語言接觸與區域變異的寶貴素材。混碼評論的子集則為研究自然發生的語言切換行為提供了實例,而不是實驗室里人為設計的語料。
對於電腦科學領域的研究者來說,這份數據集還是一個相對罕見的真實世界長文本多語言基準測試集,可以用來評估模型在俄語、哈薩克語和混碼文本上的泛化能力,尤其對於那些希望在中亞語言環境下部署應用的團隊來說,這是目前為數不多的可用資源之一。
說到底,一位研究者用110天時間、大約2美元的算力成本,把一個網站25年間的10萬條用戶評論變成了一份公開資源。這件事本身並不複雜,但在哈薩克語NLP資源極度匱乏的現實下,它填補了一個實實在在的空白。研究結論揭示的幾件事也值得記住:判斷好評負評比推斷精確評分容易得多;中性情感是最難捕捉的;隱藏了"作弊資訊"之後,再先進的神經網路也和簡單的詞頻統計差不多;而俄語和哈薩克語之間25年的語言交融,在一條條網路評論里留下了遠比想像中更多、更有趣的痕跡。
歸根結底,語言是一面鏡子。哈薩克斯坦這10萬條電影評論里,映出的不只是某部電影好不好看,還有一個社會在兩種語言之間尋找自己聲音的漫長過程。研究者在論文末尾提到,他在閱讀評論時還記錄了一些反覆出現的主題:期望落空的失望、"只值得看一遍"的評價、對某個具體情節或段落的不滿,以及"整體很爛但還是推薦特定人群去看"的複雜評價……這些都沒有成為這篇論文的正式分析對象,但它們藏在那10萬條評論里,等待下一個有興趣的研究者去挖掘。有興趣的讀者可以在Hugging Face的yeshpanovrustem/100k_movie_reviews_from_kz數據集主頁找到完整數據,也可以通過arXiv編號2605.08600查閱原論文。
Q&A
Q1:kino.kz電影評論數據集裡有哪些語言,各占多少比例?
A:數據集共100,502條評論,俄語評論占絕大多數,約96,749條(約96%);哈薩克語評論2,639條(約2.6%);混碼(哈薩克語和俄語混用)評論1,114條(約1.1%);英語及其他語言評論65條,因數量極少被排除在分析之外。
Q2:評分預測任務中為什麼要隱藏評分表達,直接用原文不行嗎?
A:因為有11,309條評論在正文裡直接寫出了評分數字,如"10/10"或"9分滿分10"。如果不隱藏,模型只需找到那個數字就能答對,完全不需要理解文字情感,這是一種"作弊"行為。隱藏後模型必須真正讀懂語言,但這也讓任務難度大幅提升,所有模型的宏平均F1都只有0.51到0.55。
Q3:哈薩克語評論是從什麼時候開始出現在kino.kz上的?
A:雖然kino.kz平台在2000年就上線了,但根據數據集裡的時間戳,第一條哈薩克語評論直到2011年才出現,即平台運營約十年後。此前十年的評論全部是俄語。2020年代以後,哈薩克語評論的數量和占比明顯上升,部分年份占當年總評論的10%甚至更高。






