北京大學與阿里巴巴聯合出品：讓AI同時「說話」又「畫畫」，角色扮演終於有了全新玩法

這項由北京大學、阿里巴巴集團與浙江大學聯合開展的研究，以預印本形式於2026年5月發布，論文編號為arXiv:2605.08129，感興趣的讀者可通過該編號檢索完整論文。

贊助商廣告

你有沒有幻想過，有一天能和自己最喜歡的動漫角色真正對話——不只是收到一段冷冰冰的文字回復，而是同時看到那個角色帶著符合當下情緒的神情和姿態出現在你面前？或者，作為一個《天命》系列的粉絲，你問遠坂凜"你有沒有想過放棄魔術師的身份"，她不僅用獨特的傲嬌口吻回答你，還同時生成了一張她皺眉沉思的畫面？這種體驗，正是這篇論文所追求的目標。

然而在這項研究出現之前，這種體驗幾乎是不可能的。要麼你得到的是一個能聊天的AI，但它完全不知道角色長什麼樣，更不會畫出任何圖像；要麼你能找到一個生成圖像的系統，它能把遠坂凜畫出來，但它既不懂這個角色的性格，也無法跟你對話。這兩件事從來沒有被同時做好過。

研究團隊把這個新問題命名為"定製化多模態角色扮演"（CMRP），並為此搭建了一套叫做UniCharacter的系統框架。這個系統的核心野心是：只需要給它10張角色圖片加上一批對話示例，它就能"學會"這個角色，然後既能用這個角色的語氣和性格跟你聊天，又能在聊天的同時生成符合當下情境的角色圖像。整個訓練過程大約消耗100個GPU小時，對於研究層面而言相當高效。

一、為什麼現有的AI角色扮演系統都"缺了一半"

要理解這項研究解決了什麼問題，可以把現有的AI系統比作兩種不同的演員。第一種是專注於台詞的舞台劇演員，他們能把角色的內心世界通過語言表達得淋漓盡致，但從不露面，你永遠看不到他們的表情和動作。第二種是只負責造型的模特，他們能完美還原角色的外貌和服裝，但一句話都說不了。而真實的角色扮演體驗，需要的是能同時說話又能展示自己形象的完整演員。

贊助商廣告

從技術角度來看，現有的文字角色扮演系統（比如CharacterLLM）經過訓練後能模仿特定角色的說話風格，但它根本不具備生成圖像的能力。而圖像生成領域的經典工具DreamBooth，能夠學習一個角色的視覺外貌並生成高質量圖片，卻完全不參與對話。還有一些多模態系統，比如Yo'LLaVA或UniCTokens，雖然嘗試把圖像理解和生成結合在一起，但它們的重點只是回答關於圖像的問題，或者生成圖像，並沒有真正的"角色扮演"能力——也就是說，它們不會用角色的性格和口吻與你互動，更不會在角色扮演過程中同時生成反映角色情緒狀態的畫面。

這種"缺了一半"的狀態，使得構建真正沉浸式的虛擬角色互動幾乎不可能。研究團隊的論文裡有一張對比表格，清楚地顯示了現有各方法在五種能力上的覆蓋情況：文字角色扮演、多模態角色扮演、文字生成圖像、知識問答和視覺問答。只有UniCharacter在這五個維度上全部打了勾，其他所有方法都存在至少一個明顯的短板。

二、打造一個專屬數據集：RoleScape-20

研究團隊首先面臨的挑戰，是根本沒有適合這項任務的數據集。現有的角色相關數據集要麼只有文字對話，要麼只有圖片，要麼圖片和對話都有但彼此孤立——圖片裡的角色做著某件事，對話里的角色聊著另一件事，兩者之間毫無關聯。

於是團隊從零開始構建了一個叫做RoleScape-20的數據集，包含20個多樣化角色，涵蓋三大類別：九位真實世界的人物（主要來自影視劇），七位動漫和遊戲角色，以及四隻動物角色。這種多樣性的設計是經過考慮的，因為不同類型的角色在視覺風格、語言習慣和性格特徵上差異極大，只有在各種類型上都能表現良好，才能證明方法的普適性。

每個角色的構建都相當系統化。團隊為每個角色收集了5到15張參考圖片，這些圖片來自真實照片、影視截圖、遊戲和動漫畫面。與此同時，團隊還為每個角色整理了性格描述和背景介紹，這部分內容對於真實人物來自維基百科等權威來源，對於虛構角色則由大語言模型基於已有設定生成。

贊助商廣告

然而圖片和簡單的背景描述還遠遠不夠，因為角色扮演的核心是對話，而且這個數據集需要讓模型學會在回應對話時同時生成圖像。團隊為每個角色構建了150到250條對話樣本，並為對話中出現的每個場景進行了深入的多模態標註。

這裡最關鍵的創新在於兩種特殊標註的引入。第一種叫做"思考過程"，它解釋了為什麼這張圖片適合對應這段對話——比如，當遠坂凜說出"失去與他們的聯繫是不可接受的"這句台詞時，思考過程會分析她的表情應該如何體現出震驚和強硬，她的姿態和畫面構圖應該如何配合這種情緒。第二種叫做"生成指令"，這是一段精煉的圖像生成提示詞，直接指導模型畫出對應的圖像。

除了多模態角色扮演數據，數據集還包含專門的知識問答數據——大約每個角色100道問答題，測試模型是否真正了解角色的背景知識——以及視覺問答數據，每張圖片約20道問題，測試模型能否準確描述圖片中角色的外貌細節和表情姿態。

整個數據構建過程是半自動的。對話擴展部分使用Qwen3大語言模型來生成，多模態標註使用GPT-4o來完成，知識問答和視覺問答則分別使用Qwen3和Qwen3-VL來生成，所有生成內容都經過人工審核和篩選，確保質量。

與之前的相關數據集相比，RoleScape-20填補了一個顯著的空白。像CharacterLLM和ChatHaruhi這樣的純文字角色扮演數據集有豐富的對話但沒有圖片；DreamBooth有圖片但沒有對話；Yo'LLaVA、MyVLM和UnifyBench有圖片也有一些問答，但缺少深入的角色扮演對話，也沒有思考過程這類精細化標註，更沒有把圖片和對話配對成真正的多模態角色扮演場景。

三、UniCharacter的訓練邏輯：兩階段的"先打基礎再精進"

有了數據集之後，研究團隊設計了一套兩階段的訓練方法。可以把這個過程想像成培訓一位演員：第一階段是在學校里系統學習表演基礎，第二階段是進入劇組磨練，通過不斷的試鏡和調整來找到最佳狀態。

贊助商廣告

第一階段叫做統一監督微調（Unified-SFT）。在這個階段，模型要同時學習多項能力。在文字生成方面，模型要學會四種相互補充的能力：第一是角色扮演聊天，也就是用角色特有的語氣、風格和情感來回應用戶輸入；第二是思考任務，即學習生成上面提到的"思考過程"，這個過程幫助模型在生成圖像之前先理清思路；第三是視覺問答，即根據角色圖片回答關於外貌的具體問題；第四是知識問答，即從角色背景資料中提取和回答知識性問題。這四種文字任務使用標準的交叉熵損失函數來訓練，簡單來說就是讓模型的輸出儘量接近人工標註的標準答案。

在圖像生成方面，模型採用的是一種叫做"整流流"（Rectified Flow）的技術，這是一種通過預測圖像中"噪聲到清晰圖像的變化方向"來生成圖像的方法。在SFT階段，圖像生成的訓練目標是讓生成結果儘量接近數據集裡的真實圖片，使用均方誤差損失函數來衡量偏差。

然而，僅靠第一階段的訓練存在一個問題：圖像生成部分容易"過度記憶"訓練數據。換句話說，模型學來學去只會複製訓練集裡的那幾張圖，生成結果缺乏多樣性——就像一個演員只會照搬在學校學的固定台詞，遇到新場景就不知所措了。

四、Character-GRPO：用強化學習打破圖像的"記憶牢籠"

這個問題催生了第二階段的訓練方法：Character-GRPO。這個名字來自"組相對策略優化"（Group Relative Policy Optimization），是DeepSeek-R1這類大語言模型訓練中使用的強化學習技術的改良版本，但這裡被應用到了圖像生成領域。

強化學習的核心思想可以用訓練寵物來理解：當寵物做了你期待的行為，你就給它零食作為獎勵；當它做了你不希望的行為，就不給獎勵甚至給予懲戒。通過反覆試錯和獎懲，寵物最終學會了正確的行為模式。Character-GRPO對圖像生成模型做的，正是類似的事。

在這個階段，模型不再依賴固定的"標準答案"圖片，而是為每一個文字提示詞同時生成一組（具體設定為8張）不同的圖片，然後通過多維度的獎勵函數來評價這8張圖片的質量，最終用這些評價信號來優化模型。

贊助商廣告

獎勵函數由兩大部分組成，分別針對兩個目標。第一部分是文字-圖像對齊獎勵，確保生成的圖片真的符合提示詞的要求。這部分又細分為兩個子指標：CLIP相似度獎勵衡量的是圖片與提示詞之間的語義匹配程度，使用CLIP模型（一種能同時理解圖片和文字的神經網路）來計算兩者在同一語義空間內的餘弦相似度；視覺問答一致性獎勵則更細緻，它會針對圖片內容提出具體問題（比如"圖中的角色是否在午睡？""場景中是否有舒適的籃子？"），然後檢查模型對這些問題的回答是否與預期一致，每答對一題加1分。

第二部分是多樣性獎勵，防止模型生成千篇一律的圖片。這部分同樣包含兩個子指標：感知多樣性獎勵使用LPIPS算法（一種模擬人類視覺感知差異的指標）來計算同一批8張圖片之間的視覺差異度，差異越大分數越高；訓練集相似度懲罰則是一個雙邊約束，它計算生成圖片與訓練集中所有圖片的最大相似度（使用DINO特徵，這是一種提取圖像深層語義特徵的方法），如果相似度太高（超過0.9），說明模型在照抄訓練集，扣分；如果相似度太低（低於0.5），說明生成的圖片根本不像這個角色了，同樣扣分。這個雙邊懲罰機制設計得相當精妙，它要求模型在"保持角色特徵"和"不照搬原圖"之間找到平衡點。

最終的綜合獎勵是四個分項的加權求和：CLIP相似度權重0.45，視覺問答一致性權重0.3，感知多樣性權重0.1，訓練集相似度懲罰權重0.15。這些權重是研究團隊經過實驗調優得到的默認值。

在整個Character-GRPO訓練階段，模型的圖像理解部分（包括視覺編碼器ViT）保持凍結不更新，只有負責生成圖像的部分參與訓練。這個設計是為了在優化圖像生成多樣性的同時，不破壞模型已經學好的圖像理解能力。

值得一提的是，Character-GRPO還帶來了一個額外的好處：因為它不需要真實圖片作為訓練目標，只需要文字提示詞，所以可以使用比SFT階段多得多的場景來訓練，本質上起到了擴充訓練數據的效果。

贊助商廣告

五、在推理時，思考過程如何讓圖像生成更準確

在實際使用時，UniCharacter的生成流程是這樣的：當用戶輸入一段對話（比如"凜，我們失去了和Saber與Archer的聯繫！"），模型首先以角色的身份生成文字回應，同時內部生成一段"思考過程"，分析當前情境下角色應該表現出怎樣的情緒、姿態和表情，以及畫面構圖應該如何安排。這段思考過程隨後被轉化為一段圖像生成指令，最終生成對應的角色圖像。

這種"先思考再生成"的設計在實驗中被證明是有效的，但有一個有趣的前提條件：思考過程對圖像質量的提升，只在經過Character-GRPO訓練的模型上才能穩定體現。對於只經過SFT訓練的模型，在推理時加入思考過程反而略微降低了圖像質量，並且讓生成圖片更接近訓練集（過擬合加重）。這說明Character-GRPO不僅提升了圖像多樣性，還讓模型具備了更好地利用語義推理資訊的能力。

六、實驗結果：與其他方法的正面對比

研究團隊在RoleScape-20數據集上進行了系統性的對比實驗，選擇了三個基線系統作為比較對象。第一個是DreamBooth，代表純圖像生成定製化的最佳水平；第二個是Qwen2.5-VL加文字提示詞，代表通過提供角色介紹和示例對話來引導大型視覺語言模型進行角色扮演的方法；第三個是UniCTokens，是目前最接近UniCharacter研究目標的統一多模態定製化方法。

在圖像生成質量方面，評測使用了三個指標：CLIP-I（生成圖片與角色參考圖片的視覺相似度）、CLIP-T（生成圖片與提示詞的語義匹配度）和DINO（基於DINO特徵的深層視覺相似度）。UniCharacter在T2I生成任務上的CLIP-I達到0.88，CLIP-T為0.33，DINO為0.91，均優於DreamBooth（CLIP-I 0.86，CLIP-T 0.30，DINO 0.88）。在多模態角色扮演任務（同時生成文字和圖像）上，UniCharacter同樣以0.86/0.33/0.89的分數領先，而UniCTokens在這個任務上的表現為0.51/0.17/0.70，差距相當明顯。

贊助商廣告

在文字角色扮演方面，評測使用"大模型作為評委"的方式，由Qwen3模型對每個系統的回答在三個維度上評分，滿分7分：記憶力（能否準確回憶角色的背景資訊）、個性（是否體現出角色獨特的說話風格和性格特徵）、多樣性（回答是否豐富多變而非千篇一律）。UniCharacter在記憶力、個性、多樣性上分別獲得5.45、6.55、6.10分，全面超越Qwen2.5-VL加文字提示的5.13、5.17、5.60分，更是大幅領先UniCTokens的2.43、2.54、2.30分。

在知識問答和視覺問答任務上，評測使用多選題準確率作為指標。UniCharacter的知識問答準確率為0.77，視覺問答準確率為0.84，而Qwen2.5-VL（一個專門為視覺理解設計的強大模型）在這兩項上分別為0.75和0.81，UniCharacter略勝一籌，這說明針對性的角色定製訓練沒有損害模型原有的理解能力，反而有所提升。UniCTokens在這兩項上僅為0.08和0.21，表現相當有限。

定性展示的例子進一步說明了差異所在。以Chandler（《六人行》中的角色）為例，當用戶說"你怎麼擺出那副表情"時，UniCharacter回答："這叫做'輕微興趣'。我不過就是坐著、坐著、再坐著……就像在公園裡的一條狗。"這個回答精準捕捉了Chandler自嘲式幽默和不經意間的諷刺口吻，同時生成了一張他身戴聖誕帽的圖片，畫面與對話情境高度契合。相比之下，Qwen2.5-VL的回答冗長且破壞了角色感，大段解釋Chandler的內心想法，完全不像這個角色的說話方式。

七、消融實驗：每一個設計決策的價值

研究團隊通過多組消融實驗，驗證了每個設計選擇的必要性。消融實驗的思路很直接：把一個完整系統的某個部件拆掉，看性能下降了多少，就能知道這個部件貢獻了多少價值。

第一組實驗對比了加入Character-GRPO與不加入的區別。結果顯示，有GRPO的版本在圖像質量（CLIP-I 0.88 vs 0.85，DINO 0.91 vs 0.88）和訓練集相似度（CLIP-I從0.89降至0.86，DINO從0.92降至0.90）上均優於無GRPO版本，證明GRPO階段同時提升了圖像質量和多樣性。

贊助商廣告

第二組實驗評估了GRPO獎勵函數中每個組件的作用。去掉CLIP-T獎勵後，生成圖片的文字對齊度下降（CLIP-T從0.31降至0.29），同時訓練集相似度異常升高，說明沒有文字對齊約束時模型更容易陷入複製訓練圖片的模式。去掉視覺問答一致性獎勵的影響更為顯著，CLIP-I和DINO都明顯下降，說明細粒度的視覺問答驗證對於維持角色特徵至關重要。去掉多樣性獎勵或訓練集相似度懲罰，都導致生成結果更接近訓練集，多樣性降低。總體上，四個獎勵組件各有側重，共同協作才能達到最佳效果。

第三組實驗探究了訓練數據組成的影響。從只使用原始數據，到加入擴展對話數據，再到加入思考過程數據，每個步驟都有明顯的改變。只加擴展對話數據時，文字角色扮演的記憶力（從4.41升至5.49）、個性（從5.18升至6.71）和多樣性（從2.67升至6.32）大幅提升，但圖像相關指標略有下降，原因是文字數據比例增大打破了與圖像數據的訓練平衡。加入思考過程數據後，個性和多樣性保持在高水平，圖像質量也隨之回升，彌補了前一步驟帶來的圖像性能損失，證明思考過程數據是連接文字理解與圖像生成的重要橋樑。

用戶研究同樣支持了這些結論。研究團隊邀請用戶對四種方法（DreamBooth、Qwen2.5-VL、UniCTokens、UniCharacter）在三個任務上的表現進行主觀評價。在文字生成圖像任務上，56.9%的用戶選擇UniCharacter為最佳，DreamBooth獲得23.1%，Qwen2.5-VL獲得12.8%，UniCTokens幾乎沒有獲選。在多模態角色扮演任務上，100%的用戶選擇UniCharacter為最佳，其他方法在這個任務上根本無法與之競爭。在文字角色扮演任務上，UniCharacter獲得56.9%，Qwen2.5-VL獲得40.0%。

八、這項研究的局限性與未來方向

研究團隊在論文中坦誠地列舉了當前系統的幾個局限性。第一個局限是，目前的任務只涉及文字和圖像兩種模態，而不包含影片。要讓角色出現在連續的影片畫面中，不僅需要每一幀的圖像質量，還需要跨幀的時間一致性，確保角色的外貌和動作在幀與幀之間保持連貫，這是一個更高難度的挑戰。

贊助商廣告

第二個局限是，當前的CMRP任務只針對單輪對話，也就是每次用戶發一條消息，模型回應一次，然後結束。在多輪長對話場景中，如何讓模型維持穩定的角色特徵而不"走樣"，需要更強的長期記憶機制，目前還沒有在這個框架內得到驗證。

第三個方向是實際部署層面的考量：如何讓這個系統能夠實時運行（目前每個角色的訓練就需要100個GPU小時），如何增加安全性控制（防止被濫用生成不當內容），以及如何讓普通用戶能夠參與到角色定製過程中（所謂的"用戶在環"定製），這些都是從研究原型走向實際產品所必須面對的問題。

從更宏觀的角度看，這項研究實際上展示了一種將強化學習技術（原本主要用於提升語言模型的推理能力）遷移到圖像生成領域的可行路徑。把GRPO應用在基於整流流的圖像生成分支上，用精心設計的獎勵函數來同時約束圖像質量、語義對齊和多樣性，這個思路本身就具有超出角色扮演任務本身的方法論價值。

說到底，這項研究做了一件聽起來簡單卻長期無人攻克的事：讓一個AI系統同時掌握"說話像某人"和"畫出某人"這兩件事，而且這兩件事要保持高度一致。從結果來看，給它一個角色的10張照片和一批對話樣本，它能學會用這個角色的方式跟你聊天，並且在聊天的同時畫出這個角色在那個情境中應有的樣子。這件事在兩三年前還屬於兩個完全獨立的技術領域，而這篇論文通過構建專屬數據集和創新訓練方法，把它們整合進了一個統一的框架。

對於普通用戶來說，這項研究的潛在影響不難想像。數字人陪伴、IP授權的互動娛樂、影視遊戲的角色對話系統，乃至教育領域中歷史人物或文學角色的沉浸式對話學習，都是可以預見的應用場景。當然，從論文中的實驗系統到真正可用的產品，還有相當長的路要走，尤其是在計算效率、安全控制和用戶體驗優化方面。但這篇論文至少證明了一件事：讓AI真正"活"成一個角色，在技術上已經不再是遙不可及的目標。有興趣深入探究技術細節的讀者，可以通過arXiv編號2605.08129找到完整的論文和代碼資源。

贊助商廣告

Q&A

Q1：UniCharacter訓練一個角色需要多少數據和時間？

A：UniCharacter只需要10張角色圖片加上對應的對話示例就能完成角色定製，整個訓練過程大約消耗100個GPU小時。數據量非常有限，研究團隊為此專門設計了兩階段訓練框架，用少量數據就能讓模型同時掌握角色的語言風格和視覺外貌。

Q2：Character-GRPO和普通的監督微調有什麼區別？

A：普通監督微調讓模型直接模仿訓練集裡的標準圖片，容易導致生成結果過度複製訓練數據，缺乏多樣性。Character-GRPO則不需要標準答案圖片，而是讓模型每次生成一批圖片，然後通過獎勵函數評價這批圖片的質量和多樣性，引導模型在保持角色特徵的同時探索更多樣的生成方式，本質上是一種通過試錯來學習的機制。

Q3：RoleScape-20數據集裡包含哪些類型的角色？

A：RoleScape-20數據集包含20個角色，分為三類：九位真實世界人物（主要來自影視劇，如《六人行》中的Chandler和Joey）、七位動漫和遊戲角色（如《原神》的芙寧娜、《雀魂》的一姬和遠坂凜、《寶可夢》的皮卡丘）以及四隻動物角色。每個角色配備了5到15張參考圖片和150到250條對話樣本。