北京郵電大學聯合研究團隊：用畫筆代替鍵盤，讓AI讀懂你腦海中的動作

這項由北京郵電大學牽頭，聯合中國科學技術大學、東北大學、新加坡國立大學、清華大學、電信人工智慧研究院（TeleAI）及西北工業大學共同完成的研究，於2026年5月以預印本形式發布，論文編號為arXiv:2605.20955。感興趣的讀者可通過該編號在arXiv平台查閱完整原文。

贊助商廣告

當你閉上眼睛，腦海里浮現出一個特定的動作——比如一個人先大步跑向障礙物，騰空躍起，落地時左手高高揚起——你能用文字把它描述清楚嗎？大多數人的回答是：很難。你可能會寫"跑步並跳過障礙"，但這句話完全抓不住那個舉手的細節。AI生成人體動畫的技術已經相當成熟，但它最大的瓶頸從來不是算法，而是"如何讓用戶把腦子裡的動作說清楚"。北京郵電大學的研究團隊換了一個思路：既然說不清楚，那就畫出來。

這個項目叫做DrawMotion，核心理念是給用戶一支"虛擬畫筆"，讓他們在螢幕上隨手畫出一個小火柴人（學術上叫"stickman"，即棍人圖），再畫一條運動軌跡，系統就能據此生成一段自然流暢的三維人體動畫。整套框架建立在當下最熱門的"擴散模型"（一種讓AI從噪聲中逐步還原出高質量內容的技術）之上，同時接受文字描述和手繪草圖兩種輸入，讓語義控制和空間控制並駕齊驅。用戶研究數據顯示，與純文字輸入相比，這套手繪方式能幫用戶節省大約46.7%的時間，同時獲得更高的滿意度評分。

---

一、為什麼文字描述永遠差一口氣

以烹飪為例來理解這個問題。假如你想讓廚師復刻一道你祖母做的紅燒肉，你可以描述"放醬油、放糖、慢燉"，但火候、時機、醬汁的黏稠程度，這些靠文字幾乎無法精確傳遞。人體運動的情況更複雜，因為它涉及十幾個關節在三維空間裡的精確協調。

現有的"文字生成動作"系統，比如研究團隊此前對比的ReMoDiffuse等方法，已經能根據"向前踢高腿"這樣的描述生成對應動畫。但如果用戶想要的是"向前踢高腿，同時右臂保持自然下垂，左臂微微向後擺"，文字就開始力不從心了。另一些研究嘗試用更精細的文字描述來分別控制身體各個部位，但這無異於讓用戶學一門新語言——代價反而更高。

贊助商廣告

研究團隊此前發布過一個叫StickMotion的系統（已於2025年CVPR發表），首次證明了手繪棍人圖可以用來控制動作生成，但那個版本只能在運動序列的開頭、中間、結尾這三個固定位置放置棍人圖，且無法控制運動軌跡。DrawMotion是在此基礎上做出的大幅躍進：用戶現在可以先畫一條任意形狀的軌跡線（比如一個螺旋形、一個字母"m"），然後在軌跡的任意位置插入任意數量的棍人圖來指定該位置的姿態。這兩項改變帶來的靈活度是質的飛躍，同時也帶來了三個全新的技術挑戰，正是這三個挑戰構成了整篇論文的主幹。

---

二、從數據到草圖：教會機器"看懂"隨手畫

第一個挑戰是數據問題。訓練AI需要大量"配對數據"——也就是一大堆棍人圖和它們對應的三維姿勢。但真人手繪的棍人圖太稀少了，也太難大規模收集。研究團隊的解決方案是"自動合成"，他們設計了一個叫做"棍人生成算法"（Stickman Generation Algorithm，SGA）的程序，能從已有的三維動作數據集中自動生成風格各異的手繪風格棍人圖。

這個算法在模擬時考慮了真實手繪的三個特點。人類畫畫時手的力度和習慣各不相同，線條的流暢程度千差萬別——用滑鼠畫的線通常比用iPad畫的更抖；畫棍人時很難做到絕對精準，各個部位的位置會有輕微偏差；更重要的是，手繪時人們往往只關注局部細節，不同身體部位之間的比例可能不一致。算法在生成棍人圖時都把這些因素考慮進去，讓生成的數據貼近真實的手繪特徵。此外，為了避免從側面看人的時候棍人圖模糊不清，系統規定棍人圖統一從正面（即垂直於骨盆平面的視角）繪製。

手繪草圖的編碼方式同樣經過精心設計。最直接的做法是記錄下用戶畫筆經過的每一個坐標點，但這樣的話，一個棍人圖可能需要200多個點，計算量會非常大。研究團隊的方案是把棍人圖拆解成六條"一筆畫"的線段，分別代表頭部、軀幹和四肢，每條線段單獨編碼後再由一個小型變換器網路（transformer）整合成一個緊湊的特徵向量。這種表示方式不僅計算效率高，識別精度也更好。

贊助商廣告

值得一提的是"候選損失"機制。棍人圖有一個天然的歧義性：當兩條腿併攏站立時，從正面看幾乎分不清哪條是左腿哪條是右腿。傳統的訓練方式是強迫模型給出一個確定的答案，但這會導致模型在這種歧義情況下表現很差。研究團隊換了個思路：讓解碼器同時預測N個候選姿勢，只對其中誤差最小的那個施加主要的懲罰，其餘候選姿勢施加較輕的輔助懲罰。這樣模型就學會了"保留多種合理可能"，而不是被迫猜一個。實驗證明，這個機制確實提升了動作生成的準確度。

至於二維軌跡的處理，邏輯相對直接：用戶在界面上畫出的軌跡曲線會被重新採樣到與動作序列幀數相同的密度，然後送進由六層一維卷積網路構成的軌跡編碼器。採樣可以根據用戶需求偏向"勻速採樣"（忽略畫線的速度）或"密度採樣"（保留畫線的快慢節奏），從而對生成動作的速度節奏進行控制。

---

三、讓AI同時聽懂兩種語言：多條件融合模組

第二個挑戰是如何同時處理文字和手繪兩種完全不同性質的輸入。文字描述的是全局語義（這個動作在做什麼），而手繪描述的是局部空間資訊（每一幀的骨架姿態和整體移動路徑）。把這兩種資訊有效整合起來，是DrawMotion架構設計的核心。

傳統方法是把所有條件資訊拼接成一個長序列，然後用一個統一的"自注意力"機制處理。自注意力機制可以理解為一種讓資訊互相"打招呼"的方式——每個資訊片段都向所有其他片段提問"你對我有多重要？"，然後根據重要程度來更新自己。但當用戶只提供了文字而沒有畫手繪時，系統必須把手繪對應的那些位置"隱藏掉"，這種隱藏操作會浪費大量計算資源，因為被隱藏的位置雖然不產生有效資訊，但計算過程還是會走一遍。

研究團隊設計的"多條件模組"（Multi-Condition Module，MCM）採用了完全不同的架構思路。在這個模組裡，文字和手繪通過兩個獨立的"解碼器"分別與動作特徵進行交互，而不是被拼在一起走同一條路。更巧妙的是，系統在訓練時會把一個批次的數據同時分成四組，對應四種條件組合：文字加手繪、只有文字、只有手繪、什麼都沒有。兩個解碼器分別處理需要各自對應條件的那幾組數據，然後把輸出疊加回動作特徵上。這樣一來，只需要兩個解碼器就能覆蓋四種條件組合，並且不存在任何浪費計算的隱藏操作。

贊助商廣告

在兩個解碼器的內部結構上，研究團隊也做了針對性的選擇。手繪解碼器使用"標準點積注意力"，這種方式會讓每一幀的動作特徵和所有手繪資訊做完整的配對比較——因為棍人圖是幀級別的局部姿態資訊，動作特徵的每一幀都需要找到對應的棍人圖來參考，完整配對是必要的。文字解碼器則使用"高效注意力"，這種方式先對文字資訊做全局壓縮，再依次映射到每個動作幀上——因為文字描述的是全局語義，不需要逐幀細緻比對。高效注意力的計算量和序列長度是線性關係，而標準注意力是平方關係，所以這個選擇在保持效果的前提下大幅降低了計算開銷。消融實驗的對比數據清楚地證明了這一點：把文字解碼器換成標準注意力，或者把手繪解碼器換成高效注意力，效果都會下降。

在訓練監督方面，DrawMotion使用三個損失函數的組合來約束模型的學習方向。軌跡損失確保生成動作的移動路徑與輸入軌跡一致；棍人損失逐幀比較生成姿態與真實姿態的三維關節偏移量，其中用隨機採樣的二值掩碼來允許不同幀的棍人圖組合；動作重建損失則對整個運動序列進行全局約束。三者聯合優化，確保模型同時學會"走對路線、擺對姿勢、做對動作"。

在推理時，系統通過一套"條件混合"策略來平衡文字和手繪的影響權重。在擴散過程的前期（大約前90%的去噪步驟），系統會以一定概率隨機選擇偏重手繪條件；在最後10%的精細化階段，則完全使用文字和手繪的聯合條件來做最終打磨。用戶研究中使用的配置將偏重手繪的概率設為20%，這樣既保證了文字語義的準確性，也確保了手繪細節的體現。

---

四、當軌跡和文字"打架"：無需重新訓練的動態糾偏

第三個挑戰也是最有技術含量的一個：軌跡和文字有時會產生衝突。假設用戶輸入了"一個人向前走"的文字描述，同時又畫了一條向右彎曲的軌跡，模型在兩種相互拉扯的信號下可能最終生成一條向右前方斜走的路徑，而不是嚴格沿著用戶畫的弧線移動。如何在不修改模型參數（即不重新訓練）的前提下，讓生成結果更精確地遵循用戶輸入的軌跡，這就是"無訓練引導"問題。

贊助商廣告

這個問題在學術界已經有幾種主流解法。一種是在去噪過程中直接把用戶指定位置的數值替換進去，但這樣做會破壞數據的內部分布，模型往往會把這些"外來數據"當作噪聲處理掉，效果很差。另一種是計算軌跡誤差，然後把梯度一路反傳到初始噪聲上，通過微調初始噪聲來改變最終結果——這個方法效果好，但計算量極大，因為需要跑完整的去噪過程很多遍。還有一種做法是在去噪過程的中間某一步計算預測值和目標之間的誤差，直接用梯度更新那一步的特徵，但這樣很容易讓特徵偏離正常範圍，導致生成結果失真。

研究團隊發現了一個出人意料的特性：MCM模組中"條件融合模組"輸出的中間特徵，在高維空間裡的分布是相對連續和稠密的。用統計學語言說，這些特徵不是離散地聚集在幾個孤立的點上，而是比較均勻地鋪滿了一片區域。這意味著在這些特徵上施加梯度擾動，特徵不會輕易"跑出合理範圍"，模型也不會因此產生亂碼輸出。

為了驗證這個直覺，研究團隊做了一個巧妙的實驗：把一批中間特徵按批次維度隨機打亂，然後用不同比例的"打亂版本"和"原始版本"做線性插值，觀察生成質量的變化。對比實驗中的ReMoDiffuse在插值比例僅為1%時生成質量就急劇惡化（FID分數從0.159跳升至0.283），10%時幾乎完全崩潰（FID高達29.67）。而DrawMotion在插值比例高達30%時仍然保持幾乎相同的生成質量（FID從0.146小幅變化至0.143），直到50%才略有下降。這組數據有力地證明了MCM中間特徵空間的連續性。

主成分分析（PCA，一種把高維數據投影到低維平面觀察分布形狀的工具）提供了視覺化的佐證：ReMoDiffuse的中間特徵分布呈現出極不規則的條狀；MCM的最終輸出特徵呈現聚集分布；而MCM條件融合模組的中間特徵則呈現出一團連續、稠密、近似高斯形的分布。進一步分析四種條件組合的內在維度發現，文字加手繪的組合需要417個主成分才能解釋99.9%的方差，而空條件只需要278個，說明多條件組合確實在高維空間中開拓了更寬廣的"可居住區域"。

贊助商廣告

基於這一發現，研究團隊提出了"中間特徵引導"（Intermediate Feature Guidance，IFG）方法。做法是在每個去噪步驟里，先提取MCM條件融合模組的中間特徵，然後對這個特徵做若干次梯度下降——每次下降的目標是縮小預測動作的骨盆軌跡與用戶輸入軌跡之間的歐氏距離誤差。為了防止特徵在梯度更新過程中跑出合理範圍，研究團隊引入了"馬氏距離裁剪"機制。馬氏距離是一種比歐氏距離更聰明的"偏離度"度量方式，它會同時考慮各個維度的方差和維度之間的相關性——可以理解為一把會根據地形自動調節比例尺的尺子。系統會在特徵更新前後分別計算馬氏距離，一旦更新後的距離超過原始距離加上一個閾值（即"MD邊界"），就按比例縮回這次更新的幅度，確保特徵始終在安全範圍內遊走。

超參數調優實驗系統性地測試了各項參數的影響。在層選擇方面，越靠近輸出的層對軌跡誤差的改善越顯著，但對生成質量（FID）的損害也越大，第三層是兩者之間的最佳平衡點。梯度下降的疊代次數越多，軌跡對齊越精確，但計算時間也成比例增加。馬氏距離閾值設為1是最優選擇：太小會導致特徵根本動不了，太大會讓特徵跑偏。裁剪比例設為0.01效果最佳，意味著一旦觸碰邊界，只保留更新量的1%，其餘99%丟棄——這看似保守，但恰好給了特徵一個"朝新方向輕輕探索"的機會，而不會蠻力衝出邊界。

---

五、用數字說話：DrawMotion的實際表現

研究團隊在人體動作生成領域最常用的兩個數據集上做了全面評估，分別是KIT-ML和HumanML3D，前者包含3911個動作序列，後者包含約14616個。評估指標涵蓋FID（衡量生成質量，越低越好）、R精度（衡量生成動作和文字描述的匹配程度，越高越好）、多模態距離、多樣性、多模態性，以及兩個針對DrawMotion特有能力設計的指標：棍人相似度（StiSim，衡量生成姿態和輸入棍人圖的匹配程度）和軌跡誤差（Traj.Err，衡量生成軌跡和輸入軌跡的偏差）。

贊助商廣告

在文字生成動作的標準評測維度上，DrawMotion在HumanML3D數據集上的FID為0.108，在KIT-ML上為0.135，都優於或持平於當前最好的純文字方法。棍人相似度方面，DrawMotion在HumanML3D上達到59.26%，遠超前代系統StickMotion的41.50%，說明新版本對手繪姿態的捕捉能力有了實質性提升。

與專門做動作軌跡控制的方法相比，DrawMotion的優勢更加突出。在HumanML3D數據集上，軌跡誤差僅為0.0062，而此前最好的OmniControl是0.0664，約為DrawMotion的十倍；完全依賴訓練時約束的CondMDI是0.1178，約為DrawMotion的二十倍。與此同時，DrawMotion的FID為0.108，也顯著低於對比方法中的絕大多數（OmniControl為0.218，GMD為0.576，純訓練方法DNO的FID高達2.464）。

在計算效率方面，DrawMotion也有明顯優勢。以一批16個樣本為基準，DrawMotion每批次耗時24秒，使用50步DDIM採樣；OmniControl需要153秒，使用1000步DDPM；DNO則需要高達358秒，使用10步DDIM但每步需要多次反傳。GPU顯存方面，DrawMotion占用2245MB，與OmniControl的2145MB相近，而DNO需要22727MB——足足是前兩者的十倍。

用戶研究招募了20名普通參與者，讓他們先在腦中想像一段10秒左右的人體動作，然後分別通過文字（輸入ReMoDiffuse）和手繪（輸入StickMotion和DrawMotion）兩種方式來生成動畫，最後對生成結果評分。結果顯示，ReMoDiffuse平均得分7.3分，總耗時33.8秒（其中概述8.1秒，詳細文字描述24.5秒，推理1.2秒）；StickMotion平均得分8.5分，總耗時16.4秒（概述8.1秒，手繪7.7秒，推理0.7秒）；DrawMotion平均得分9.5分，總耗時34.3秒（概述8.1秒，手繪9.1秒，推理17.1秒）。DrawMotion雖然總時間和ReMoDiffuse相近，但滿意度得分高出整整2.2分，說明用戶明顯感到"畫出來的結果更符合腦子裡的預期"。研究團隊還額外邀請了5名專業動畫師，讓他們在相同軌跡約束下手工製作關鍵幀動畫，結果每個樣本平均需要約3小時，滿意度評分7.4分——動作自然度不如AI生成，但軌跡符合度較好。

贊助商廣告

---

六、深挖一層：為什麼這套框架能奏效

DrawMotion的表現不是偶然的，它背後有幾個相互支撐的設計邏輯值得細說。

關於棍人相似度的大幅提升，原因來自三個方向的協同。DrawMotion允許用戶在軌跡的任意位置放置棍人圖，相比StickMotion只能放在固定三個位置，給了模型更精確的空間錨點。訓練時平均使用7個棍人圖而不是3個，相當於每條訓練數據提供了更密集的"路標"，模型學習到了更細粒度的姿態對應關係。此外，專門針對手繪條件設計的標準點積注意力結構，比StickMotion使用的方式更擅長處理幀級別的局部對應。

關於軌跡誤差的大幅降低，IFG機制是主要功勞。純粹靠訓練時的軌跡損失（即條件融合模組的基礎版本）已經比純文字方法好很多，但加上IFG之後，軌跡誤差可以從0.032進一步降至0.026（更多疊代時）。更關鍵的是，IFG在改善軌跡對齊的同時沒有損害FID，這在現有方法中幾乎是獨一無二的特性——大多數方法要麼犧牲質量換軌跡準確度，要麼反之。

關於MCM相比傳統掩碼注意力機制的優勢，消融實驗給出了明確答案。用傳統掩碼方法（只有條件融合，沒有潛在編碼器）時，FID為0.151，R精度（前三名）為0.764，棍人相似度50.6%，軌跡誤差0.048，計算量0.46 TFlops；去掉條件融合只保留潛在編碼器時，FID升至0.187，計算量降至0.28 TFlops；兩者都用時，FID為0.143，計算量0.71 TFlops；而DrawMotion的完整MCM（兩者結合，但使用更高效的實現）FID為0.135，計算量僅0.43 TFlops，效果最好，計算量也低於兩者簡單疊加的版本。

在棍人數量的影響上，實驗顯示隨著棍人數從0增加到7，StiSim從無到52.88%穩步提升，R精度也有小幅改善，而FID和多樣性幾乎沒有變化。這說明增加手繪條件不會以犧牲生成自然度為代價，兩者可以共存。7個以上棍人圖的提升趨勢趨於平緩，這也印證了系統在實際推理時選擇7個棍人圖是合理的配置。

贊助商廣告

---

七、局限與邊界：DrawMotion不是萬能的

從技術到產品還有一段距離，研究團隊在論文中直接點出了DrawMotion當前的局限。當用戶輸入的軌跡或棍人姿態與文字描述存在邏輯矛盾時（比如文字寫"坐下"，軌跡卻畫成快速移動的折線），生成結果往往會在兩者之間妥協，不完全符合任何一個輸入。當輸入違反基本的人體運動物理規律時（比如一個姿勢在生理上根本無法完成），系統也無法生成合理的結果，而是會產生扭曲的輸出。

研究團隊的建議是：系統可以把IFG算法最後一步的引導損失值（也就是預測軌跡和目標軌跡之間的最終誤差）返回給用戶，作為"輸入衝突程度"的參考指標。如果這個損失值很大，說明用戶的輸入存在內部矛盾，可以據此調整。這是一個務實而誠實的態度：不宣稱全能，而是提供輔助資訊幫助用戶做出更好的決策。

---

說到底，DrawMotion做的事情是在人與AI之間搭建了一條更直覺化的溝通渠道。動作生成這件事，從來不只是算法問題，更是交互問題。文字適合描述"發生了什麼"，但對於"怎麼發生的"——速度、軌跡、每一幀的姿態——它的精度上限就擺在那裡。手繪草圖繞過了這個上限，讓用戶直接在空間維度上表達意圖，而不必把空間資訊翻譯成語言再翻譯回來。

技術上，這套系統最值得關注的是MCM中間特徵空間連續性這一發現。它揭示了一類模型具備"天然引導容受性"的特質，並由此衍生出IFG這個不需要額外訓練、不需要額外模組、計算開銷遠低於現有方法的軌跡對齊手段。這個思路本身具有一定的普適性，值得在其他擴散模型架構上驗證和推廣。

對於關心AI輔助創作工具的從業者來說，DrawMotion指向的方向是：多模態輸入不是簡單疊加，而是要針對不同模態的資訊特性設計不同的處理路徑，才能真正讓各種輸入形式發揮各自的優勢。下一步值得追問的問題是：當輸入的手繪草圖更加抽象、更加不精確時，系統的魯棒性能維持到什麼程度？當用戶希望動態調整（而不是一次性輸入）時，交互界面該如何設計？對這些問題有興趣的讀者，可以通過arXiv論文編號arXiv:2605.20955查閱原文，或訪問該團隊在GitHub上公開的代碼和演示。

贊助商廣告

---

Q&A

Q1：DrawMotion是什麼技術，和普通的文字生成動畫有什麼區別？

A：DrawMotion是北京郵電大學等機構開發的三維人體動畫生成系統，允許用戶通過手繪軌跡和棍人草圖來控制生成結果，而不僅僅依靠文字描述。傳統文字生成動畫方法在描述空間細節（比如具體的運動路徑和每幀的姿態）時精度有限，DrawMotion通過手繪方式直接在空間維度表達意圖，用戶研究顯示滿意度評分比純文字方法高出約2.2分。

Q2：DrawMotion的棍人圖手繪要求精確嗎，普通人能用嗎？

A：不需要精確。系統在設計時專門考慮了手繪的不精確性，包括線條抖動、關節位置偏差和比例不一致等情況。訓練數據通過棍人生成算法自動合成，模擬了這些手繪特徵。此外，引入的候選損失機制讓模型能保留多種合理的姿態可能性，而非強迫用戶畫出精確的關節位置。實際用戶研究中，普通參與者平均只需9.1秒完成手繪輸入，門檻很低。

Q3：IFG（中間特徵引導）和其他軌跡對齊方法相比有什麼實際優勢？

A：IFG最主要的優勢是在不額外訓練任何模組的前提下，同時實現了低軌跡誤差和高生成質量。在HumanML3D數據集上，DrawMotion的軌跡誤差為0.0062，約為OmniControl的十分之一，同時FID僅0.108，也顯著優於其他對比方法。計算效率方面，每批16個樣本僅需24秒，GPU顯存占用約2245MB，而需要多次反傳的DNO方法耗時358秒、占用顯存約23GB。