芬蘭阿爾托大學與喬治亞理工學院聯手：不需要專用"翻譯器"，讓AI直接讀懂人體動作

這項由芬蘭阿爾托大學與美國喬治亞理工學院聯合開展的研究，以預印本形式於2026年4月發布在arXiv平台，論文編號為arXiv:2604.21668。研究團隊來自阿爾托大學的電腦科學領域，以及喬治亞理工學院的人機交互研究方向，有興趣深入了解的讀者可以通過上述論文編號在arXiv上查閱完整內容。

贊助商廣告

當你在手機里拍下一段跑步的影片，或是用傳感器記錄下一次打拳擊的動作，背後的骨架數據是一串密密麻麻的數字——每一幀記錄著幾十個關節點在三維空間裡的坐標。對人來說，這就是一堆令人頭疼的數據表格。對大語言模型（也就是像ChatGPT這樣的AI）來說，這更是外星語言，因為它們天生只懂文字，不懂數字坐標流。

現有的解決方案是給AI配一個"翻譯器"：先用一套複雜的編碼器把骨架數據壓縮成AI能理解的特殊符號，再花大量時間訓練AI學會這套暗語。這就像你想和一個只懂漢語的朋友分享一篇英文文章，不得不先雇一個翻譯，然後訓練這個朋友學會理解那個翻譯的特定說話方式——麻煩不說，換一個翻譯還得重來一遍。

研究團隊提出了一個截然不同的思路：既然AI本來就精通人類語言，何不直接用人話來描述動作？他們開發了一套叫做"結構化動作描述"（Structured Motion Description，簡稱SMD）的方法，把骨架數據翻譯成醫生和運動科學家一直在用的那種語言——關節角度描述。於是，"左腿踢腿"這個動作就變成了一段文字："左髖屈曲從3度增加到81度，持續0.9秒；左膝角從15度增加到141度，持續0.8秒……"這種語言不需要特殊訓練，任何大語言模型天生就能理解"屈曲"、"抬腿"、"向前"這些詞的意思。

一、原來的"翻譯器"有什麼問題

在解釋新方法之前，有必要先搞清楚舊路子走到了哪些死胡同。

現有主流方法的核心思路，是模仿電腦視覺領域"看圖說話"AI的做法：先把圖像（或者動作）壓縮成一堆特殊的"令牌"，再把這些令牌餵給大語言模型處理。這個過程中有兩個關鍵組件：第一個是動作編碼器，它負責把原始的關節坐標序列壓縮成緊湊的表示；第二個是對齊模組，它負責把這些緊湊表示翻譯成語言模型能理解的格式。

贊助商廣告

以具體的技術方案為例，有的方法用VQ-VAE（一種量化壓縮技術）把動作離散化成一個個離散符號，有的用VAE（變分自編碼器）產生連續的壓縮向量，有的則用一個簡單的線性投影層直接映射。這些方法各有側重，但都繞不開一個根本問題：整個系統必須綁定在特定的大語言模型上。今天你基於GPT-2訓練好了一套系統，明天想換成更先進的LLaMA，就得把整個流程從頭來過，編碼器和對齊模組都要重新訓練。

更麻煩的是，這些編碼器學到的"暗語"只在它接觸過的數據上好用。研究團隊發現，當他們用在運動捕捉數據集（HumanML3D）上預訓練的VAE去處理另一個用RGB-D相機採集的數據集（HuMMan-QA）時，性能會崩潰性地下降——同樣的骨架數據，經過這個編碼器處理後變成了亂碼。這就好比一個精通北京話的翻譯，突然遇到了四川話，雖然同是中文，但腔調完全不同，翻譯出來的東西讓人摸不著頭腦。

除此之外，壓縮後的動作令牌對人完全不透明。你沒有辦法看著一串數字令牌說"哦，這個令牌代表的是右膝彎曲"。這讓排查錯誤和理解模型行為都變得極為困難。

二、運動科學家早就有了一套"動作語言"

運動科學家和臨床醫生在分析人體運動時，有一套沿用了幾十年的精確語言體系：生物力學關節角度描述。當醫生分析一個病人的走路姿勢時，會這樣描述："站立期髖關節屈曲從3度增加到81度，之後在擺動期減小到7度。"這句話精確、無歧義，任何受過相關訓練的人都能聽懂。

研究團隊的核心洞察是：這套語言不僅對人類精確，對大語言模型來說也是天生熟悉的。這些模型在海量文本上訓練時，早就見過無數關於"髖關節"、"屈曲"、"向前移動"的句子，對這些詞彙背後的身體結構和運動含義有著相當深刻的理解。與其給AI發明一套新的專用符號系統，不如直接用AI已經內化了幾十年人類知識的語言來交流。

贊助商廣告

SMD方法的設計靈感正是來源於此。它不學任何東西，沒有任何參數需要訓練，完全依靠確定性的規則來計算關節角度並生成文字描述。換句話說，它就是一台精密的"動作轉文字"機器，每次輸入同樣的骨架數據，就會輸出同樣的文字描述，穩定可靠，不受數據來源的影響。

三、SMD是怎麼把骨架數據變成文字的

這台"機器"的工作流程分四步，可以用做菜的比喻來理解：採購食材（建立坐標系）、備菜（計算關節角度）、調味（描述全局軌跡）、裝盤（組裝成完整文字）。

第一步是建立身體局部坐標系。骨架數據里有22個關節點，但這些關節點的坐標是世界坐標系裡的絕對位置，受拍攝角度和人站在哪裡的影響很大。SMD首先以骨盆、左髖、右髖三個關節為參考，構建一個跟隨人體朝向移動的局部坐標系。這就像在船上安裝一個羅盤：不管船開到哪裡、朝哪個方向，羅盤的"前方"始終是船頭方向。

第二步是沿著運動學鏈計算關節角度。運動學鏈就是人體骨骼的層級關係：骨盆是根，往下是髖關節，再往下是膝關節、踝關節；往上是腰椎、頸椎；兩側是肩關節、肘關節。每個關節的角度都在其父關節的局部坐標系中計算。以髖關節屈曲為例，計算的是大腿骨（股骨向量）與骨盆局部坐標系的豎直軸之間的夾角，投影到矢狀面上。這樣算出來的角度只反映膝蓋相對於大腿彎了多少，而不受大腿本身朝哪個方向擺動的影響。總共計算26個關節角度，涵蓋骨盆、腰椎、頸椎，以及左右髖、膝、踝、肩、肘，分為13個身體部位組。

第三步是描述全局軌跡。關節角度告訴我們身體各部分如何相對運動，但走路、跳躍、轉身這類動作還涉及人在空間中的整體位移。SMD追蹤骨盆的世界坐標，分別描述前後、左右、高低三個平移方向，以及身體偏轉（左轉右轉）一個旋轉方向。為了過濾掉數據中的噪聲抖動，先用7幀（0.35秒）的滑動平均做平滑處理，然後用峰谷檢測把每條曲線切分成若干段，每段標註方向（"向前移動"、"向後移動"、"保持不動"）和數值範圍。平移方向的切分閾值是0.03米，旋轉方向是15度——這樣設置可以忽略站立時的微小晃動，只保留有意義的位移。

贊助商廣告

第四步是對關節角度時間序列做同樣的分割和描述。對每個關節角度曲線用同樣的平滑加峰谷檢測方法處理，角度變化閾值是5度。每個片段根據起止值被標記為四種類型之一：增加（角度上升至少5度）、減小（角度下降至少5度）、保持（變化小於5度）、重複N個周期（通過自相關檢測到周期性規律，相關係數閾值0.6）。這種壓縮方式非常高效：一條原本有200幀數據的時間序列，通常只需要3到8個描述片段就能準確概括。

最後，把軌跡描述和關節角度描述拼裝成一段層級化的結構文字：最上方是元資訊（持續時長、幀數、幀率），然後是全局軌跡塊（總位移摘要加各軸軌跡片段），最後是關節角度塊（26個關節按13個身體部位分組，每組有方括號標題）。全部26個關節角度的完整描述平均約4000個詞語單元（token），只選前3個活動最活躍的關節時約1000個詞語單元。

以"左腿踢腿"動作為例，完整描述里會出現這樣的片段："[左髖] 左髖屈曲（抬腿）：從3度增加到81度 [0.0s-0.9s]，從81度減小到7度 [0.9s-2.0s]，保持在3度 [2.0s-5.8s]；[左膝] 左膝角度（彎曲）：從15度增加到141度 [0.0s-0.8s]，從141度減小到17度 [0.8s-2.0s]，保持在17度 [2.0s-5.8s]……"

四、如何訓練AI讀懂這段文字

生成了SMD文字之後，這段文字會被格式化成提示詞（prompt）輸入給大語言模型。對於動作問答任務，提示詞包含一段系統角色說明、SMD文字、問題內容，以及多個候選答案選項，模型只需要輸出正確選項的文字。對於動作描述（字幕生成）任務，提示詞包含系統說明和SMD文字，模型輸出一句自然語言描述。

訓練時採用LoRA（低秩適配）技術，這是一種參數高效的微調方法：在凍結原始模型全部參數的基礎上，為每一層線性計算注入一對小矩陣（維度分解為r=16的低秩矩陣），只訓練這約4000萬個額外參數，而基礎模型的76億個參數完全不動。訓練目標是讓模型在看到SMD文字和問題之後，能生成正確答案。

贊助商廣告

這種設計帶來的好處是，換一個基礎模型只需要重新訓練這4000萬個參數，不需要重新訓練任何動作編碼器。一個問答任務的LoRA訓練在單塊H200顯卡上只需要約7小時，字幕生成約20小時，而基於VAE編碼器的方法光是多階段訓練就需要估算60小時以上。

五、實驗結果：在三個基準上全面超越所有競爭對手

研究團隊在三個權威基準數據集上做了系統評測。BABEL-QA包含1109段動作和2577個問答對，問題類型涵蓋動作識別、身體部位識別、運動方向判斷，測試集393對；HuMMan-QA包含925段動作和3123個問答對（533對測試），數據來源是RGB-D重建而非運動捕捉；HumanML3D是動作字幕生成的主流基準，包含14616段動作和44970個自然語言描述。

一個值得特別說明的細節是：兩個問答數據集的原始格式里，選項數量從4個到155個不等，這讓不同方法之間的對比失去意義（隨機猜對概率從25%到0.6%不等）。研究團隊將所有問題統一標準化為10選1格式，對於超過10個選項的問題隨機保留9個干擾項加上正確答案，對於少於10個的保留原始選項集。這個標準化的題目文件在所有方法之間共享，確保公平對比。

在BABEL-QA上，SMD方法取得66.7%的準確率，而此前最強專用方法IMoRe是60.1%，提升6.6個百分點；使用相同Qwen2.5-7B基礎模型但換用VAE編碼器的對照基線（MotionGPT3-Qwen）只有50.1%，比SMD低了16.6個百分點。

HuMMan-QA上的對比更加戲劇性。SMD方法達到90.1%，而MotionGPT3-Qwen只有22.0%——差距高達68個百分點。這個懸殊差距的根源在於：MotionGPT3的VAE是在HumanML3D（運動捕捉數據）上預訓練的，而HuMMan的動作是用RGB-D攝影機重建出來的，兩者的數據特性差異讓VAE的內部壓縮空間失效，變成了亂碼。研究團隊驗證了原始關節坐標在歸一化後統計特性相近，說明問題真的出在VAE的學習表示上，而不是數據質量本身。SMD作為完全基於規則的方法，不存在這種跨域脆弱性。

贊助商廣告

在HumanML3D字幕生成任務上，評測指標分兩類：一類是文本-動作語義對齊指標（R精度@1/2/3和多模態距離），一類是文字質量語言指標（BLEU@1/4、ROUGE-L、CIDEr、BERTScore）。SMD在幾乎所有指標上都取得最佳結果：R@1從此前最強的0.573提升到0.584，R@2從0.773到0.794，R@3從0.864到0.883，多模態距離從2.43降低到2.35；BLEU@1從59.08到63.45，BLEU@4從19.41到22.67（相對提升17%），ROUGE-L從46.17到47.80，CIDEr從40.65到53.16（相對提升31%），BERTScore從35.23到45.58。

使用同一Qwen2.5-7B骨幹的對照基線MotionGPT3-Qwen（4個投影令牌）取得R@1為0.555、CIDEr為46.13，在全部指標上都低於SMD。研究團隊還嘗試了32、64、128個投影令牌的配置，結果發現更多令牌並不能縮小差距——更大的投影矩陣在有限訓練數據上出現了過擬合。

六、精細拆解：哪些要素真正重要

研究團隊做了系統的消融實驗，把SMD方法拆解開來，逐一檢驗每個設計選擇的貢獻。

關於包含多少關節的實驗揭示了一個有趣的權衡。完全不包含關節角度（只有全局軌跡）時，問答準確率分別是56.2%和67.4%，說明很多涉及運動方向和整體動作類型的問題可以從軌跡資訊推斷，但字幕生成性能大幅下滑（R@1僅0.452，CIDEr僅21.69）。只選最活躍的3個關節時，問答性能反而最好（BABEL-QA 73.3%，HuMMan-QA 91.0%），這可能是因為只保留最活躍的關節去掉了靜止關節的干擾，讓模型更容易聚焦於關鍵資訊。但字幕生成隨著包含關節數增加而持續改善，All-26時R@1達到0.584。這說明問答任務偏好"精華提煉"，而字幕生成任務偏好"全面覆蓋"，最優粒度取決於具體任務。

關於全局軌跡表示方式，研究團隊比較了三種方案：不包含軌跡、自我中心坐標系（以身體朝向為參考的相對方向）、世界坐標系（絕對方向）。世界坐標系表現最好，尤其在字幕生成的R@1（0.584）上。值得注意的是，完全去掉軌跡資訊時BABEL-QA準確率只下降了1.8個百分點，字幕生成的CIDEr也基本相當（53.34 vs 53.16），這提示模型可以從關節角度的周期性規律（比如循環的髖膝屈伸暗示"在原地走路"）在一定程度上推斷全局運動，但明確的軌跡資訊仍然是有價值的補充。

贊助商廣告

關於規則參數的穩定性，研究團隊系統測試了三個關鍵參數在較大範圍內的變動：角度變化最小閾值δ從3度到15度、平滑窗口w從3幀到11幀、軌跡位移閾值τ_p從0.01米到0.10米。結果顯示性能都保持在穩定範圍內：BABEL-QA準確率在66.7%到71.0%之間，字幕生成R@1在0.527到0.608之間。有意思的是，默認參數並不是所有指標上的最優值——比如δ=3度和w=11時R@1和CIDEr都更高——說明針對特定任務調整參數還有提升空間，但收益有限。這種參數不敏感性表明SMD不是一個需要精心調參才能工作的脆弱系統，而是一個對參數擾動有良好魯棒性的穩固框架。

七、換一個AI大腦，只需幾小時

SMD方法的一個實用優勢是骨幹模型可以隨意更換。研究團隊用完全相同的SMD輸入（Top-3最活躍關節）和完全相同的LoRA配置，在8個不同的大語言模型上分別訓練和評測，這8個模型來自6個不同的模型家族，參數規模從30億到140億不等，包括Qwen2.5（3B/7B/14B三個規格）、Qwen3-8B、Qwen3.5-9B、Gemma3-4B、LLaMA-3.1-8B、GLM-4-9B。

結果顯示，所有模型在BABEL-QA上都超過63%，在HuMMan-QA上都超過82%，字幕生成R@1從0.517到0.563，CIDEr從49.23到54.33。在Qwen2.5家族內部，性能隨參數規模增大而提升（3B→7B→14B）。更新一代的模型（Qwen3-8B和Qwen3.5-9B）在字幕生成某些指標上超過了更大的Qwen2.5-14B，與當前大語言模型領域"新模型比舊的大模型更能幹"的普遍趨勢一致。即使是最小的Gemma3-4B（40億參數），在各項指標上也表現得相當有競爭力。

從工程成本角度來看，在新骨幹上重新訓練問答LoRA需要2到8 GPU小時，字幕生成需要6到12 GPU小時，只訓練約4000萬個參數。對比之下，MotionGPT3這類方法在換骨幹時需要重新執行包括編碼器預訓練在內的多階段完整流程，總時長估算超過60小時，可訓練參數超過1億。代價是推理時SMD的輸入序列較長：Top-3配置平均915毫秒每樣本，All-26配置平均1154毫秒每樣本，GPU顯存占用約15.5 GB；而VAE方法的輸入序列約256個詞語單元，處理更快但使用的是參數更小的模型。

贊助商廣告

八、AI在讀SMD時，眼睛盯著哪裡

由於SMD是人能讀懂的文字，研究團隊得以做一件在VAE編碼器方法上幾乎不可能做的事：可解釋性分析。

他們從微調後的Qwen2.5-7B的全部28個Transformer層里提取注意力權重，在所有層和注意力頭上做平均，然後對每個生成的輸出詞語單元，計算它對輸入SMD各個部分的注意力分布，並在所有生成步驟上累積求和。這樣得到的熱力圖直接反映了模型"看重"SMD的哪些部分來生成對應的字幕。

對於"原地走路"這個動作，熱力圖顯示模型主要關注描述前進位置靜止不動的軌跡片段，以及左右髖和膝關節的周期性重複片段（"重複7/8個周期"）——這兩個資訊合在一起確實足以判斷"原地走路"。生成的字幕"a person walks in place slowly"（一個人慢慢地原地走）與這些關注點高度吻合。

對於"用右手揮手"這個動作，注意力集中在右肩關節的內收（上下擺動）和右肘屈伸兩個部分，全局軌跡（完全靜止）幾乎沒有受到關注。模型正確識別了真正活躍的身體部位，並據此生成了"a person waves with his right hand"（一個人用右手揮手）。

這種可解釋性不僅僅是學術上的好奇心滿足，對實際應用有切實價值：當模型給出錯誤答案時，開發者可以直接檢查它在關注什麼，判斷是SMD的描述出了問題、還是模型對某類描述理解有誤，從而快速定位問題根源。這是不透明的潛變量表示方法所無法提供的能力。

九、不經過訓練，AI能有多少"天生"理解能力

研究團隊還測試了完全零樣本的情況：不做任何LoRA微調，直接把SMD文字和問題一起發給Qwen2.5-7B，讓它憑著預訓練時學到的知識作答或生成字幕。

在問答任務上，零樣本模型在BABEL-QA上取得35.6%的準確率，在HuMMan-QA上取得31.7%。考慮到題目有10個選項，隨機猜測的期望準確率約11.6%，35.6%顯著高於隨機水平，說明大語言模型確實從SMD的生物力學描述中提取到了有意義的資訊，即使沒有見過任何訓練示例。

贊助商廣告

在字幕生成任務上，零樣本模型生成的描述在內容上是有根據的，但行文冗長，缺乏動作層面的語義理解。對於一段"原地走路"的動作，零樣本模型輸出的是："這個人正在做一個複雜的動作，涉及輕微的側向搖擺和軀幹旋轉，同時點頭轉頭，以節律性方式擺動手臂和腿。"它準確識別了側向搖擺、軀幹旋轉、手臂擺動這些運動分量，但沒能把這些分量綜合成"原地走路"這個高層語義，也沒有學會用一句簡潔的話概括動作。

對於一段華爾茲舞蹈，零樣本模型輸出："這個人正在做一系列手臂和腿部動作，同時輕微移動位置和姿態，可能在模擬一套複雜的舞蹈或健身動作。"它識別到了肢體運動，但用"複雜的舞蹈或健身動作"這種泛指代替了具體的"華爾茲"。

這兩個例子清晰地說明了LoRA微調的作用所在：它不是讓模型從零開始理解SMD，而是幫助模型學會兩件事——從生物力學描述模式到高層動作語義的映射，以及適合這類任務的簡潔輸出風格。SMD消除的是對動作編碼器和多階段對齊訓練的需求，LoRA微調這一步則是任何任務適配都需要的正常流程。

說到底，這項研究最核心的貢獻是用一種幾乎"零成本翻譯"的方式打通了骨架數據與大語言模型之間的隔閡。歸根結底，解決方案來自於一個樸素的問題：AI已經懂人體語言了，為什麼還要專門造一門只有機器才懂的"暗語"呢？當你把動作翻譯成"左髖關節在0.9秒內從3度彎曲到81度"這樣的人話，不管是GPT、LLaMA還是Qwen，都能直接理解——因為它們在訓練時早就把關於人體運動的知識融入了自己的"記憶"。

這對普通人意味著什麼？以後開發動作識別、運動分析、健身指導、運動康復類應用的工程師，不再需要為每種AI模型分別訓練一套昂貴的動作編碼系統。改用更先進的AI大腦只需要幾小時的重新微調，而不是數周的重新建模。對研究者來說，當模型犯錯時，你可以直接檢查它"看了"哪些關節描述才得出那個結論，而不是對著一堆數字令牌抓耳撓腮。

贊助商廣告

當然，這套方案也有代價。完整描述一段動作需要約4000個詞語單元，是VAE方法的約15倍，這讓每次推理的時間更長。而且目前SMD只覆蓋SMPL骨架的22個關節，手指和腳趾等更細粒度的動作還沒有納入。研究團隊在論文中也承認，現有評測集中在"理解"任務（問答和字幕生成），如何把SMD擴展到動作生成和編輯還是開放問題。

如果你對人體動作理解、大語言模型應用、或者運動科學與AI的交叉領域感興趣，可以通過arXiv:2604.21668查閱完整論文，代碼、數據集和預訓練的LoRA適配器也在項目主頁上公開，隨時可以自行復現實驗。

Q&A

Q1：結構化動作描述（SMD）和傳統的動作編碼器方法有什麼本質區別？

A：傳統動作編碼器方法需要先用神經網路把骨架數據壓縮成特殊符號，再訓練AI學會理解這些符號，整個流程綁定在特定AI模型上，換模型就要重來。SMD完全不同，它用確定性的數學規則直接把關節角度變化轉寫成人類可讀的文字（如"左髖屈曲從3度增加到81度"），任何大語言模型天生就能理解這種文字，無需學習特殊暗語，換模型只需幾小時的輕量微調。

Q2：SMD方法在跨數據集泛化上為什麼比VAE編碼器穩定得多？

A：VAE編碼器在特定數據集（如運動捕捉數據）上預訓練後，學到的是那個數據集特有的統計規律，換到用RGB-D攝影機採集的數據時，數據特性差異讓編碼器輸出失效。SMD完全基於規則，對任意來源的骨架數據都執行同樣的角度計算和文字轉換，不存在"學習偏好"，因此在來源不同的兩個數據集上性能都很穩定——這正是HuMMan-QA上SMD達到90.1%而VAE方法只有22%的根本原因。

Q3：SMD的生成文字太長，推理速度會不會是實際部署的瓶頸？

A：這確實是SMD方法目前最主要的代價。完整26關節配置平均約4000個詞語單元，推理速度約0.9樣本/秒；選最活躍的3個關節可壓縮到約1000個詞語單元，速度更快。對於實時性要求極高的應用，這是需要權衡的問題，但對於離線分析、運動評估、健身報告生成等非實時場景，當前速度是完全可接受的。

贊助商廣告