艾倫人工智慧研究所打造的全能機器人大腦：讓機器人真正讀懂世界、動起來

這項由艾倫人工智慧研究所（Allen Institute for AI）與華盛頓大學聯合主導，並聯合新加坡國立大學、賓夕法尼亞大學、約翰斯·霍普金斯大學、密西根大學、北卡羅來納大學教堂山分校等多所機構共同完成的研究，於2026年5月4日以預印本形式發布，編號為arXiv:2605.02881。這項研究的名字叫做MolmoAct2，是一套專門為機器人設計的"視覺-語言-動作"智能系統，目標是讓機器人真正能在現實世界中做事，而不僅僅是在實驗室里表演。

贊助商廣告

**一、機器人為什麼還沒能走進你的廚房**

你可能早就聽說過"家用機器人"的概念，按照科幻電影裡的描繪，它們應該早就在幫你洗碗、疊衣服、端茶倒水了。但現實世界裡，絕大多數機器人還是被關在工廠流水線上，或者只能在精心布置的實驗台上完成固定動作。根本原因在於，讓機器人在真實生活場景中靈活行動，是一件極其困難的事情。

現有的機器人智能系統在走向現實應用時，幾乎無一例外地卡在了幾道"大關"上。第一道關是"閉門造車"：目前最強的機器人AI系統，訓練數據、訓練方法、模型權重全部保密，其他研究者既無法驗證，也無法在此基礎上繼續開發，更無法把它移植到自己的機器人上。第二道關是"穿越時空的代價"：一些更聰明的系統會讓機器人在行動之前先做大量的"推理"——預測未來圖像、生成世界模型——這些推理過程消耗的時間太長，機器人還沒動手，窗口期就過去了，根本無法實時控制。第三道關是"有錢人的玩具"：少數開放了權重的系統，也只能運行在價格高昂、普通實驗室根本買不起的專用硬體上，把絕大多數研究者擋在門外。第四道關是"及格線太低"：即便經過專門訓練，在真實任務上的成功率依然不夠高，距離"可以放心用"的程度相去甚遠。

MolmoAct2這套系統，正是為了同時突破這四道關而生的。研究團隊的目標，不是做一個"論文裡好看的系統"，而是一個真正可以拿出去用的東西。

贊助商廣告

**二、把大腦先練聰明：Molmo2-ER的誕生**

在解釋MolmoAct2之前，先要講清楚它的"大腦基礎"——Molmo2-ER。

你可以把這個系統想像成一個經過特殊訓練的觀察員。普通的AI視覺語言模型，就像一個博覽群書、見識廣博的人，能回答各種圖文問題，但對空間感知能力並不擅長——比如，讓他估計桌上兩個杯子相距多少厘米，他可能給出一個很離譜的答案；讓他判斷從某個角度看過去，某樣東西在左邊還是右邊，他可能也會混亂。然而機器人要工作，恰恰最需要的就是這種精確的空間感知：這個物體在哪裡、有多遠、從另一個攝影機看是什麼樣、手伸過去之後會發生什麼。

為了給MolmoAct2裝上這樣一個"空間感知大腦"，研究團隊基於已有的Molmo2模型，構建了一個全新的訓練語料庫，總計約330萬條樣本，涵蓋六大核心能力方向。

第一個方向是"單張圖片的具身問答"。團隊融合了多個不同來源的數據集，有來自模擬器的動態推理樣本（比如，從某個視角移動後，面前的物體會在哪裡），有通用視覺問答數據防止模型"忘記"基礎感知能力，還有專門用於空間指代推理的數據——當模型說"把那個紅色杯子放在藍色盒子左邊"時，它既要理解語言，又要把語言中的位置關係對應到圖像的具體像素坐標上。此外還有一套專門做視角歸一化處理的數據，讓模型能夠從同一虛擬攝影機視角穩定地給出距離、方向、大小等物理量，以及通過3D標註傳播得到的真實機器人操作和旅遊影片數據。

第二個方向是"影片中的空間理解"。機器人工作時是連續運動的，一段影片而非一張圖片才是真實的資訊來源。團隊使用了模擬器生成的、帶有精確標註的問答數據（距離、方向、計數、時序等），以及大量人工標註的長程機器人操作影片，讓模型學會從時間維度上理解場景變化。

第三個方向是"精準定位"。機器人抓取物體時，"知道物體在哪裡"必須精確到像素級別。為此，研究團隊專門使用了大量指向性訓練數據，讓模型能夠輸出具體的圖像坐標，而不僅僅是說"在左邊"。

贊助商廣告

第四個方向是"多視角對應"。一台機器人身上可能裝有多個攝影機，有時是從第一人稱視角看（機器人自己的視角），有時是從第三人稱外部攝影機看。將這兩種視角的資訊融合起來，才能準確判斷空間關係。研究團隊專門引入了強調多圖像、第一人稱與第三人稱視角對應的數據集。

第五個方向是"抽象空間推理"。這類數據專門用來測試模型是否真正理解"相對方向"的概念——比如，某人站在某處向左轉90度後，另一件物品會在他的左邊還是右邊？這類判斷涉及參考系的切換，是自然語言數據中極少被明確標註的能力。

訓練方法上，團隊採取了一種叫做"專項化-再複習"的兩階段策略。第一階段，從Molmo2的中期訓練檢查點出發，在這套新的具身推理語料庫上訓練20000步，同時混入8%的普通文字數據防止遺忘語言能力，讓模型快速適應空間推理任務。第二階段，再訓練1500步，把新的具身推理數據和Molmo2原有的通用多模態數據按照1:1的比例混合，在具身能力和通用能力之間找到最佳平衡點（研究團隊測試了多種比例，最終發現各占一半時效果最好）。

經過這番訓練後的Molmo2-ER，在13項業內公認的具身推理基準測試中，以63.8%的總平均分排在所有模型的最前列，比它的基礎版本Molmo2提高了17個百分點，比谷歌的Gemini Robotics ER-1.5 Thinking高出2.5個百分點，甚至超過了OpenAI的GPT-5。

**三、機器人的"行動記憶庫"：三套全新數據集**

有了聰明的大腦，還需要大量的"練習素材"。機器人學習動作，靠的是反覆觀看和模仿人類示範操作的錄像——就像學廚師要反覆看師傅操作一樣。MolmoAct2發布了三套全新的開源機器人操作數據集，覆蓋從低成本到中等成本的不同機器人平台。

第一套是MolmoAct2-BimanualYAM數據集，主角是一套叫做"YAM"（Yet Another Manipulator，"又一款機械臂"）的雙臂機器人。這套系統的硬體全部由市面上可以買到的現成零件組成，總成本不超過6000美元——對於一套能做各種家務的雙臂機器人來說，這個價格極其親民。整套數據集包含超過34500條機器人示範操作錄像，總時長超過720小時，涵蓋28種以上的真實任務，包括疊衣服、解開纏繞的電纜、整理餐桌、掃描超市商品、打包藥品等等，每種任務都在不同的場景布置、不同的物品實例、不同的擺放位置下多次錄製。這是迄今為止全球最大的開源雙臂機器人操作數據集，數據收集歷時兩個月，由Cortex AI公司的專業團隊支持完成，過程中有嚴格的質量控制流程。

贊助商廣告

第二套是MolmoAct2-SO100/101數據集。SO-100和SO-101是Hugging Face公司推出的低成本機器人平台，在全球開源社區中擁有大量用戶。研究團隊從1222個公開的社區數據集（來自377位不同用戶）中，經過嚴格的四步篩選流程整理出這套數據。四步篩選包括：檢查數據格式完整性、剔除評估類數據集、核查許可證和代碼合規性，以及用一套叫做"TOPReward"的質量評分系統進行最終篩選，只保留質量達標的數據。最終數據集包含38059條操作錄像、1980萬幀圖像，總時長約184小時，覆蓋了多種相機配置、多種操作任務、多種現實環境。

第三套是MolmoAct2-DROID數據集。DROID原本是一套大規模的真實世界機器人操作數據集，使用統一的Franka機器人在各種現實場景中收集。研究團隊利用官方發布的補充標註（每段影片配有三條不同說法的自然語言描述，同時過濾掉機器人空閒不動的片段），從原始數據中篩選出74604條有效錄像，共計約1776萬幀，每條錄像均經過人工重新語言標註以提升語言描述質量。

這三套數據集有一個共同的"質量提升手段"：語言重新標註。很多機器人數據集裡的任務描述要麼極度重複（一個數據集裡幾萬條錄像只有104種不同描述），要麼根本無意義（比如"lerobot_test""Test run"之類）。研究團隊使用Qwen3.5-27B這個開源大語言模型，對著每段錄像的畫面幀和原始描述重新生成任務說明，還隨機要求生成不同長度的描述，以增加多樣性。經過這道處理後，整個數據集中獨特的語言描述比例從22%翻倍到了46%。

**四、讓機器人把動作變成"詞彙"：OpenFAST分詞器**

講到這裡，有一個有趣的工程問題需要解釋。機器人的動作本質上是一串連續的數字——每一幀，機械臂的每個關節轉了多少度、速度是多少，所有這些數字流在一秒鐘內可能有幾十組。但AI大語言模型的"母語"是離散的詞元（token），就像文字是由一個個漢字或字母組成的。如何讓機器人的連續動作和語言模型的離散詞彙"說上話"，是一個關鍵技術難題。

贊助商廣告

研究團隊為此訓練了一個叫做"OpenFAST分詞器"的工具，可以把一秒鐘的連續動作軌跡壓縮成一小段由2048種"動作詞彙"組成的離散序列。具體做法是：先對動作數據做頻域變換（類似於把一段音樂從時域波形變成頻譜），然後量化頻域係數，最後用字節對編碼（BPE，就是大語言模型處理文字時常用的技術）進一步壓縮成緊湊的離散標記。

這個分詞器的訓練數據來自五種不同的機器人平台，共計一百萬條動作序列，覆蓋雙臂YAM、SO-100/101、DROID Franka、Google機器人和WidowX機械臂，包含絕對關節控制和相對末端執行器控制兩種控制方式。所有動作在輸入分詞器之前都被歸一化到統一的32維空間，不夠32維的用零填充，連續維度用1%~99%的百分位數做歸一化處理，二元開關類的夾爪命令單獨處理。

這個分詞器的特別之處在於完全開源——不僅模型權重公開，訓練數據和訓練方法也全部公開，研究者可以完整復現和改進它，而不像此前同類工具那樣只公開權重卻不說明訓練分布。

**五、大腦和手臂如何協作：MolmoAct2的三階段成長之路**

現在，聰明的大腦（Molmo2-ER）有了，動作詞彙表（OpenFAST分詞器）也有了，海量的練習素材（三套數據集）也準備好了。下面要講的是MolmoAct2這個完整系統是怎樣"長大"的。

整個訓練分三個階段，就像一個廚師的成長曆程：先學看菜譜（預訓練），再練習做菜動作（後訓練），最後專門到某個特定廚房去實習上崗（部署微調）。

預訓練階段，也就是"學看菜譜"，目標是讓視覺語言模型學會用離散詞彙預測機器人動作，同時保留它原有的視覺理解和語言能力。訓練數據中，90%是機器人操作錄像，10%是普通的多模態數據（圖文問答、影片等）。機器人錄像部分，YAM、SO-100/101和DROID各占30%，剩餘10%分給幾個規模較小的補充數據集。這個階段在64塊H100 GPU上訓練了20萬步，消耗約5760個GPU小時。

贊助商廣告

後訓練階段，也就是"學做菜動作"，是整個系統最有創意的部分，也是MolmoAct2在架構上最重要的創新所在。

在這個階段，研究團隊給大語言模型配上了一個專門負責連續動作生成的"動作專家"模組。這個模組採用流匹配（flow matching）技術——你可以把它想像成一個從"一團亂碼"出發，逐步把亂碼整理成精確動作指令的過程。給定目標動作序列和高斯噪聲，在任意插值時刻，模型要學會預測"當前狀態距離正確動作還差多少、應該往哪個方向調整"，訓練結束後，推理時只需從純隨機噪聲出發，沿著這個方向積分，就能得到精確的連續動作軌跡。

這個動作專家模組和主幹大語言模型之間的連接方式，是MolmoAct2在架構設計上的關鍵突破。動作專家和大語言模型的層數相同，都是36層。在每一層，大語言模型的"注意力鍵值緩存"（key-value cache，你可以理解為模型在每一層對輸入資訊的"提煉版本"）經過一個可學習的投影層之後，直接作為動作專家對應層的交叉注意力輸入——也就是說，動作專家的每一層都能直接"讀取"大語言模型同一深度層次的視覺語言理解資訊。這種"逐層鍵值連接"讓動作專家能夠從大語言模型的層次化視覺語義特徵中持續獲益，而不像以往系統那樣只能讀取大語言模型最後一層的輸出。

訓練時，同樣的動作數據會同時產生兩路監督信號：一路是離散動作詞元的預測損失（讓大語言模型繼續保持用詞彙表示動作的能力），另一路是連續流匹配損失（讓動作專家學會生成精確的連續軌跡）。為了防止動作專家"作弊"——即在生成連續動作時偷看已知的離散動作詞元答案，研究團隊在訓練時把離散動作詞元這段內容從動作專家的輸入中遮蔽掉。此外，流匹配損失的梯度不會反向傳播到大語言模型主幹（這是一種叫做"知識隔離"的技術），以保護主幹模型在預訓練中學到的視覺語言能力不被破壞，但大語言模型本身仍由離散動作詞元的預測損失繼續更新。每條機器人示範會同時採樣4個不同的噪聲時刻來計算流匹配損失，相當於用同一個"情境"產生4倍的訓練信號，充分利用已有數據。後訓練階段在64塊H100上訓練了10萬步，消耗約2300個GPU小時。

贊助商廣告

部署微調階段是"到特定廚房實習上崗"。從後訓練完成的檢查點出發，針對具體的機器人平台和任務做專項微調。這個階段的幾個關鍵調整包括：只用機器人數據、不混入多模態數據；把每個動作塊的流匹配採樣數從4個增加到8個以獲得更密集的監督；不再使用知識隔離，允許流匹配損失更新整個主幹；使用8塊H100 GPU、5萬步訓練完成單個任務或平台的適配，選取驗證集上表現最好的檢查點用於評測。

**六、讓機器人"看懂深度"再行動：MolmoAct2-Think的奧秘**

MolmoAct2-Think是這套系統的"思考增強版"，核心思路是在生成動作之前，先讓模型明確地"感知"一下當前場景的深度結構。

為什麼要感知深度？機器人抓取東西時，純粹靠RGB圖像判斷位置其實很不可靠——同樣大小的物體，距離近的顯得大，距離遠的顯得小，僅憑顏色紋理很難給出精確的空間判斷。如果模型能事先預測出場景的三維深度資訊，再以此為基礎生成動作，決策質量就會明顯提升。

MolmoAct2-Think的做法是把每幀圖像的深度資訊量化成一個10×10的網格，每個格子的深度值被編碼成0到127之間的一個整數。這100個深度碼作為普通的自回歸詞元，插入在視覺語言輸入和動作輸出之間，讓模型先"輸出"一個深度描述，再基於這個深度描述生成動作。這100個深度詞元的鍵值緩存同樣通過逐層鍵值連接傳遞給動作專家，使得連續動作生成能夠直接利用模型對深度結構的顯式理解。

但這樣做的一個問題是：生成100個深度詞元需要時間，會拉高每一步的推理延遲。解決方案是"自適應深度預測"——利用機器人操作軌跡中的時間冗餘性。在一段連續的機器人工作影片中，場景的大部分區域往往連續多幀都沒有明顯變化，只有被機器人手部操作涉及的局部區域才會發生變化。MolmoAct2-Think會對每一幀圖像進行10×10的網格劃分，把每個格子的當前RGB內容和上一幀做餘弦相似度比較，只有相似度低於0.996的格子才被標記為"需要更新"。對於標記為需要更新的格子，模型重新預測深度碼；對於不需要更新的格子，直接從緩存中取上一幀的深度碼。這樣一來，每步推理中真正需要新生成的深度詞元數量大幅減少，整體延遲與場景變化量成正比，而不是每次都要生成全部100個詞元。

贊助商廣告

為了讓模型在推理時能夠應對自己預測深度碼時可能犯的錯誤，訓練中加入了一個小技巧：有10%的概率隨機把輸入的深度詞元替換成隨機採樣的深度碼，但預測目標保持不變，這樣訓練出來的模型對深度輸入的小誤差具備一定的魯棒性。此外，動作專家中專門為深度詞元對應的鍵值加上了一個可學習的"權重門控"，初始化為接近於零的值，讓訓練一開始時深度資訊對動作生成的影響很小，隨著訓練推進再逐漸學習到合適的影響程度。

**七、考試成績單：MolmoAct2在七大測試中的表現**

研究團隊對MolmoAct2進行了迄今為止最大規模的開源視覺語言動作模型評測，橫跨7個環境下的仿真和真實世界基準測試。

在具身推理能力方面，Molmo2-ER在13個業界標準基準上以63.8%的總平均分位居第一，在其中9個具體基準上單獨領先所有模型，比第二名Gemini Robotics ER-1.5 Thinking高出2.5個百分點，同時超越GPT-5。相比基礎版本Molmo2，提升幅度高達17個百分點。

在開箱即用的零樣本部署方面，研究團隊把MolmoAct2-DROID（基於DROID數據集訓練的版本）放在兩個仿真基準MolmoSpaces和MolmoBot上測試，完全不進行任何額外適配。在MolmoSpaces的取放任務中，MolmoAct2平均成功率37.7%，明顯領先第二名π0.5的34.5%，以及π0的23.2%。在更難的MolmoBot基準上，MolmoAct2平均成功率87.1%，比第二名π0.5提高10.6個百分點。在真實世界的DROID機器人上（攝影機位置隨機、物體全為訓練集中未見過的新物體、場景也是新環境），MolmoAct2達到87.1%的成功率，比第二名高出38.7個百分點。在更低成本的SO-100/101機器人上，MolmoAct2-SO100/101達到56.7%的平均成功率，比經過同樣數據微調的π0高出11.4個百分點。

在經過少量數據快速微調後的任務適應方面，在LIBERO仿真基準（包含空間任務、物體任務、目標任務和長程任務四個子集）上，MolmoAct2綜合成功率97.2%，創下所有比較方法的最高紀錄，在物體子集上達到100%滿分，比前作MolmoAct提高10.6個百分點。在RoboEval仿真基準上，MolmoAct2成功率44.3%，比第二名π0.5高3.8個百分點，而且在軌跡效率（完成時間、路徑長度）和穩定性（抖動次數、碰撞次數）等更細緻的質量指標上也全面優於對比方法。在真實世界的YAM雙臂任務（8項涵蓋家庭、廚房、實驗室、移動操作等場景的任務，每項50次試驗）上，MolmoAct2平均成功率50.1%，比第二名OpenVLA-OFT高出15個百分點，在8項任務中有7項領先所有對比方法。

贊助商廣告

MolmoAct2-Think在LIBERO上進一步達到98.1%，比標準版MolmoAct2高出0.9個百分點，最顯著的提升出現在最難的長程任務子集上（從93.2%提升到95.4%），這也是最有提升空間的部分。

**八、推理速度：如何在"思考"和"反應快"之間取得平衡**

機器人控制對實時性有很高要求。理論上成功率再高，如果每一步動作要等幾秒鐘才能計算出來，機器人根本沒法正常工作。研究團隊專門測量了推理速度，並開發了兩項優化技術。

第一項是緩存復用優化：在同一個動作塊內，視覺語言主幹產生的鍵值緩存不變，只有流匹配循環中的噪聲狀態和時間步在變，因此可以緩存與上下文相關的交叉注意力中間量，在整個流匹配積分過程中復用，避免重複計算。

第二項是CUDA Graph捕獲：把固定形狀的流匹配循環計算圖一次性編譯成GPU計算圖，後續每次推理直接重放，消除Python調度和GPU核函數啟動的額外開銷。

經過這兩項優化，在單塊H100 GPU、動作塊長度為10步的條件下，標準版MolmoAct2的控制頻率從原始的23.02 Hz提升到55.79 Hz，加速比約2.4倍，完全滿足實時控制需求。MolmoAct2-Think由於包含自適應深度預測的自回歸解碼過程（序列依賴性強，不那麼適合圖捕獲），從原始的8.04 Hz提升到12.71 Hz，加速比約1.6倍。

**九、系統性的"拆零件"實驗：哪些設計真正有效**

研究團隊還做了一系列系統性的消融實驗，把MolmoAct2的各個組件一個一個"摘下來"，看看摘掉之後性能會怎麼變。

關於具身推理骨幹：在只用離散動作詞元預測、不加入連續動作專家的情況下，單獨比較Molmo2和Molmo2-ER在LIBERO長程任務上的表現，Molmo2得到77.6%，Molmo2-ER得到83.6%，提升6個百分點。這說明專項空間推理訓練對動作預測本身也有直接幫助，不只是在推理基準上有用。

關於鍵值連接方式：研究團隊比較了三種讓動作專家從大語言模型獲取資訊的方式——使用隱層狀態（最後一層的輸出向量）、逐層鍵值連接（每層拉平後投影）、以及逐頭逐層鍵值連接（保持注意力頭結構分別投影）。在LIBERO四個子集上，標準的逐層鍵值連接平均成功率95.9%，逐頭版本94.8%，隱層狀態方式94.0%。逐層鍵值連接勝出。

贊助商廣告

關於每次採樣的流時刻數量：研究團隊測試了K=1、2、4、8四個取值，發現K越大整體效果越好，K=8時平均成功率95.9%，K=1時只有94.15%。

關於微調時的設計選擇：去掉離散動作協同訓練、去掉LIBERO數據混合中的全模型微調（改用LoRA或只訓練動作專家），都會導致性能下降，尤其是只訓練動作專家時平均成功率降至93.05%，是所有方案中最差的。

關於MolmoAct2-Think的深度微調設計：同時使用深度詞元噪聲注入和可學習深度門控的完整方案達到98.10%，去掉這兩項後降至97.65%，進一步去掉混合訓練（只用深度加動作樣本）後降至97.50%。說明深度推理路徑在經過適當正則化後，以及在保留一條獨立的無深度動作路徑時，才能發揮出最大作用。

**歸根結底，MolmoAct2意味著什麼**

說到底，MolmoAct2是一套野心很大、落地很踏實的系統。它不滿足於僅在論文裡刷高數字，而是真正把開源落實到每一個環節：模型權重開放、訓練代碼開放、訓練數據開放，連訓練分詞器用的數據都一併公開。

對於研究者而言，這意味著機器人AI研究的門檻大幅降低。以前只有少數頂級機構才能復現最先進的機器人控制模型，現在任何人都可以從MolmoAct2出發做研究。對於工程師和從業者而言，這套系統在低成本機器人平台（SO-100/101、YAM）上的出色表現，意味著把先進機器人AI部署到實際產品中的門檻也大幅降低。

當然，50%左右的真實世界任務成功率距離"完全可以放心用"仍有差距。場景更複雜、指令更模糊、物體更奇特的時候，這個成功率還會進一步下滑。但MolmoAct2建立的整套開放基礎設施——數據、模型、代碼——讓社區可以在此基礎上持續疊代，這才是這項工作最深遠的意義。有興趣深入了解的讀者，可以通過arXiv編號2605.02881查閱完整論文，或訪問allenai.org/blog/molmoact2了解更多細節，代碼和模型權重可在allenai/molmoact2倉庫獲取。

贊助商廣告

---

Q&A

Q1：MolmoAct2和普通機器人控制系統有什麼本質區別？

A：普通機器人控制系統通常是為特定任務寫死的程序，換了場景就不能用。MolmoAct2是基於大型視覺語言模型構建的，本質上讓機器人"讀懂"圖像和語言指令，然後生成對應的動作。它在大量真實機器人操作數據上訓練，能適應不同場景、不同任務，而且全部開源，其他人可以在此基礎上繼續改進，這是和傳統機器人控制系統最大的本質差異。

Q2：Molmo2-ER在具身推理上比GPT-5表現更好的原因是什麼？

A：Molmo2-ER是在Molmo2基礎上，專門針對空間感知和具身推理任務進行了強化訓練，加入了約330萬條涵蓋精準定位、深度估計、多視角對應、時序推理等方向的專項數據，而GPT-5是通用模型，在這些空間推理任務上沒有經過專項強化。專項訓練帶來的針對性提升，讓Molmo2-ER在這一垂直領域超過了參數量更大、通用能力更強的GPT-5。

Q3：MolmoAct2-Think的自適應深度推理在推理速度上有多大代價？

A：相比不帶深度推理的標準版MolmoAct2（優化後55.79 Hz），MolmoAct2-Think即便經過緩存和CUDA Graph優化也只能達到12.71 Hz，相差約4倍。不過12.71 Hz對許多機器人控制任務而言已經夠用，而且自適應機制使得靜止場景區域的深度詞元可以直接復用，避免每步都生成100個深度詞元，已經比非自適應方式快了約1.6倍。