阿里巴巴高德地圖團隊的AI能"讀懂"時間序列數據了？這套新框架究竟有多厲害

這項由阿里巴巴集團旗下高德地圖（Amap）團隊主導的研究，於2026年4月19日以預印本形式發布在arXiv平台，編號為arXiv:2604.17295v1，研究方向歸屬於電腦人工智慧領域（cs.AI）。有興趣深入了解的讀者可通過該編號在arXiv上查閱完整論文。

贊助商廣告

一、從"看圖說話"到"讀懂數字"，AI理解時間序列有多難？

日常生活中，我們隨處可見時間序列數據：體檢單上心電圖的波形、股票軟體里忽高忽低的折線、工廠設備傳感器每秒採集的運轉數據。這些數據本質上都是"隨著時間變化的數字序列"，背後蘊含著大量有價值的資訊。

然而，讓AI真正"讀懂"這些數據，遠比我們以為的要複雜。近年來，以ChatGPT為代表的大型語言模型（簡稱LLM，可以理解為"超級聰明的文字處理機器"）已經能夠流暢地進行對話、寫作、編程，但當面對時間序列數據時，它們的表現卻讓研究者們大跌眼鏡——即便是頂尖的GPT-4o，有時候也會在"找出這條曲線的最高點在哪裡"這種看起來極其基礎的問題上頻頻出錯。

這究竟是什麼原因呢？高德地圖團隊的研究者們發現，核心問題在於兩個層面的缺失。其一，學術界至今沒有一套統一的、系統性的框架來定義"理解時間序列"究竟包含哪些層次的能力。現有的各路研究就像一群人在不同房間裡各自研究大象的不同部位——有人專門研究"預測未來值"，有人專門研究"識別異常波形"，有人專門研究"生成文字描述"，卻沒有人從整體出發把這些能力梳理清楚、排好順序。其二，現有的測試基準（也就是用來衡量AI能力的"考卷"）質量參差不齊，題目模糊、答案有歧義的問題層出不窮，導致我們根本無法公平地比較不同AI系統的真實能力。

正是基於這兩個根本性的問題，高德地圖團隊提出了一套全新的解決方案，包括一個叫做HITSR的大規模數據集、一套叫做"時間序列推理四級分類體系"的能力框架，以及一個叫做LLaTiSA的AI模型。這套方案的核心理念用一句話來說就是：要讓AI真正讀懂時間序列數據，必須像培養一個醫學生一樣，從最基礎的"看懂數字"開始，一步一步地訓練，不能跳級。

贊助商廣告

二、給AI能力劃分"等級考試"：四級分類體系是怎麼設計的

一個沒有學過任何醫學知識的人，面對一張心電圖會怎麼做？他可能首先能認出"這個波峰的最高值大概是1.2"（這是讀數能力），然後能發現"這條曲線有規律地重複，大概每隔0.8秒出現一個峰值"（這是識別規律的能力），接著或許能聯繫上下文說"這看起來像正常的竇性心律"（這需要專業知識），最後才能做出判斷"這個人接下來心率可能會發生變化"（這需要預測推理能力）。

高德地圖團隊借鑑了認知心理學中著名的"布魯姆分類法"（一種描述人類認知從低階到高階發展的理論）以及資訊可視化領域的"柏廷閱讀層級"理論，將時間序列推理能力劃分為四個由低到高的等級，形成了一套完整的"難度分層體系"。

第一個等級叫做"數值讀取"（L1）。這是最基礎的能力，相當於醫學生首先要學會認識體溫表上的刻度。具體來說，就是要求AI能夠準確找出數據中的最大值、最小值，記錄它們出現在第幾個時間點；能夠比較一段數據從開始到結束的變化；能夠在多條曲線中進行橫向比對；能夠把某個時間段內的數值精確地"讀"出來。這聽起來簡單，但實驗證明，現有的頂級AI在這一關上的表現讓人汗顏。

第二個等級叫做"模式感知"（L2）。在能準確讀數的基礎上，AI需要進一步識別更宏觀的規律。這就像醫學生不僅要認識體溫表上的數字，還要能看出"這個病人的體溫呈現出白天高、夜晚低的周期性變化"。具體包括：識別數據的局部波動特徵（這裡有沒有一個突然的尖峰？趨勢是先漲後跌還是先跌後漲？）；識別整體模式（這條曲線總體是上升趨勢，還是有規律的振盪？）；以及在有細微數值差異干擾的情況下，正確區分不同的模式描述。

第三個等級叫做"語義推理"（L3）。這一關需要AI把數據分析和外部知識結合起來，做出有意義的判斷。同樣用醫學生來類比：光會讀數、光會發現"有規律的波峰"是不夠的，還需要知道"這種規律對應的是正常的竇性心律，而不是房顫"。這要求AI在看到數據時，能夠結合數據來源的背景資訊（這是風力發電廠的功率數據？還是醫院的ECG信號？），對數據的實際意義做出專業判斷。

贊助商廣告

第四個等級叫做"預測推斷"（L4）。這是最高階的能力——在充分理解數據的基礎上，對未來可能發生的情況做出預測。就像有經驗的醫生不僅能看懂心電圖，還能根據目前的波形預判患者接下來的狀態。

這套分級體系解決了一個長期困擾該領域的混亂問題：以前大家說"AI能理解時間序列"，卻沒人說清楚"理解"是指哪個層次的理解。有了這套體系，就相當於給時間序列AI能力考試設計了一套從小學到大學的清晰課程表。

三、HITSR：一份"從不說模糊話"的83000道題考卷

有了這套分級體系，研究團隊著手構建配套的數據集HITSR（發音類似"H-I-T-S-R"，代表"層次化時間序列推理"）。這份數據集總計包含約83000個樣本，覆蓋第一至第三等級的各類推理任務，是目前該領域規模最大、質量最高的訓練與評估資源之一。

數據集的構建來源分為兩大類。對於L1和L2等級的任務，研究團隊採用了電腦程序自動生成的"合成時間序列"——就像數學老師可以無限出"計算題"一樣，程序可以按照指定的規律（例如"生成一條帶有兩個向上尖峰、整體下降趨勢、加入一定噪聲的曲線"）批量生成大量各具特色的數據，同時自動產生對應的正確答案，從根本上避免了人工標註可能引入的主觀誤差。對於L3等級的任務，則收集了來自氣象、電力、金融、醫療等多個真實應用領域的時間序列數據，並結合每條數據的背景資訊（數據來源、採樣頻率、業務含義）精心設計問題。

HITSR最引以為傲的特點是它的"不說廢話"原則。研究團隊在論文中展示了大量現有數據集中存在的質量問題，令人哭笑不得。有一道題展示了一條曲線，四個選項分別是"曲線末端高於起點"、"中間部分基本平穩"、"末端出現急劇上升"、"結尾低於開始"，而正確答案標註為B（中間部分基本平穩）。然而，仔細一看，A、B其實同時成立——這條曲線的末端確實高於起點，中間也確實比較平穩。這樣的題目根本無法客觀評價AI的能力，因為多個選項都可能是正確的。還有更糟糕的情況：有些題目問的是"這個過程是正常的還是異常的"，卻完全沒有提供什麼叫"正常"的定義，讓AI（和人類）都無從下手。

贊助商廣告

為了徹底杜絕這類問題，HITSR的每道題都經過嚴格的"多階段核驗流水線"。L1和大部分L2任務的答案完全由規則程序自動生成，沒有任何主觀判斷的空間，就像數學題的答案只能是一個固定的數字一樣。L2中涉及模式描述的題目，先由GPT-5生成答案選項，再由另一個AI模型（Qwen3-235B）做交叉驗證，篩掉有歧義的題目，最後抽取10%做人工終審。L3的所有3121道題，則百分之百都經過了人工審核。兩名獨立標註者對隨機抽取的500道題進行了重新評估，一致性係數（Cohen's Kappa值）達到0.853，屬於"近乎完美的一致"——這意味著這些題目的對錯判斷對不同的人來說是基本相同的，沒有模糊地帶。

HITSR還有一個在同類數據集中極為罕見的特性：大量樣本附有"思維鏈"（Chain-of-Thought，簡稱CoT）標註。所謂思維鏈，就是AI解題時的推理過程，類似於學生做數學題時的"解題步驟"。普通數據集只告訴AI"這道題的答案是B"，而HITSR還告訴AI"首先檢查選項A，該選項聲稱最小值是-24059，但從數值表中可以讀出實際最低點約為-34000，因此A是錯的；接著看選項B，它描述了0個趨勢轉折點，與圖形中單調下降的走勢相符，因此B是正確的"。這種帶有推理步驟的訓練數據，就是讓AI學會"為什麼這樣做"而不只是"記住答案是什麼"，對於提升AI在陌生場景下的泛化能力至關重要。

四、LLaTiSA：一個同時用"眼睛"和"數字表格"看數據的AI模型

在數據集之外，研究團隊還設計了一套全新的AI模型架構，命名為LLaTiSA（發音類似"拉提薩"，全稱是"Large Language and Time Series Assistant"，即大型語言與時間序列助手）。

這個模型的核心設計思路來自一個生活中常見的場景：當你去圖書館查找一本書時，你既想要一張全館布局示意圖（幫你快速找到大概區域），也需要精確的書架編號和索引（幫你找到那本具體的書）。只有示意圖，你可能找到大致區域卻無法準確定位；只有索引號，你可能在一排排書架間迷失方向。兩者結合，才能高效精準地完成任務。

贊助商廣告

現有的AI處理時間序列數據時，要麼只給它看"折線圖"（視覺直覺好，但數值精度差），要麼只給它看"數字序列文本"（數值精準，但難以感知整體趨勢）。LLaTiSA的創新在於，它同時給模型提供兩張圖片作為輸入。第一張是傳統的時間序列折線圖，讓模型能夠直觀感受整體走勢、局部特徵和視覺規律。第二張則是一張精心設計的"高密度數值表格圖"——把所有的時間索引和對應數值以清晰的表格形式渲染成圖片，讓模型在需要精確核對某個時間點的具體數值時，能夠"視覺定位"到精確的坐標。這種"雙圖輸入"的設計，使得模型既能宏觀把握，也能微觀精準，兼顧了視覺直覺和數字精度這兩種在傳統方案中相互矛盾的需求。

這個設計的靈感來自近年來在AI圖像識別領域興起的一項技術：用視覺Token來壓縮表示文字資訊，比直接把長串數字文本輸入給模型更高效、更不容易出錯。LLaTiSA採用的基礎模型是阿里巴巴旗下Qwen團隊發布的Qwen3-VL-8B-Instruct，這是一個具備圖文理解能力的視覺語言模型，相當於一個既能看圖又能讀文字的"全能選手"作為底座。

五、"先打地基再蓋樓"：三階段課程學習訓練策略

再好的模型架構，如果訓練方式不對，也難以發揮出真正的潛力。高德地圖團隊為LLaTiSA設計了一套與四級分類體系嚴格對應的"三階段課程學習"訓練流程，核心理念就像醫學生的培養路徑——先學解剖、再學病理、再學臨床，不能顛倒順序。

第一階段，用HITSR-L1數據（30000個樣本）進行訓練，專門強化模型的"數值讀取"能力。這個階段只訓練1個輪次，學習率設置為0.00001，確保模型把注意力集中在"準確找到最大值、最小值、區間內數值"等基礎精度任務上，建立起紮實的數字錨定能力。

第二階段，用HITSR-L2數據（45000個樣本）繼續訓練2個輪次，在第一階段精度能力的基礎上，進一步培養模型識別局部和全局時間模式的能力，包括判斷趨勢方向、識別周期性、辨別數值波動特徵等。

贊助商廣告

第三階段，則可以根據應用場景的需要，選擇用HITSR-L3數據（2700個樣本）進行通用語義推理訓練，或者用特定領域的數據（例如ECG心電圖數據）進行專業化微調。這一階段培養的是模型將數據觀察與現實背景知識相結合、做出領域專業判斷的能力。

整個訓練過程使用了8塊英偉達阿里巴巴高德地圖團隊的AI能讀懂時間序列數據了這套新框架究竟有多厲害 H20 GPU，優化器採用AdamW，學習率衰減策略為餘弦退火。這些技術細節對普通讀者來說不必深究，關鍵在於理解背後的設計哲學：按照能力的層次順序遞進式訓練，就像一級一級打好地基再建上面的樓層，而不是把所有材料一股腦兒混在一起隨便蓋。

六、實驗結果：數字背後的真實故事

研究團隊進行了一系列嚴謹的實驗，將LLaTiSA與眾多競爭對手在多個獨立的評測基準上進行了比較。之所以特別強調"獨立的評測基準"，是因為所有用於測試的數據集都與LLaTiSA的訓練數據有本質區別，這能確保測試的是模型真實的泛化能力，而不是死記硬背的能力。

在L1數值讀取任務上，LLaTiSA的表現令人印象深刻，其在"最大最小值定位"任務上的準確率達到86.8%，"半準確率"（即找對了最大值和最小值中的至少一個）達到96%，而同等條件下GPT-4o的完全準確率僅為2.4%，即便是文字模式下的Qwen3-8B也只有36.4%。這背後有一個有趣的現象值得關註：許多基於純文字輸入的模型，在面對L1任務時會陷入"失控的死循環"——它們開始一遍一遍地重複輸出，直到超出最大允許長度也無法給出有效答案。這說明讓語言模型直接處理長串數字序列，本身就是一件極其費力且容易出錯的事，而LLaTiSA的雙圖輸入方案從根本上繞開了這個問題。

在L2模式感知任務的局部模式識別子任務上，LLaTiSA達到75.6%的準確率，顯著優於GPT-4o（純視覺模式下72.2%，雙圖模式下65.4%）和其他所有對比模型。在全局模式識別子任務上，LLaTiSA達到97.5%的準確率，接近滿分，與GPT-4o（96.7%）差距不大，但仍略勝一籌。

贊助商廣告

在L3語義推理任務上，LLaTiSA達到67%的準確率，比排名第二的ChatTS（59%）高出約8個百分點，比GPT-4o（47%至49%）高出約20個百分點。這個差距相當顯著——畢竟GPT-4o是目前公認的頂級商業AI，能在語義推理這種高難度任務上明顯超越它，對於一個專注於特定領域的開源模型來說，是相當了不起的成就。

研究團隊還專門驗證了一個有意思的問題：如果把"三階段課程訓練"改成"把所有數據混在一起一起訓練"（稱為"聯合訓練"），效果會如何？實驗結果明確顯示，聯合訓練在L2任務上的ID（訓練內）準確率比課程訓練低2.06個百分點，在L3任務的OOD（訓練外）測試中低了整整14.93個百分點。聯合訓練的模型在它見過的數據上表現還算過得去，但一旦遇到陌生場景就會明顯崩潰，而課程訓練的模型則穩如磐石。這有力地驗證了"按順序學習"這個直覺上顯而易見、但在AI訓練領域往往被忽視的重要原則。

七、從通用模型到心臟科醫生：ECG心電圖解讀實驗

為了展示LLaTiSA作為"通用基礎模型"的遷移能力，研究團隊還做了一個頗具說服力的應用實驗：在ECG（心電圖）解讀任務上的專業化表現。

心電圖解讀是一個典型的L3級別任務——它要求AI不僅能識別信號的形態特徵（某個波峰的幅度、某個時間段的波形類型），還要結合醫學知識做出準確的臨床診斷（這是正常的竇性心律、房顫還是心肌缺血？），並按照醫生的標準逐導聯（心電圖通常有12個導聯，相當於從12個不同角度觀察心臟電活動）進行系統性分析。

研究團隊在ECG-Grounding數據集（30000個樣本）上對LLaTiSA進行了進一步微調，並與幾個專門為心電圖設計的AI系統（PULSE和GEM）進行了比較。結果顯示，LLaTiSA在"導聯評估覆蓋率"指標上表現突出，在訓練內測試中以84%的覆蓋率大幅超越了同等條件下的Qwen3-VL-8B基礎模型（69.28%），並比專門為心電圖設計的GEM-LLaVA模型高出18.14個百分點。這意味著LLaTiSA更系統、更全面地對每一個導聯都進行了分析，而不是只關注最明顯的幾個特徵。

贊助商廣告

更關鍵的是，LLaTiSA完成這個任務只用了30000個訓練樣本，而同類專業系統GEM使用了118.6萬個樣本——後者是前者的約40倍。這種高效的數據利用能力，意味著有了LLaTiSA這個打好了基礎的"通才選手"，再進行專業領域的調教，所需要的專業數據量會大幅減少，這在醫療AI領域具有極其重要的實用價值，因為醫療標註數據往往昂貴且稀缺。

在訓練外（OOD）測試中，LLaTiSA的導聯評估準確率達到49.2%，比同等基礎模型高出11.08個百分點，證明了其專業化知識不是過擬合，而是真實的泛化能力。不過，在整體診斷準確率上，LLaTiSA（62.2%）仍然低於使用了大量專業數據訓練的GEM系列模型（約73%-74%），說明在數據量上的差距在部分指標上還是會體現出來，但兩者之間的差距已經大幅縮小。

八、L4預測任務：這套框架能否"預見未來"？

研究團隊在論文附錄中還專門擴展了對L4（預測推斷）任務的探索。這個任務的設置頗具創意：給AI看一段時間序列，然後提供四個"候選接續片段"，讓AI選出哪一段才是這條曲線在接下來時間段內真實的走向，其他三個都是從完全不同的時間序列中採樣的"干擾選項"。

為了保證這道題沒有歧義（即確保只有一個正確答案，而不是多個候選都看起來合理），研究團隊設計了一套嚴格的篩選規則：剔除與正確答案皮爾遜相關係數大於0.8的干擾選項、不在曲線的高度波動時刻（如尖峰或急轉彎處）切割、以及確保各干擾選項之間彼此足夠不同。

實驗結果同樣說明了課程學習的價值：只用L1-L3數據訓練的LLaTiSA在L4任務上的準確率為54.2%，加入L4專項訓練後提升至83.3%，而對比同類文字輸入模型中表現最好的Claude-3.5-Sonnet只有82.2%、GPT-4.1也只有79.1%。這個結果表明，經過層層遞進訓練的LLaTiSA，即便在它沒有專門練習過的高階任務上，其底層能力也比很多專門為此設計的系統更加紮實。

贊助商廣告

消融實驗進一步證明，如果跳過L1-L3的基礎訓練直接做L4訓練，準確率只有約43%；如果把所有四個等級的數據一起訓練，也只有75.4%；只有嚴格按照L1→L2→L3→L4的順序逐級推進，才能達到83.3%的最優結果。這個實驗數據，以量化的方式再次印證了"不能跳級"這個核心理念。

說到底，這項研究做的事情，就是給AI的時間序列理解能力建立了一套"從識字到寫作文"的完整教育體系。過去的AI學習時間序列，就像一個從來沒有系統學過數學的人被要求直接解微積分——也許靠死記硬背能蒙對一些題目，但一換題型就束手無策。高德地圖團隊的貢獻，在於不僅說清楚了"應該教什麼、按什麼順序教"，還實際造出了一套高質量的"教材"（HITSR數據集），並且訓練出了一個在這套體系下表現優秀的"學生"（LLaTiSA模型）。

這對普通人的生活意味著什麼？隨著智能醫療、智能製造、智能交通等領域對AI的需求不斷增長，能夠真正"讀懂"時間序列數據的AI將會變得越來越重要。心電圖AI解讀、異常設備預警、交通流量預測……這些應用都依賴於對時間序列數據的深層理解。有了更系統、更可靠的理解能力，這些AI系統將會在真實應用中減少誤判，給出更可信的分析結果。

當然，研究者們也坦誠地指出了當前工作的局限：整個項目目前只使用了"監督學習"（也就是告訴模型正確答案讓它模仿），而沒有使用近年來大熱的"強化學習"（讓模型通過試錯來自我提升）。如何設計一套能夠同時獎勵"讀對數字"和"推斷正確語義"的獎勵機制，還是一個待解的難題，留給未來的研究去探索。對這個方向感興趣的讀者，可以通過arXiv上的編號2604.17295深入閱讀原始論文，其中的附錄部分還包含大量詳細的案例分析和實驗細節，值得一讀。

---

Q&A

Q1：HITSR數據集和普通的時間序列數據集有什麼區別？

A：HITSR數據集最大的特點是質量極高且帶有推理過程標註。普通數據集通常只提供"問題+答案"，而HITSR還提供了詳細的解題思維鏈，相當於同時給了學生答案和解題步驟。此外，HITSR的每道題都經過嚴格的多階段核驗，避免了答案模糊、選項有多個正確答案等常見質量問題，總規模約83000個樣本，覆蓋從基礎數值讀取到複雜語義推理的三個難度等級。

贊助商廣告

Q2：時間序列推理的四級分類體系中，各等級之間的核心差異是什麼？

A：四個等級代表從低到高的認知複雜度。L1（數值讀取）只需準確找出某個時間點的具體數值；L2（模式感知）需要識別數據的整體規律和局部特徵；L3（語義推理）則需要把數據特徵與現實背景知識結合起來做出有意義的判斷；L4（預測推斷）是在完全理解歷史數據的基礎上，對未來走向做出預測。實驗發現，即使是頂級的GPT-4o，在L1任務上的表現也遠不理想，說明基礎能力的建設是整個體系的核心瓶頸。

Q3：LLaTiSA採用雙圖輸入的設計能解決什麼具體問題？

A：LLaTiSA同時給模型輸入折線圖和數值表格圖，解決了單一輸入模式的兩大缺陷。純折線圖輸入讓模型能感受整體趨勢，但在需要精確數值時容易產生"幻覺"（比如把最高點判斷成錯誤的時間位置）；純數值文字輸入雖然精確，但處理長序列時容易陷入無限循環無法輸出結果。雙圖設計讓模型既有視覺直覺又有精確數字參照，在L1數值定位任務上準確率從GPT-4o的2.4%大幅提升到86.8%。