這項由阿里巴巴集團旗下高德地圖(Amap)團隊主導的研究,於2026年4月19日以預印本形式發布在arXiv平台,編號為arXiv:2604.17295v1,研究方向歸屬於電腦人工智慧領域(cs.AI)。有興趣深入了解的讀者可通過該編號在arXiv上查閱完整論文。
一、從"看圖說話"到"讀懂數字",AI理解時間序列有多難?
日常生活中,我們隨處可見時間序列數據:體檢單上心電圖的波形、股票軟體里忽高忽低的折線、工廠設備傳感器每秒採集的運轉數據。這些數據本質上都是"隨著時間變化的數字序列",背後蘊含著大量有價值的資訊。
然而,讓AI真正"讀懂"這些數據,遠比我們以為的要複雜。近年來,以ChatGPT為代表的大型語言模型(簡稱LLM,可以理解為"超級聰明的文字處理機器")已經能夠流暢地進行對話、寫作、編程,但當面對時間序列數據時,它們的表現卻讓研究者們大跌眼鏡——即便是頂尖的GPT-4o,有時候也會在"找出這條曲線的最高點在哪裡"這種看起來極其基礎的問題上頻頻出錯。
這究竟是什麼原因呢?高德地圖團隊的研究者們發現,核心問題在於兩個層面的缺失。其一,學術界至今沒有一套統一的、系統性的框架來定義"理解時間序列"究竟包含哪些層次的能力。現有的各路研究就像一群人在不同房間裡各自研究大象的不同部位——有人專門研究"預測未來值",有人專門研究"識別異常波形",有人專門研究"生成文字描述",卻沒有人從整體出發把這些能力梳理清楚、排好順序。其二,現有的測試基準(也就是用來衡量AI能力的"考卷")質量參差不齊,題目模糊、答案有歧義的問題層出不窮,導致我們根本無法公平地比較不同AI系統的真實能力。
正是基於這兩個根本性的問題,高德地圖團隊提出了一套全新的解決方案,包括一個叫做HITSR的大規模數據集、一套叫做"時間序列推理四級分類體系"的能力框架,以及一個叫做LLaTiSA的AI模型。這套方案的核心理念用一句話來說就是:要讓AI真正讀懂時間序列數據,必須像培養一個醫學生一樣,從最基礎的"看懂數字"開始,一步一步地訓練,不能跳級。
二、給AI能力劃分"等級考試":四級分類體系是怎麼設計的
一個沒有學過任何醫學知識的人,面對一張心電圖會怎麼做?他可能首先能認出"這個波峰的最高值大概是1.2"(這是讀數能力),然後能發現"這條曲線有規律地重複,大概每隔0.8秒出現一個峰值"(這是識別規律的能力),接著或許能聯繫上下文說"這看起來像正常的竇性心律"(這需要專業知識),最後才能做出判斷"這個人接下來心率可能會發生變化"(這需要預測推理能力)。
高德地圖團隊借鑑了認知心理學中著名的"布魯姆分類法"(一種描述人類認知從低階到高階發展的理論)以及資訊可視化領域的"柏廷閱讀層級"理論,將時間序列推理能力劃分為四個由低到高的等級,形成了一套完整的"難度分層體系"。
第一個等級叫做"數值讀取"(L1)。這是最基礎的能力,相當於醫學生首先要學會認識體溫表上的刻度。具體來說,就是要求AI能夠準確找出數據中的最大值、最小值,記錄它們出現在第幾個時間點;能夠比較一段數據從開始到結束的變化;能夠在多條曲線中進行橫向比對;能夠把某個時間段內的數值精確地"讀"出來。這聽起來簡單,但實驗證明,現有的頂級AI在這一關上的表現讓人汗顏。
第二個等級叫做"模式感知"(L2)。在能準確讀數的基礎上,AI需要進一步識別更宏觀的規律。這就像醫學生不僅要認識體溫表上的數字,還要能看出"這個病人的體溫呈現出白天高、夜晚低的周期性變化"。具體包括:識別數據的局部波動特徵(這裡有沒有一個突然的尖峰?趨勢是先漲後跌還是先跌後漲?);識別整體模式(這條曲線總體是上升趨勢,還是有規律的振盪?);以及在有細微數值差異干擾的情況下,正確區分不同的模式描述。
第三個等級叫做"語義推理"(L3)。這一關需要AI把數據分析和外部知識結合起來,做出有意義的判斷。同樣用醫學生來類比:光會讀數、光會發現"有規律的波峰"是不夠的,還需要知道"這種規律對應的是正常的竇性心律,而不是房顫"。這要求AI在看到數據時,能夠結合數據來源的背景資訊(這是風力發電廠的功率數據?還是醫院的ECG信號?),對數據的實際意義做出專業判斷。
第四個等級叫做"預測推斷"(L4)。這是最高階的能力——在充分理解數據的基礎上,對未來可能發生的情況做出預測。就像有經驗的醫生不僅能看懂心電圖,還能根據目前的波形預判患者接下來的狀態。
這套分級體系解決了一個長期困擾該領域的混亂問題:以前大家說"AI能理解時間序列",卻沒人說清楚"理解"是指哪個層次的理解。有了這套體系,就相當於給時間序列AI能力考試設計了一套從小學到大學的清晰課程表。
三、HITSR:一份"從不說模糊話"的83000道題考卷
有了這套分級體系,研究團隊著手構建配套的數據集HITSR(發音類似"H-I-T-S-R",代表"層次化時間序列推理")。這份數據集總計包含約83000個樣本,覆蓋第一至第三等級的各類推理任務,是目前該領域規模最大、質量最高的訓練與評估資源之一。
數據集的構建來源分為兩大類。對於L1和L2等級的任務,研究團隊採用了電腦程序自動生成的"合成時間序列"——就像數學老師可以無限出"計算題"一樣,程序可以按照指定的規律(例如"生成一條帶有兩個向上尖峰、整體下降趨勢、加入一定噪聲的曲線")批量生成大量各具特色的數據,同時自動產生對應的正確答案,從根本上避免了人工標註可能引入的主觀誤差。對於L3等級的任務,則收集了來自氣象、電力、金融、醫療等多個真實應用領域的時間序列數據,並結合每條數據的背景資訊(數據來源、採樣頻率、業務含義)精心設計問題。
HITSR最引以為傲的特點是它的"不說廢話"原則。研究團隊在論文中展示了大量現有數據集中存在的質量問題,令人哭笑不得。有一道題展示了一條曲線,四個選項分別是"曲線末端高於起點"、"中間部分基本平穩"、"末端出現急劇上升"、"結尾低於開始",而正確答案標註為B(中間部分基本平穩)。然而,仔細一看,A、B其實同時成立——這條曲線的末端確實高於起點,中間也確實比較平穩。這樣的題目根本無法客觀評價AI的能力,因為多個選項都可能是正確的。還有更糟糕的情況:有些題目問的是"這個過程是正常的還是異常的",卻完全沒有提供什麼叫"正常"的定義,讓AI(和人類)都無從下手。
為了徹底杜絕這類問題,HITSR的每道題都經過嚴格的"多階段核驗流水線"。L1和大部分L2任務的答案完全由規則程序自動生成,沒有任何主觀判斷的空間,就像數學題的答案只能是一個固定的數字一樣。L2中涉及模式描述的題目,先由GPT-5生成答案選項,再由另一個AI模型(Qwen3-235B)做交叉驗證,篩掉有歧義的題目,最後抽取10%做人工終審。L3的所有3121道題,則百分之百都經過了人工審核。兩名獨立標註者對隨機抽取的500道題進行了重新評估,一致性係數(Cohen's Kappa值)達到0.853,屬於"近乎完美的一致"——這意味著這些題目的對錯判斷對不同的人來說是基本相同的,沒有模糊地帶。
HITSR還有一個在同類數據集中極為罕見的特性:大量樣本附有"思維鏈"(Chain-of-Thought,簡稱CoT)標註。所謂思維鏈,就是AI解題時的推理過程,類似於學生做數學題時的"解題步驟"。普通數據集只告訴AI"這道題的答案是B",而HITSR還告訴AI"首先檢查選項A,該選項聲稱最小值是-24059,但從數值表中可以讀出實際最低點約為-34000,因此A是錯的;接著看選項B,它描述了0個趨勢轉折點,與圖形中單調下降的走勢相符,因此B是正確的"。這種帶有推理步驟的訓練數據,就是讓AI學會"為什麼這樣做"而不只是"記住答案是什麼",對於提升AI在陌生場景下的泛化能力至關重要。
四、LLaTiSA:一個同時用"眼睛"和"數字表格"看數據的AI模型
在數據集之外,研究團隊還設計了一套全新的AI模型架構,命名為LLaTiSA(發音類似"拉提薩",全稱是"Large Language and Time Series Assistant",即大型語言與時間序列助手)。
這個模型的核心設計思路來自一個生活中常見的場景:當你去圖書館查找一本書時,你既想要一張全館布局示意圖(幫你快速找到大概區域),也需要精確的書架編號和索引(幫你找到那本具體的書)。只有示意圖,你可能找到大致區域卻無法準確定位;只有索引號,你可能在一排排書架間迷失方向。兩者結合,才能高效精準地完成任務。
現有的AI處理時間序列數據時,要麼只給它看"折線圖"(視覺直覺好,但數值精度差),要麼只給它看"數字序列文本"(數值精準,但難以感知整體趨勢)。LLaTiSA的創新在於,它同時給模型提供兩張圖片作為輸入。第一張是傳統的時間序列折線圖,讓模型能夠直觀感受整體走勢、局部特徵和視覺規律。第二張則是一張精心設計的"高密度數值表格圖"——把所有的時間索引和對應數值以清晰的表格形式渲染成圖片,讓模型在需要精確核對某個時間點的具體數值時,能夠"視覺定位"到精確的坐標。這種"雙圖輸入"的設計,使得模型既能宏觀把握,也能微觀精準,兼顧了視覺直覺和數字精度這兩種在傳統方案中相互矛盾的需求。
這個設計的靈感來自近年來在AI圖像識別領域興起的一項技術:用視覺Token來壓縮表示文字資訊,比直接把長串數字文本輸入給模型更高效、更不容易出錯。LLaTiSA採用的基礎模型是阿里巴巴旗下Qwen團隊發布的Qwen3-VL-8B-Instruct,這是一個具備圖文理解能力的視覺語言模型,相當於一個既能看圖又能讀文字的"全能選手"作為底座。
五、"先打地基再蓋樓":三階段課程學習訓練策略
再好的模型架構,如果訓練方式不對,也難以發揮出真正的潛力。高德地圖團隊為LLaTiSA設計了一套與四級分類體系嚴格對應的"三階段課程學習"訓練流程,核心理念就像醫學生的培養路徑——先學解剖、再學病理、再學臨床,不能顛倒順序。
第一階段,用HITSR-L1數據(30000個樣本)進行訓練,專門強化模型的"數值讀取"能力。這個階段只訓練1個輪次,學習率設置為0.00001,確保模型把注意力集中在"準確找到最大值、最小值、區間內數值"等基礎精度任務上,建立起紮實的數字錨定能力。
第二階段,用HITSR-L2數據(45000個樣本)繼續訓練2個輪次,在第一階段精度能力的基礎上,進一步培養模型識別局部和全局時間模式的能力,包括判斷趨勢方向、識別周期性、辨別數值波動特徵等。
第三階段,則可以根據應用場景的需要,選擇用HITSR-L3數據(2700個樣本)進行通用語義推理訓練,或者用特定領域的數據(例如ECG心電圖數據)進行專業化微調。這一階段培養的是模型將數據觀察與現實背景知識相結合、做出領域專業判斷的能力。
整個訓練過程使用了8塊英偉達
H20 GPU,優化器採用AdamW,學習率衰減策略為餘弦退火。這些技術細節對普通讀者來說不必深究,關鍵在於理解背後的設計哲學:按照能力的層次順序遞進式訓練,就像一級一級打好地基再建上面的樓層,而不是把所有材料一股腦兒混在一起隨便蓋。
六、實驗結果:數字背後的真實故事
研究團隊進行了一系列嚴謹的實驗,將LLaTiSA與眾多競爭對手在多個獨立的評測基準上進行了比較。之所以特別強調"獨立的評測基準",是因為所有用於測試的數據集都與LLaTiSA的訓練數據有本質區別,這能確保測試的是模型真實的泛化能力,而不是死記硬背的能力。
在L1數值讀取任務上,LLaTiSA的表現令人印象深刻,其在"最大最小值定位"任務上的準確率達到86.8%,"半準確率"(即找對了最大值和最小值中的至少一個)達到96%,而同等條件下GPT-4o的完全準確率僅為2.4%,即便是文字模式下的Qwen3-8B也只有36.4%。這背後有一個有趣的現象值得關註:許多基於純文字輸入的模型,在面對L1任務時會陷入"失控的死循環"——它們開始一遍一遍地重複輸出,直到超出最大允許長度也無法給出有效答案。這說明讓語言模型直接處理長串數字序列,本身就是一件極其費力且容易出錯的事,而LLaTiSA的雙圖輸入方案從根本上繞開了這個問題。
在L2模式感知任務的局部模式識別子任務上,LLaTiSA達到75.6%的準確率,顯著優於GPT-4o(純視覺模式下72.2%,雙圖模式下65.4%)和其他所有對比模型。在全局模式識別子任務上,LLaTiSA達到97.5%的準確率,接近滿分,與GPT-4o(96.7%)差距不大,但仍略勝一籌。
在L3語義推理任務上,LLaTiSA達到67%的準確率,比排名第二的ChatTS(59%)高出約8個百分點,比GPT-4o(47%至49%)高出約20個百分點。這個差距相當顯著——畢竟GPT-4o是目前公認的頂級商業AI,能在語義推理這種高難度任務上明顯超越它,對於一個專注於特定領域的開源模型來說,是相當了不起的成就。
研究團隊還專門驗證了一個有意思的問題:如果把"三階段課程訓練"改成"把所有數據混在一起一起訓練"(稱為"聯合訓練"),效果會如何?實驗結果明確顯示,聯合訓練在L2任務上的ID(訓練內)準確率比課程訓練低2.06個百分點,在L3任務的OOD(訓練外)測試中低了整整14.93個百分點。聯合訓練的模型在它見過的數據上表現還算過得去,但一旦遇到陌生場景就會明顯崩潰,而課程訓練的模型則穩如磐石。這有力地驗證了"按順序學習"這個直覺上顯而易見、但在AI訓練領域往往被忽視的重要原則。
七、從通用模型到心臟科醫生:ECG心電圖解讀實驗
為了展示LLaTiSA作為"通用基礎模型"的遷移能力,研究團隊還做了一個頗具說服力的應用實驗:在ECG(心電圖)解讀任務上的專業化表現。
心電圖解讀是一個典型的L3級別任務——它要求AI不僅能識別信號的形態特徵(某個波峰的幅度、某個時間段的波形類型),還要結合醫學知識做出準確的臨床診斷(這是正常的竇性心律、房顫還是心肌缺血?),並按照醫生的標準逐導聯(心電圖通常有12個導聯,相當於從12個不同角度觀察心臟電活動)進行系統性分析。
研究團隊在ECG-Grounding數據集(30000個樣本)上對LLaTiSA進行了進一步微調,並與幾個專門為心電圖設計的AI系統(PULSE和GEM)進行了比較。結果顯示,LLaTiSA在"導聯評估覆蓋率"指標上表現突出,在訓練內測試中以84%的覆蓋率大幅超越了同等條件下的Qwen3-VL-8B基礎模型(69.28%),並比專門為心電圖設計的GEM-LLaVA模型高出18.14個百分點。這意味著LLaTiSA更系統、更全面地對每一個導聯都進行了分析,而不是只關注最明顯的幾個特徵。
更關鍵的是,LLaTiSA完成這個任務只用了30000個訓練樣本,而同類專業系統GEM使用了118.6萬個樣本——後者是前者的約40倍。這種高效的數據利用能力,意味著有了LLaTiSA這個打好了基礎的"通才選手",再進行專業領域的調教,所需要的專業數據量會大幅減少,這在醫療AI領域具有極其重要的實用價值,因為醫療標註數據往往昂貴且稀缺。
在訓練外(OOD)測試中,LLaTiSA的導聯評估準確率達到49.2%,比同等基礎模型高出11.08個百分點,證明了其專業化知識不是過擬合,而是真實的泛化能力。不過,在整體診斷準確率上,LLaTiSA(62.2%)仍然低於使用了大量專業數據訓練的GEM系列模型(約73%-74%),說明在數據量上的差距在部分指標上還是會體現出來,但兩者之間的差距已經大幅縮小。
八、L4預測任務:這套框架能否"預見未來"?
研究團隊在論文附錄中還專門擴展了對L4(預測推斷)任務的探索。這個任務的設置頗具創意:給AI看一段時間序列,然後提供四個"候選接續片段",讓AI選出哪一段才是這條曲線在接下來時間段內真實的走向,其他三個都是從完全不同的時間序列中採樣的"干擾選項"。
為了保證這道題沒有歧義(即確保只有一個正確答案,而不是多個候選都看起來合理),研究團隊設計了一套嚴格的篩選規則:剔除與正確答案皮爾遜相關係數大於0.8的干擾選項、不在曲線的高度波動時刻(如尖峰或急轉彎處)切割、以及確保各干擾選項之間彼此足夠不同。
實驗結果同樣說明了課程學習的價值:只用L1-L3數據訓練的LLaTiSA在L4任務上的準確率為54.2%,加入L4專項訓練後提升至83.3%,而對比同類文字輸入模型中表現最好的Claude-3.5-Sonnet只有82.2%、GPT-4.1也只有79.1%。這個結果表明,經過層層遞進訓練的LLaTiSA,即便在它沒有專門練習過的高階任務上,其底層能力也比很多專門為此設計的系統更加紮實。
消融實驗進一步證明,如果跳過L1-L3的基礎訓練直接做L4訓練,準確率只有約43%;如果把所有四個等級的數據一起訓練,也只有75.4%;只有嚴格按照L1→L2→L3→L4的順序逐級推進,才能達到83.3%的最優結果。這個實驗數據,以量化的方式再次印證了"不能跳級"這個核心理念。
說到底,這項研究做的事情,就是給AI的時間序列理解能力建立了一套"從識字到寫作文"的完整教育體系。過去的AI學習時間序列,就像一個從來沒有系統學過數學的人被要求直接解微積分——也許靠死記硬背能蒙對一些題目,但一換題型就束手無策。高德地圖團隊的貢獻,在於不僅說清楚了"應該教什麼、按什麼順序教",還實際造出了一套高質量的"教材"(HITSR數據集),並且訓練出了一個在這套體系下表現優秀的"學生"(LLaTiSA模型)。
這對普通人的生活意味著什麼?隨著智能醫療、智能製造、智能交通等領域對AI的需求不斷增長,能夠真正"讀懂"時間序列數據的AI將會變得越來越重要。心電圖AI解讀、異常設備預警、交通流量預測……這些應用都依賴於對時間序列數據的深層理解。有了更系統、更可靠的理解能力,這些AI系統將會在真實應用中減少誤判,給出更可信的分析結果。
當然,研究者們也坦誠地指出了當前工作的局限:整個項目目前只使用了"監督學習"(也就是告訴模型正確答案讓它模仿),而沒有使用近年來大熱的"強化學習"(讓模型通過試錯來自我提升)。如何設計一套能夠同時獎勵"讀對數字"和"推斷正確語義"的獎勵機制,還是一個待解的難題,留給未來的研究去探索。對這個方向感興趣的讀者,可以通過arXiv上的編號2604.17295深入閱讀原始論文,其中的附錄部分還包含大量詳細的案例分析和實驗細節,值得一讀。
---
Q&A
Q1:HITSR數據集和普通的時間序列數據集有什麼區別?
A:HITSR數據集最大的特點是質量極高且帶有推理過程標註。普通數據集通常只提供"問題+答案",而HITSR還提供了詳細的解題思維鏈,相當於同時給了學生答案和解題步驟。此外,HITSR的每道題都經過嚴格的多階段核驗,避免了答案模糊、選項有多個正確答案等常見質量問題,總規模約83000個樣本,覆蓋從基礎數值讀取到複雜語義推理的三個難度等級。
Q2:時間序列推理的四級分類體系中,各等級之間的核心差異是什麼?
A:四個等級代表從低到高的認知複雜度。L1(數值讀取)只需準確找出某個時間點的具體數值;L2(模式感知)需要識別數據的整體規律和局部特徵;L3(語義推理)則需要把數據特徵與現實背景知識結合起來做出有意義的判斷;L4(預測推斷)是在完全理解歷史數據的基礎上,對未來走向做出預測。實驗發現,即使是頂級的GPT-4o,在L1任務上的表現也遠不理想,說明基礎能力的建設是整個體系的核心瓶頸。
Q3:LLaTiSA採用雙圖輸入的設計能解決什麼具體問題?
A:LLaTiSA同時給模型輸入折線圖和數值表格圖,解決了單一輸入模式的兩大缺陷。純折線圖輸入讓模型能感受整體趨勢,但在需要精確數值時容易產生"幻覺"(比如把最高點判斷成錯誤的時間位置);純數值文字輸入雖然精確,但處理長序列時容易陷入無限循環無法輸出結果。雙圖設計讓模型既有視覺直覺又有精確數字參照,在L1數值定位任務上準確率從GPT-4o的2.4%大幅提升到86.8%。






