上海財經大學團隊揭秘：拆解AI預測模型，找到比「堆疊新技術」更聰明的時間序列預測方法

這項研究由上海財經大學計算與經濟跨學科研究重點實驗室聯合螞蟻集團的研究團隊共同完成，發表於2026年8月在韓國濟州島舉行的第32屆ACM SIGKDD知識發現與數據挖掘大會（KDD 2026），論文DOI為10.1145/3770855.3817551，論文編號arXiv:2605.26562。

贊助商廣告

每天早晨，你拿出手機查看天氣預報，決定要不要帶傘；電力公司的工程師盯著螢幕，預測今天城市用電量的峰值，以便調配電網；醫院的系統自動分析患者的歷史數據，提前預警可能的健康風險。這些場景背後，都有一項關鍵技術默默運轉——多變量時間序列預測。說白了，就是根據過去多條數據曲線的走勢，預測它們未來會怎麼變化。

然而，近年來AI研究圈子裡有一個讓人有些頭疼的現象：研究人員們爭先恐後地發布各種新奇的預測模型，一個比一個複雜，一個比一個花哨。但當你把這些模型放到不同數據集上一測，卻發現沒有一個能穩定稱霸——昨天還是"最強"的模型，換個數據集就可能表現平平。這就好比各路廚師都在競相發明新菜系，卻沒人去研究清楚：到底是廚師的手藝更重要，還是選材更重要，還是鍋的材質更關鍵？

上海財經大學的研究團隊決定換一個思路。他們不再把每個模型當作一個不可拆分的黑箱來評測，而是像拆手錶一樣，把幾十個主流AI預測模型拆開，細數每一個齒輪和彈簧，搞清楚哪些零件真正決定了走時的精準度。這個框架被他們命名為TSCOMP，是目前規模最大的、針對深度多變量時間序列預測方法進行組件級系統性評測的基準框架，相關代碼和性能語料庫已在GitHub上公開。

一、為什麼要"拆表"而不是"換表"

在進入具體細節之前，有必要理解這個研究團隊面對的根本困境。過去的研究者評測模型的方式，就像在比較不同品牌的手機——你只看最終跑分，卻不知道分數是高處理器的功勞，還是優化軟體的功勞，還是螢幕刷新率的功勞。這樣的評測方法導致了一個尷尬的局面：每隔幾個月就有新論文聲稱自己的模型刷新了紀錄，但研究者們卻越來越困惑——究竟是什麼讓它更好？

贊助商廣告

當然，也有人嘗試進行大規模的基準測試，比如TSlib、BasicTS、TFB等框架，它們對比了許多模型在多個數據集上的表現。然而這些工作的共同局限在於，它們依然把模型當作整體來評價，沒有深入剖析內部機制。這就像你知道了A手機比B手機跑分高200分，但完全不知道為什麼——這對於下一步怎麼設計更好的手機，幾乎沒有幫助。

正因如此，TSCOMP的核心理念是：把每一個預測模型分解為標準化的"零件"，然後系統地測試每個零件的貢獻。這樣，研究者就能精確回答：在一個預測管道中，到底哪個環節最重要？不同類型的零件應該怎麼搭配？什麼樣的數據適合什麼樣的零件？

二、把預測流水線拆成四道工序

為了做到這種精細化拆解，研究團隊首先梳理了一個預測任務從輸入到輸出所經歷的完整流程，並將其分解為四個主要階段，每個階段又進一步細分為若干"組件維度"，每個維度包含多種具體的實現方案。整個框架覆蓋了11個組件維度和49個具體組件。

第一道工序是數據預處理（Series Preprocessing）。原始時間序列數據往往雜亂無章，就像你拿到一袋沒有分揀的食材，需要先洗淨、切塊才能下鍋。這個階段包括三類操作：序列歸一化（Normalization）負責消除不同變量之間因量綱差異造成的偏差，典型的方法包括RevIN（可逆實例歸一化）、DishTS和Stationary歸一化；序列分解（Decomposition）負責把一條波動的曲線拆分為趨勢部分和周期部分，就像把海浪分解為潮汐和風浪，主要方法有移動平均（Moving Average）、基於離散傅里葉變換的DFT分解以及混合專家移動平均MoEMA；序列採樣與混合（Series Sampling/Mixing）則涉及多尺度資訊的整合，比如TimeMixer提出的分層混合策略。

第二道工序是序列編碼（Series Encoding），也就是把處理好的數據"翻譯"成模型能理解的語言。這裡有三個關鍵抉擇：第一是通道獨立（Channel Independence）還是通道依賴（Channel Dependence）——前者把每條時間序列單獨建模，後者試圖捕捉變量之間的相互關係；第二是序列的"令牌化"方式（Tokenization），即如何把一段連續時序數據切分為模型處理的基本單元，包括逐點編碼、分塊編碼（Series Patching，如PatchTST）、倒置編碼（Inverted Encoding，如iTransformer）和正交編碼（Ortho Encoding，如OLinear）；第三是時間戳嵌入，即是否將時間本身的資訊（如星期幾、第幾個月）作為額外信號注入模型。

贊助商廣告

第三道工序是網路架構（Network Architecture），也就是模型的"大腦"本身。這裡涵蓋了當前主流的所有架構類型：MLP類（最基礎的多層感知機，包括DNN和NormLin）、RNN類（擅長處理序列的循環神經網路，包括GRU和xLSTM）、Transformer類（通過注意力機制捕捉長程依賴，包含多種注意力變體：標準自注意力、自相關注意力AutoCorr、稀疏注意力SparseAttn、頻率增強注意力FrequencyAttn以及去非平穩注意力DestationaryAttn）、大語言模型類（LLM，包括GPT4TS和TimeLLM）以及時間序列基礎模型類（TSFM，包括Timer、Moment、TimeMoE和Chronos）。此外，這個階段還包括特徵注意力機制（Feature Attention）和檢索增強生成（Retrieval Augmented Generation，RAG）這兩個附加組件。

第四道工序是網路優化（Network Optimization），包括輸入序列長度（從48到512步不等）和損失函數的選擇（MSE、MAE、HUBER、DBLoss、PSLoss以及FreDFLoss）。這道工序決定了模型用什麼"眼光"來衡量自己預測得好不好，進而影響它如何調整自身參數。

以上四個階段構成一個完整的預測流水線，各組件的笛卡爾積在理論上超過一百萬種組合。面對如此龐大的搜索空間，研究團隊需要一套聰明的實驗設計方案。

三、聰明的抽樣：不窮舉，但保證覆蓋

窮舉一百萬種組合顯然不現實。研究團隊採用了一種叫做"約束正交實驗設計"的方法。簡單來說，這個方法的目標是：從所有合法的組合中挑選最少的代表性樣本，確保每一對組件都至少被測試過一次（稱為"成對覆蓋"）。這就像你要品嘗一家擁有十種麵條和十種澆頭的麵館，你不用嘗遍一百碗，只需挑選少數幾碗，保證每種麵條和每種澆頭都各自出現過——這樣既能評估每種食材的單獨表現，也能感受到部分搭配效果。

具體實現上，他們設計了一個貪心算法：從一個初始池出發，每次疊代都從隨機生成的候選組合中，選出能覆蓋最多"尚未覆蓋的成對組合"的那個加入池中，直到所有合法成對組合都被覆蓋。最終，每個預測時間步對應約136個實驗配置，整個項目在13個真實世界數據集上完成了超過兩萬次模型訓練與評測，消耗了大量算力（實驗平台為四塊80GB的NVIDIA A100 GPU以及八塊40GB的A100 GPU）。

贊助商廣告

實驗覆蓋的數據集非常多元，包括電力、交通、氣象、經濟、金融、健康和流行病等多個領域的標準數據集：ETTh1、ETTh2、ETTm1、ETTm2（電力變壓器數據）、ECL（電力消耗）、Traffic（舊金山灣區道路占用率）、Weather（氣象指標）、Exchange（匯率）、ILI（流感患者數據）、NASDAQ、NYSE（股市數據）、FRED-MD（美聯儲宏觀經濟指標）和Covid-19（新冠疫情數據），另加M4短期預測數據集。

評測指標方面，主要採用均方誤差（MSE）作為核心精度指標，並通過"標準化MSE"消除不同數據集之間的量綱差異。短期預測任務額外使用SMAPE、MASE和OWA等指標。統計分析框架分三個層次：用廣義線性混合模型（GLMM）估計每個組件的獨立邊際貢獻；用方差分析（ANOVA）量化每個組件維度解釋的性能方差比例；用Cohen's d效應量衡量不同數據特性下組件效果差異的實際大小。

四、拆開來看：哪塊零件最值錢

實驗結果中最引人注目的發現，也許會讓很多人大跌眼鏡。在整個預測流水線中，數據預處理階段（尤其是序列歸一化）才是性能的最大決定因素，而不是很多人直覺上認為的網路架構。

具體來說，ANOVA分析顯示，序列歸一化一項單獨就解釋了總性能方差的63%，整個數據預處理階段合計貢獻了66.6%的方差。序列編碼階段（通道獨立11.1%，序列令牌化7.1%）合計貢獻18.3%。網路架構和網路優化兩個階段分別只貢獻了8.0%和7.1%。換句話說，數據預處理對結果的影響，是網路架構影響的八倍多。

用廚房的比喻來理解：你花了大量時間研究鍋的材質和火候（網路架構），結果發現食材的處理方式（數據預處理）才是決定菜品好壞的根本——這種顛倒直覺的發現，對整個領域的研究方向都有重要的參考意義。

研究團隊還擔心這個結論只是MSE這個特定指標的產物，於是專門用MAE、RMSE和MASE（一種不依賴量綱的指標）進行了交叉驗證。結果顯示，在MASE下，數據預處理依然貢獻了58.7%的方差，而網路架構的貢獻進一步下降到5.2%。預處理與架構重要性之比，反而從8.3倍擴大到了11.3倍。這說明，預處理的主導地位並非評測指標的副作用，而是這個領域的內在規律。

贊助商廣告

在組件級別的分析中，各維度也湧現出一些有趣的細節。序列歸一化方面，RevIN（可逆實例歸一化）和Stationary歸一化效果最好，二者都能有效穩定輸入分布，而完全不用歸一化則會顯著拖累性能。序列分解方面，出乎意料的是，大多數分解方法平均而言反而會輕微增加預測誤差，而非改善它——這意味著分解操作的效果遠比想像中更加依賴具體場景。通道獨立策略總體上優於通道依賴，Inverted Encoding和Ortho Encoding明顯優於簡單的逐點編碼。損失函數方面，HUBER和MAE顯著優於MSE，這對長期以來把MSE作為默認訓練目標的研究者是一個有力的提醒。

五、不同"大腦"類型，各有各的偏好

把所有模型放在一起看到的是全局趨勢，但不同類型的模型架構對各組件的依賴程度差異相當大，這構成了研究的另一個核心發現層次。

對於MLP類模型，通道獨立策略帶來顯著的性能提升，正交編碼也表現出潛力，而序列歸一化依然是最重要的性能驅動因素。MLP缺乏內置的序列處理能力，因此特別依賴良好的輸入預處理來穩定信號。

對於RNN類模型，通道獨立的收益幾乎是全局平均值的兩倍——這是因為循環網路在逐步更新隱藏狀態時，不同變量之間的相互干擾會隨時間累積放大，通道隔離能有效阻斷這種誤差傳播。另一方面，移動平均分解對RNN的表現有明顯的負面影響，因為平滑操作會抹去短期波動，而循環網路恰恰依賴這些細節來完成逐步更新。序列長度配置對RNN的影響也比其他架構大得多，長時間步會加劇梯度消失問題。

對於Transformer類模型，序列分解方法總體上會損害性能，研究者推測這是因為頻域變換和平滑操作干擾了注意力機制捕捉複雜時序模式的能力。正交編碼對Transformer的提升最為突出。損失函數設計對Transformer的影響比其他架構更大，說明複雜的注意力機制需要精心設計的訓練目標來正確引導參數更新。

贊助商廣告

大型時間序列模型（包括LLM和TSFM）則展現出與傳統模型截然不同的特性。LLM類模型對序列分解的敏感度是所有架構中最高的，卻對通道獨立策略幾乎不敏感——這與大多數其他架構形成鮮明對比。TSFM類模型對序列令牌化方式極為敏感，但存在一個反直覺的現象：Series Patching（分塊編碼）是這些模型預訓練時默認使用的編碼方式，但在實驗中它反而會損害微調性能，而通道獨立策略則有幫助。這提示研究者，預訓練時的設計選擇與下游微調時的最優策略未必一致，不能簡單地把預訓練時的設定搬到新任務上。

在不同大型模型的內部比較中，FrequencyAttn（頻率增強注意力）是Transformer家族中唯一能顯著提升基線表現的注意力變體。而在大型模型家族中，與GPT4TS相比，TimeLLM和Moment的表現有所提升，但TimeMoE則不然；Timer和Chronos與GPT4TS大體相當。這些細粒度的發現為研究者在不同場景下選擇起點模型提供了實用參考。

在流水線階段的優先級方面，不同架構家族也有各自的側重：MLP最依賴數據預處理（61.7%），TSFM最依賴序列編碼（43.2%），Transformer和LLM則更依賴網路架構設計。這一發現意味著，為不同類型的模型調優時，應該把資源和精力放在不同的環節。

六、數據性格不同，零件配方也不同

除了架構差異，研究團隊還系統分析了五種數據集特性如何影響各組件的最優選擇，這五種特性分別是：樣本量大小、分布偏移程度、時序動態特性（如自相關強度）、多變量相關性強度和平穩性。

樣本量方面，當數據集足夠大時，MLP類模型往往能憑藉充分的訓練信號收斂到很好的特徵表示，其表現隨樣本量增加有顯著提升；反而是TSFM類大型模型在大數據集上的優勢不那麼明顯，甚至有時表現下滑——研究者推測，過多的下游適應可能會覆蓋預訓練階段學到的通用知識。

分布偏移（即訓練數據和測試數據的統計特性不一致）方面，標準的RevIN歸一化在高分布偏移場景下效果有限，而專門針對非平穩性設計的Stationary歸一化則表現出更強的魯棒性。這說明，面對劇烈變化的數據（比如突發事件影響下的股價），需要比標準歸一化更激進的預處理策略。

贊助商廣告

時序動態特性方面，Auto-Correlation（自相關注意力）在自相關性高的數據上表現更好，而Destationary Attention在非平穩性強的數據上優勢突出。這印證了一個設計哲學：帶有特定先驗假設的機制，在它所針對的場景下確實更有效。

多變量相關性方面，通道獨立策略在高度相關的多變量數據集上反而會顯著拖累性能——當變量之間的關係本身就是重要的預測信號時，強行把它們隔離開來建模，就等於主動丟棄了最有價值的資訊。這提醒我們，通道獨立並非放之四海而皆準的"神器"，選擇策略要對齊數據的實際特性。

七、用"零件資料庫"搭建最佳預測器

積累了如此豐富的組件級實驗結果之後，研究團隊進一步將其轉化為實際應用價值。他們將整個實驗結果構建為一個"性能語料庫"：對於每對（數據集，模型配置），記錄標準化的排名分數，從而形成一個數據集與組件配置之間的性能映射矩陣。

基於這個語料庫，他們訓練了一個輕量級的"元預測器"（Meta-Predictor）：對於任何一個新數據集，首先用TabPFN（一種預訓練的表格數據基礎模型）提取該數據集的"元特徵"——不是統計數據的邊緣分布，而是通過構建代理分類任務來編碼數據內在的條件預測邏輯，從而捕捉數據的時序動態規律而非靜態統計特性。然後，元預測器將數據集的元特徵與各組件配置的嵌入表示結合，預測每種配置在新數據集上的相對排名。整個元預測器是一個兩層MLP，訓練完成後，面對新數據集時無需任何額外訓練，只需提取元特徵、獲取配置排名預測，選出排名最高的若干配置組合即可——完全零樣本部署。

這個系統的選擇質量非常出色：在所有評測任務中，元預測器推薦的前五個配置里，有98%落在所有配置中排名最高的25%分位，超過99%落在前50%分位，遠超隨機選擇25%的基準線。

在與主流方法的對比評測中，TSCOMP的自動化搭建方案（基於MLP骨幹）在14個長期預測任務指標中拿到10個最優，在M4短期預測基準上也位居第一。與此同時，它超越了AutoGluon、AutoTS等AutoML方法，也超過了GPT4TS、Timer、Moment等大型時間序列模型——而這些大型模型還是在全量數據微調的條件下評測的，TSCOMP卻是零樣本推薦後直接訓練一個輕量MLP。

贊助商廣告

與TimeFuse（另一種自適應融合方法）相比，TSCOMP在MSE上最多能領先10.4%。更重要的是，TSCOMP的在線推理成本遠低於競爭對手：在ETTh1數據集上，AutoGluon的在線處理時間超過1100秒，而TSCOMP-fast變體僅需約163秒，性能卻更優。整個語料庫構建（約20760條記錄）確實需要可觀的離線算力，但這部分成本是一次性的，面對新任務時用戶無需重複承擔。

研究團隊還專門測試了將RNN和Transformer納入搜索空間是否能帶來額外收益。結果發現，在168個評測場景（7個數據集×4個預測長度×3種Top-K設置×均值/中位數兩種統計方式）中，MLP骨幹在164個中排名第一，與僅使用MLP的搜索空間相比，擴展骨幹類型帶來的性能提升幾乎可以忽略不計。這進一步確認了MLP作為預測骨幹的穩健性，也說明TSCOMP框架本身是架構無關的，只是在當前條件下MLP確實是最佳選擇。

八、組件之間的"化學反應"

研究團隊還額外分析了組件之間的相互作用，以驗證"主效應分析"這一核心假設是否成立。通過嚴格的三類ANOVA和多重比較校正，他們評估了54個成對交互和66個三階交互組合。結果顯示，30個成對交互和58個三階交互在統計上是顯著的，說明交互效應確實存在且普遍。

然而，從方差貢獻角度來看，主效應依然壓倒性地主導性能：單獨的主效應解釋了27.29%的總方差，加入成對交互後僅增加到32.56%，增量僅5.27%。最大的單個交互效應量（η?）也只有0.043，與主效應的貢獻相比微不足道。其中最顯著的成對交互是"注意力類型×損失函數"和"歸一化方法×骨幹架構"；最顯著的三階交互則涉及時間戳嵌入、分解方法、序列長度等維度的組合。這些發現支持了主效應作為自動化選擇和分析排名的有效近似，同時也提示在某些特定場景下，組合效應仍值得深入關注。

在直觀的成對交互分析中，研究者發現了兩個典型案例：簡單MLP搭配稀疏特徵注意力能產生出人意料的優秀表現，說明輕量骨幹與顯式特徵相關性建模存在協同效應；另一方面，在沒有序列歸一化的情況下，標準MSE損失的表現尤其糟糕，揭示MSE對分布偏移缺乏魯棒性。

贊助商廣告

說到底，TSCOMP這項研究最值得記住的資訊，並不是某個新模型刷新了某個數據集的紀錄，而是它改變了我們看待"怎樣做好時間序列預測"這個問題的方式。長期以來，研究者們把精力集中在網路架構的創新上——更複雜的注意力機制、更深的堆疊層數、更多的參數——而這項研究用兩萬多次實驗清晰地告訴我們：在你大費周章地設計新架構之前，先把數據預處理做好，尤其是歸一化，往往能事半功倍。

這不是說架構不重要，而是說不同組件的重要性存在明顯的優先級，而且這個優先級因架構類型和數據特性的不同而顯著變化。把這些規律系統化、可查詢化，並用一個輕量的元預測器自動完成選擇，這正是TSCOMP框架的核心價值所在。對於希望在新業務場景中快速搭建預測系統的工程師來說，這套方法提供了一條比"試遍所有最新模型"更有效率的路徑。對於研究者來說，這套組件級評測體系也為未來發表新方法時如何更嚴謹地論證其貢獻提供了參考框架。

有興趣深入了解的讀者，可以通過DOI 10.1145/3770855.3817551查閱原論文，或在arXiv上搜索編號2605.26562獲取預印本，完整的代碼和性能語料庫也已在GitHub的SUFE-AILAB/TSCOMP倉庫中公開。

Q&A

Q1：TSCOMP框架是如何做到"零樣本"推薦模型配置的？

A：TSCOMP先在大量歷史數據集上完成了兩萬多次實驗，建立了一個記錄"哪種配置在哪類數據上效果好"的性能語料庫。當遇到新數據集時，系統會用TabPFN提取該數據集的動態特徵（比如它的時序規律長什麼樣），再用訓練好的元預測器匹配最相似的歷史模式，直接推薦排名最高的配置——整個過程不需要在新數據集上跑任何訓練實驗。

Q2：序列歸一化為什麼對時間序列預測這麼重要？

A：時間序列數據經常出現分布漂移，也就是訓練階段和預測階段的數據統計特性不一樣（比如股價的波動幅度在不同年份差異很大）。歸一化能在每次輸入時動態校正這種偏差，讓模型看到的數據更"標準"。實驗發現，RevIN和Stationary歸一化能解釋高達63%的性能方差，說明預處理做好了，即便用最簡單的MLP也能超越很多複雜架構。

贊助商廣告

Q3：通道獨立策略什麼時候會失效？

A：當多個變量之間存在強烈的相互影響時，通道獨立（把每條時序單獨建模）會主動丟棄變量間的關係資訊，反而損害預測效果。實驗證明，在高相關性數據集上，採用通道獨立的模型誤差顯著更高。所以這個策略不是萬能的，需要先判斷數據中變量間的相關性強弱，再決定是否使用。