宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

台灣大學等多機構聯合突破:用「量子啟發」方式,讓一個只有1.2萬參數的小模型預測太陽活動,居然贏過了13倍體量的對手

2026年05月14日 首頁 » 熱門科技

這項由台灣大學、台灣高速網路與計算中心、威爾斯法哥銀行、羅馬大學、哈姆斯塔德大學、卡達哈馬德·本·哈利法大學等十餘家機構聯合完成的研究,以arXiv預印本形式於2026年5月7日公開發布,編號為arXiv:2605.06734。

時間序列預測這件事,本質上就像是在猜一首你只聽過開頭幾小節的曲子,後面的旋律會怎麼走。太陽黑子活動、股市漲跌、電力負荷——這些問題背後都是同一類難題:如何從過去的規律中,可靠地推演出遙遠的未來。傳統的解決思路是建一個"記性好"的大腦,讓它把歷史數據全部消化掉,然後再開口預測。這類大腦通常以長短期記憶網路(LSTM)的形式出現,參數動輒數萬乃至數十萬個,訓練成本不低,而且預測長達132個月的未來時,往往力不從心。

這支來自多所頂尖機構的研究團隊換了一個思路。他們造了一個只有約1.25萬個參數的"小腦袋",卻在預測完整太陽活動周期方面,同時在誤差大小、峰值強度偏差和峰值時間偏差三項指標上,全部超越了參數量高達其13倍的LSTM大模型和WaveNet-LSTM等對手。這個小模型的名字叫做"門控QKAN-FWP",它的核心思想來自量子計算領域,但完全不需要真正的量子電腦就能運行——這就是所謂"量子啟發"架構的魅力所在。

一、問題的根源:讓機器擁有"記憶",究竟有多難

要理解這項研究為什麼有價值,先得弄清楚傳統方法面臨的困境。通常的做法是給神經網路配備一個"隱藏狀態",就像一張便條紙,每讀入一個新的時間點,就把相關資訊更新上去,然後傳遞給下一時刻。這張便條紙的內容會不斷滾動更新,從而讓模型"記住"歷史。這就是循環神經網路(RNN)以及它的進階版本LSTM的工作原理。

便條紙的設計固然聰明,但有一個致命的工程缺陷:訓練時必須按時間順序一步一步往前推,第100步的誤差信號必須一路穿越前99步的"便條紙"才能回到第1步,來調整最早期的參數。這個過程叫做"時間反向傳播",鏈條越長,信號越容易在傳遞途中消散(梯度消失)或爆炸(梯度爆炸)。對於需要處理528個月(約44年)歷史數據的太陽周期預測任務,這條鏈條長得驚人,傳統循環架構幾乎是望而卻步的。

量子機器學習領域曾經嘗試引入量子電路來增強這種記憶能力,但量子電路在當前"噪聲中等規模量子"(NISQ)硬體時代面臨另一重困境:多量子比特糾纏操作的錯誤率極高,難以在真實設備上穩定運行,模擬起來也極為耗費算力。於是問題就變成了:有沒有一種方式,既能獲得量子計算帶來的表達能力,又能繞開多量子比特糾纏的麻煩?

二、核心思路:把"記憶"藏進參數裡,而不是便條紙上

研究團隊提出的解決方案植根於一個叫做"快速權重編程"(Fast Weight Programmer,FWP)的古老想法。這個概念最早可以追溯到1992年,思路頗為別致:與其讓模型維護一張隨時間滾動的便條紙,不如讓模型的參數本身隨時間變化。

可以用一個廚房的比喻來理解這兩種方式的區別。傳統循環網路就像一個廚師,手裡一直拿著一塊黑板,每道菜做完之後就在上面記筆記,下一道菜開始時先看看黑板再動手。快速權重編程的模型則像是一個廚師,他的每一把刀和每一口鍋本身都在不斷被精心調整——不是靠記筆記來改變做菜方式,而是直接改變手中的工具。

在這套框架里,有兩個角色:一個"慢程序員"負責根據當前時刻的輸入,生成對工具(參數)的調整方案;一個"快程序員"則用更新後的工具直接輸出預測結果。關鍵在於,慢程序員生成的調整方案只依賴於當前時刻的輸入,與前一時刻的參數狀態完全無關。這意味著,原則上可以把所有時刻的調整方案並行計算出來,而不必排隊等候——這就從根本上打破了傳統循環網路必須串行的枷鎖。

三、量子啟發激活函數:用單量子比特電路織出豐富的頻譜

解決了記憶架構的問題之後,另一個挑戰是如何讓這個架構足夠"聰明",能夠捕捉非線性的複雜規律。這裡研究團隊引入了一個叫做"量子啟發柯爾莫哥洛夫-阿諾德網路"(QKAN)的模組。

柯爾莫哥洛夫-阿諾德網路(KAN)本身是2025年前後在機器學習界引起廣泛關注的一類新型網路結構。傳統神經網路在每個連接點(神經元)上施加一個固定的激活函數,比如一個簡單的折線;KAN則把這個固定函數替換成可學習的、靈活變化的函數——相當於每條連接都變成了一把可以任意調音的小提琴弦,而不是一個固定音高的音叉。這讓KAN在參數數量相對較少的情況下,依然能表達非常複雜的映射關係。

QKAN在KAN的基礎上再進一步:它用"單量子比特數據重上傳電路"來實現那些可學習的弦。這個電路的原理可以這樣理解:把一個數據點反覆"餵"給同一個量子比特,每餵一次都疊加一點旋轉,最後測量這個量子比特的期望值作為輸出。這個反覆餵入的過程會自動激發出豐富的傅里葉分量——也就是不同頻率的正弦和餘弦成分——讓單個參數就能擬合高度非線性的曲線。更重要的是,整個操作只涉及單個量子比特,完全不需要多量子比特糾纏,因此在真實量子硬體上出錯的概率極低,在經典電腦上模擬也相對輕鬆。

這個電路模組被稱為"數據重上傳激活"(DARUAN)。把DARUAN封裝進一個具有編碼器-處理器-解碼器三段結構的混合網路之後,就得到了論文中反覆提及的"混合QKAN"(HQKAN)模組。它可以作為慢程序員,也可以作為快程序員,兩者都用HQKAN時,整個系統就叫做"GQKAN-QKANFWP"——門控量子啟發柯爾莫哥洛夫-阿諾德網路快速權重編程。

四、門控機制:給"工具更新"裝上一個智能節流閥

除了上述兩個核心組件,研究團隊還引入了一個關鍵的穩定機制:標量門控更新規則。

在最基礎的快速權重框架里,每個時刻的參數調整量會無條件地累加到現有參數上。這就像一個廚師,每次有人給他一個"改進刀工的建議",他都原封不動地全部採納,久而久之刀工可能越調越亂,因為早期的建議和最新的建議有時是矛盾的,而且隨著建議數量的累積,參數的範數可能無限增大,導致訓練不穩定。

門控機制的解決方案是引入一個介於0和1之間的標量"閘門"$g_t$。當$g_t$接近1時,模型傾向於保留之前積累的參數(就像廚師決定維持現有刀工,不採納新建議);當$g_t$接近0時,模型幾乎完全用新生成的調整方案替換舊參數(就像廚師決定徹底推翻之前的習慣,從頭學習)。實際訓練中,這個閘門值由慢程序員根據當前輸入自動生成,因此它會隨著序列動態變化,自動平衡"記住過去"和"響應新資訊"兩種需求。

這個看起來簡單的修改,在數學上帶來了三個可以嚴格證明的優良性質。第一,把門控遞推公式展開之後,當前參數實際上是歷史上所有調整方案的加權平均,權重之和恰好等於1——也就是說,模型始終在一個由歷史調整方案構成的"凸包"內運動,參數的範數被嚴格控制住了,不會隨序列長度無限增長。相比之下,無門控的累加方案在最壞情況下參數範數可以隨序列長度線性增大。第二,當門控值近似恆定時,歷史調整方案對當前參數的影響按指數衰減,這正是一個理想"遺忘機制"應有的形態。第三,由於快速參數的更新只依賴於當前輸入而非歷史參數狀態,整條時間序列上的更新可以用一種叫做"並行前綴掃描"的算法在對數深度內完成,理論上可以大幅加速長序列的計算。

反向傳播(即訓練時的誤差信號傳遞)同樣受益於這一結構。在傳統循環網路里,誤差信號從第100步傳回第1步需要依次乘上100個稠密雅可比矩陣,每一步都可能放大或縮小信號,容易引發梯度爆炸或梯度消失。在門控快速權重框架里,誤差信號從第$t+1$步傳回第$k$步,中間只需要乘上一個標量——那個閘門值的乘積——而非一連串矩陣。梯度的大小天然被控制在0到1之間,不會爆炸,而且傳播路徑的深度可以通過並行掃描壓縮到對數級別,遠低於循環網路必須付出的線性深度代價。

五、實驗一:在六個經典時間序列任務上的系統評估

為了驗證上述設計的有效性,研究團隊設計了一套包含多個變體的對比實驗體系。從最基礎的"無門控+經典慢程序員+經典快程序員"(FWP)出發,逐步疊加門控機制、HQKAN慢程序員、HQKAN快程序員,最終形成八個變體,覆蓋從純經典到全量子啟發的完整譜系。

六個測試數據集的設計層層遞進,涵蓋了阻尼簡諧運動(平滑振盪、緩慢衰減的物理過程)、貝塞爾函數(冪律包絡加輕微頻率漂移的振盪)、NARMA5和NARMA10(五階和十階非線性自回歸序列,以尖銳不規則的峰值著稱)、延遲量子控制(模擬單光子散射後的非馬爾可夫延遲反饋脈衝序列),以及開放量子系統Jaynes-Cummings動力學(腔-量子比特強耦合加光子損耗,同時具有高頻振盪和耗散衰減)。

在固定窗口長度(16步)的初步篩選中,包含HQKAN的門控變體普遍表現優於無門控基線和純經典變體。其中,同時使用HQKAN作為慢程序員和快程序員的GQKAN-QKANFWP在六個數據集中的三個上取得最佳成績,GQKAN-FWP和G-QKANFWP也分別在多個任務中名列前茅。反觀基線QFWP,雖然在NARMA10(16步窗口)上取得最低均方誤差,但在窗口擴展到32步和64步後,誤差急劇膨脹,約放大60倍,而各門控變體則保持穩定。

在進一步的變窗口測試(8步、16步、32步、64步)中,GQKAN-QKANFWP在平滑動力學(阻尼簡諧運動、貝塞爾函數)上,對所有四個窗口長度均保持最佳或第二最佳;在NARMA系列上,G-QKANFWP在長窗口下表現最突出;在量子動力學數據集上,GQKAN-FWP在延遲量子控制和Jaynes-Cummings兩個任務上領先。QFWP在Jaynes-Cummings數據集的64步窗口上,誤差高出GQKAN-QKANFWP約三個數量級——這一差距在附錄的可視化圖中一目了然:GQKAN-QKANFWP的預測曲線從第15輪訓練起就緊貼真值,誤差帶窄到幾乎不可見;而QFWP的曲線始終只捕捉到信號頻率,振幅被系統性低估,即使訓練延長到100輪也無法彌合這一差距,說明這是模型表達能力的根本限制,而非訓練時間不足。

六、實驗二:44年太陽活動數據的長程預測大考

時間序列基準測試固然重要,但研究團隊更希望展示模型在真實世界長程預測場景中的價值。他們選擇了太陽黑子數預測——一個在太陽物理學界公認極具挑戰性的問題。

數據來自世界太陽黑子數據中心SILSO,包含1749年至2026年間共3326個月的平均黑子數,是人類迄今積累的最完整日照活動記錄之一。任務的設置參照了該領域的經典文獻:以連續528個月(約四個太陽活動周期)的歷史數據為輸入窗口,預測未來132個月(一個完整周期)的黑子數走勢。輸出的評價維度不止均方誤差,還專門引入了峰值幅度誤差(預測的太陽活動極大值與真實極大值之間的絕對差)和峰值時間誤差(預測極大值出現時間與真實時間之間的月數偏差),因為準確預測活動高峰的強度和時間,對空間天氣預警具有直接的實用價值。

比較基線包括WaveNet-LSTM(約16.7萬參數)、LSTM-L(約8.9萬參數)、LSTM-S(約2.6萬參數)、香草RNN(約1.15萬參數)以及修正回聲狀態網路MESN(約13.2萬參數)。所有模型在完全相同的訓練協議下進行了重新測試(按時間順序劃分訓練、驗證、測試集,訓練100輪,五個隨機種子取平均),確保比較的公平性。

結果相當清晰。在均方誤差、峰值幅度誤差和峰值時間誤差三項指標上,GQKAN-QKANFWP均排名第一,參數量僅為12474個,約是LSTM-L的七分之一,是WaveNet-LSTM的十三分之一,是MESN的十分之一。可視化圖中,GQKAN-QKANFWP對太陽活動第23周期的預測曲線(橙色)從上升期、極大期到下降期,均將真實值(黑色虛線)包裹在±1個標準差的誤差帶內;LSTM-L雖然是唯一均值曲線與橙色帶有所重疊的基線,但其參數量是前者的七倍。其餘基線要麼系統性地低估太陽活動極大值,要麼根本無法形成一個連貫的周期結構。進一步的連續單步預測和對第22周期及正在進行的第25周期的全長預測,也顯示模型能夠在幾乎不丟失宏觀周期結構的前提下,給出穩定的長期展望。

七、實驗三:真實量子硬體上的部署驗證

對於一個聲稱"量子兼容"的模型,光在經典電腦上跑模擬器是不夠的。研究團隊把訓練好的快速程序員(包含200個單量子比特DARUAN電路)部署到了兩台真實量子處理器上:IonQ公司的捕獲離子系統Forte-1,以及IBM量子公司的超導晶片ibm_aachen(Heron r3架構,156個量子比特)。慢程序員和門控遞推部分依然在經典電腦上運行,只有DARUAN模組送上量子晶片,這樣可以精確量化量子噪聲對預測精度的單獨影響,而不必重新訓練。

在ibm_aachen上進行了從1到1024次測量(shots)的全面掃描。結果顯示出非常清晰的收斂行為:測量次數為1時,相對於無噪聲模擬器的均方誤差約為0.76%;測量次數增加到1024時,這一誤差降至約0.085%。這個收斂速度與理論上測量噪聲按1/√N衰減的預期完全吻合,說明限制精度的主要因素是統計漲落而非量子門的系統誤差。Forte-1上以1024次測量運行的結果,相對誤差同樣約為0.082%,與ibm_aachen的1024次結果高度一致,提供了跨平台的獨立驗證。換句話說,在約千次測量的條件下,兩台來自不同技術路線的真實量子設備都能以超過99.9%的精度復現無噪聲模擬器的預測結果。

八、實驗四:強化學習中的導航任務

研究團隊還把門控QKAN-FWP的各個變體應用於MiniGrid強化學習環境——一系列從5×5到16×16網格不等的迷宮導航任務。智能體每步只能看到以自身為中心的7×7局部視野,目標是儘快找到出口,獎勵信號稀疏(只有到達終點才給獎勵,且獎勵隨步數增加而衰減)。

無門控的QFWP基線在小網格(5×5)上勉強可用,但隨著網格擴大,性能急劇下降,16×16格上的最終獎勵僅約0.42,而加了門控的各變體普遍達到0.97左右,差距懸殊。門控的加入對收斂穩定性的改善尤為明顯——無門控的FWP在5×5網格上甚至始終無法收斂到有意義的獎勵值,而同樣配置下加了門控的G-FWP則迅速穩定在高獎勵水平。

在更大的環境中,G-QKANFWP(經典慢程序員配HQKAN快程序員)在6×6、8×8和16×16三個尺度上均取得最高或第二高的最終獎勵,儘管初期收斂略慢,說明HQKAN快程序員在複雜狀態空間中的表達優勢隨著任務難度提升而更加凸顯。完全由HQKAN構成的GQKAN-QKANFWP在16×16任務中以1114個參數達到0.974的獎勵,而經典版本G-FWP用了2665個參數才達到0.975——參數量減少約58%,性能幾乎完全持平。GQKAN-FWP(HQKAN慢程序員+經典快程序員)在16×16網格上的收斂速度還略快於純經典的G-FWP,說明即便快程序員保持經典結構,量子啟發的慢程序員也能帶來訓練效率上的額外收益。

說到底,這項研究做的事情,是把量子計算中一個精巧的單比特技巧,和一個四十年前就被提出卻長期被忽視的參數動力學思想,以及一個新穎的穩定化門控機制拼在一起,造出了一個在多個任務上以小博大的序列學習引擎。它的意義不僅僅在於"贏了LSTM"這件事本身,而在於它給出了一條在量子硬體真正成熟之前就能實際落地的路徑:利用量子原理的數學結構獲得表達能力,同時完全避開當前量子硬體最脆弱的多比特糾纏環節,讓訓練可以在普通GPU集群上高效完成,推理時再選擇性地把單量子比特電路送上真機驗證。

這對普通人意味著什麼?從最直接的應用來看,太陽活動預測精度的提升有助於提前數月準確預警衛星軌道衰減、通信中斷等空間天氣事件,這直接關係到GPS導航、無線通信以及航天員的安全。從更廣泛的視角看,一個只需要1.25萬個參數卻能擊敗十餘倍體量對手的序列模型,意味著這類任務也許可以在算力極度受限的邊緣設備(如傳感器節點或嵌入式系統)上完成,而不必依賴數據中心的龐大算力。

有興趣進一步探索的讀者,可以通過arXiv編號2605.06734查閱完整論文,其中附錄部分包含了詳盡的數學推導和可視化分析,值得細讀。

Q&A

Q1:門控快速權重編程(Gated FWP)與LSTM相比,核心區別是什麼?

A:LSTM依靠一個隨時間滾動更新的"隱藏狀態便條紙"來維持記憶,訓練時誤差信號必須沿時間軸串行傳回,鏈條越長越容易出現梯度消失或爆炸。門控快速權重編程把"記憶"存在模型參數本身的動態軌跡里,參數更新只依賴當前輸入,不依賴上一時刻的參數狀態,因此理論上可以並行計算整條序列的更新,梯度傳播也只需乘上標量閘門值而非一串稠密矩陣,天然避免梯度爆炸,訓練深度遠小於LSTM。

Q2:QKAN的單量子比特電路為什麼能產生豐富的非線性表達能力?

A:單量子比特數據重上傳電路的做法是把同一個輸入數據反覆餵給量子比特,每次餵入都疊加一次帶可學習參數的旋轉操作,最後測量期望值。數學上可以證明,這種反覆疊加的旋轉會在輸出中激發出多個不同頻率的傅里葉分量,就像一根弦被撥動後同時發出基頻和泛音。每多一次重上傳,能表達的頻率種類就增加一種,因此用很少的參數就能擬合高度非線性的函數,而且整個過程只涉及單個量子比特,不需要多比特糾纏,在真實量子硬體上的出錯率極低。

Q3:GQKAN-QKANFWP在真實量子晶片上的預測精度如何,需要多少次測量才夠用?

A:研究團隊在IonQ的Forte-1(捕獲離子)和IBM的ibm_aachen(超導)兩台真實量子處理器上進行了測試。在ibm_aachen上,從1次到1024次測量的全掃描顯示,1024次測量時相對於無噪聲模擬器的均方誤差約為0.085%,與Forte-1的結果(約0.082%)高度一致。這意味著約一千次測量就足以將量子噪聲的影響壓低到千分之一以內,兩台不同技術路線的設備均驗證了這一結論。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新