宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

當你換個方式「描述」同一張表格,AI檢索系統竟然找不到它了——來自倫斯勒理工學院與亞利桑那州立大學的修複方案

2026年05月05日 首頁 » 熱門科技

這項由倫斯勒理工學院電腦科學系與亞利桑那州立大學電腦科學系聯合開展的研究,於2026年4月27日以預印本形式發布在arXiv平台,編號為arXiv:2604.24040v1,研究方向歸屬於電腦科學的自然語言處理領域(cs.CL)。感興趣的讀者可以直接在arXiv平台通過上述編號查閱完整論文。

一、格式不同,AI就"認不出"同一張表格了?

先從一個讓人頭疼的現實場景說起。你有一個裝滿表格的資料庫——裡面可能是銷售記錄、人口統計數據、體育賽事成績,總之是那種行列整齊的結構化數據。現在你想讓AI幫你檢索:給定一個問題,讓系統自動從數千張表格中找到最相關的那一張。聽起來很簡單對吧?

然而問題來了:同一張表格,用CSV格式儲存(用逗號分隔每個數值),或者用HTML格式儲存(就是網頁里那種帶標籤的表格),或者用Markdown格式儲存(一種寫文檔常用的格式),AI系統給出的檢索結果可能截然不同。明明表格里的數據一個字都沒變,僅僅是"包裝方式"換了,系統就可能找到它,也可能找不到。

這就好像一個圖書管理員記住了你的臉,但當你換了件衣服再來,他竟然說從沒見過你。這個比喻貫穿這項研究的核心:表格的"衣服"(序列化格式)和表格的"本人"(實際內容)應該是兩回事,但現有的AI檢索系統顯然沒能做到這一點。

這項研究的任務,正是揭示這個問題有多嚴重,並給出一套切實可行的解決方案。

二、讓AI讀懂表格:一道必須跨越的門檻

要理解為什麼會出現這種"換件衣服就認不出"的問題,需要先了解AI系統讀取資訊的方式。

現代AI語言模型,無論是用於問答還是檢索,都被設計成處理一維的文字序列——就像讀一行一行的文字。而表格本質上是二維的:它有行,有列,有表頭,有單元格,行與列之間存在特定的關聯關係。把一個二維的表格"壓平"成一維的文字序列,是讓AI能讀懂表格的必要步驟,這個過程叫做"序列化"(Serialization)。

序列化的方式有很多種。CSV格式會寫成"姓名,年齡,城市"然後每行一條記錄;HTML格式會用各種標籤把表格結構標註出來;Markdown格式用豎線和橫線畫出表格;DDL格式則用資料庫建表語句來描述表格結構;還有JSON、XML、TSV等等。這些格式所包含的底層資訊完全一樣,但"寫法"天差地別。

研究團隊發現,當他們把同一張表格用不同格式餵給AI檢索系統時,系統在內部產生的"理解向量"(可以理解為系統對這張表格的抽象理解,是一串數字)差異非常大,大到足以影響檢索結果。他們用一個形象的數學表達來描述這個現象:對於同一張表格T,每種序列化方式s都會產生一個向量zs(T),而這些向量在高維空間中分布得相當分散,儘管它們本應代表同一個語義內容。

三、問題究竟有多嚴重?三個真實數據集上的測試結果

為了量化這個問題,研究團隊在三個真實的表格問答數據集上進行了系統測試。

第一個是WikiTableQuestions(簡稱WTQ),包含來自維基百科的4200個問題和2044張表格,表格結構比較複雜,有多行表頭和不規則格式。第二個是WikiSQL,包含15878個問題和5069張表格,這些表格相對簡單整潔,問題的措辭也和表格內容比較接近。第三個是NQ-Tables,包含966個問題,但有多達169898張候選表格,問題的自然語言表述與表格內容之間的詞彙差距最大,是三個數據集裡最難的。

測試使用了四種不同的AI檢索模型:MPNet(一種通用型文本檢索模型)、BGE-M3(一種多語言多功能檢索模型)、ReasonIR(專門為推理密集型搜索優化的模型)、以及SPLADE(一種稀疏詞彙檢索模型,工作方式與前三種有根本性的不同)。

序列化格式方面,研究團隊測試了足足17種不同的表示方法,涵蓋了從簡單的CSV到複雜的XML,從數據定義語言DDL到打亂行列順序的變體,以及強調錶格結構元數據的mschema、macschema等格式。

結果觸目驚心。以MPNet在WTQ數據集上的表現為例,最好格式(pipe或tsv)的Recall@1(即檢索第一名就命中正確表格的比例)達到0.25,而最差格式(html)只有0.09,差距接近三倍。在NQ-Tables上,由於問題措辭和表格內容之間本來就存在較大的詞彙鴻溝,格式帶來的影響更加放大——MPNet在mschema格式上的成績低至0.01,而在csv格式上可以達到0.28,相差近30倍。SPLADE模型在WikiSQL上的最好格式(tsv)得到0.52,最差格式(json)只有0.35。這些數字說明,序列化格式根本不是什麼細枝末節的技術選擇,而是直接決定檢索系統能否正常工作的關鍵變量。

四、穿透格式的迷霧:用"平均值"找到表格的真正面貌

面對這個問題,研究團隊提出了一個優雅的解決思路。核心想法是這樣的:既然同一張表格的不同格式都帶有相同的語義內容,那麼把所有格式產生的向量取平均,就能消除各自帶來的"格式噪聲",留下真正共同的語義信號。

用那個換衣服的比喻來說:你穿西裝、穿運動服、穿大衣,每次照鏡子的樣子都不同,但如果把所有這些照片的像素取平均,那些只屬於某件衣服的特徵就會互相抵消,剩下的才是你這個人最本質的輪廓。

這個"平均向量"被稱為"質心"(Centroid)。研究團隊從數學上嚴格證明了質心的兩個重要性質。其一,質心是所有序列化格式向量中,距離所有格式向量之和最小的那個點——也就是說,它在幾何意義上是最"居中"的代表,與所有格式的距離之和最短。其二,如果每種格式引入的"偏差向量"在不同表格上方向各異、互相抵消,那麼取平均後這些偏差就會趨近於零,質心就會接近表格真正的語義信號。

當然,這個第二個性質有一個前提條件:格式引入的偏差必須因表格內容的不同而有所不同,而不是對每張表格都產生完全相同的方向偏移。研究團隊也誠實地指出了這個前提不一定總是成立的情況——比如mschema、macschema這類強調資料庫結構元數據的格式,以及html、latex這類標籤繁重的格式,會對幾乎所有表格都產生類似方向的偏移,這種"格式專屬偏移"就無法通過取平均來消除。

為了驗證這一點,研究團隊專門設計了一套分析方法,把每種格式的偏差向量分解成兩部分:一部分是對所有表格都一樣的"格式固定偏移",另一部分是隨表格內容變化的"表格相關偏差"。他們發現,對於MPNet模型,mschema和macschema的格式固定偏移遠遠大於表格相關偏差,兩者的比值約為1.45到1.59,這意味著對這些格式取平均並不能有效消除偏差。而像shuffled_rows(打亂行順序)和shuffled_cols(打亂列順序)這樣的格式,格式固定偏移明顯小於表格相關偏差,取平均效果就很好。SPLADE模型更是一個極端案例——在它的表示空間中,每一種格式都有巨大的固定偏移,完全不滿足取平均消除偏差的條件。

研究團隊還設計了不同組合的質心:只取csv、tsv等常用數據格式的平均(CENTROID_DATA)、只取打亂行列順序等結構變換格式的平均(CENTROID_STRUCTURAL)、只取流行的通用格式的平均(CENTROID_POPULAR)、只取mschema等模式定義格式的平均(CENTROID_SCHEMA),以及把所有17種格式全部取平均(CENTROID_ALL)。

五、質心真的更好用嗎?大規模排名對比說話

為了直接驗證質心是否真的比任何單一格式都更好用,研究團隊進行了一次大規模的"格式擂台賽"。對於每一對格式,他們統計在所有問題上,哪個格式的檢索排名更靠前,最終得出一個格式之間的強弱排序矩陣。

結果非常清晰:質心類表示一致占據排名矩陣的頂部,其中CENTROID_ALL綜合表現最佳,其次是CENTROID_DATA和CENTROID_POPULAR等變體。質心類格式對markup標籤繁重的格式(如html、json)以及打亂順序的格式(如shuffled_rows)優勢尤為明顯。在單一非質心格式中,TSV表現最為穩定,但在綜合排名上仍然落後於最好的質心構型。

他們還用了統計學中的Wilcoxon符號秩檢驗(一種專門用於比較兩組數據誰更優的檢驗方法),並用Benjamini-Hochberg方法校正了多重比較的誤差,結論是:質心對那些較弱的單一格式的優勢具有統計顯著性,不是偶然現象。

六、但質心太貴了——一個輕量級的"模擬質心"替代方案

質心的方法雖然好,但代價高昂:要對同一張表格編碼17種不同格式,儲存17個向量,檢索時要麼儲存質心要麼實時計算,這對大規模資料庫來說完全不現實。設想一個資料庫有十萬張表格,每張表格要跑17次編碼,相比原來開銷增加了17倍。

於是研究團隊的第二個貢獻就來了:他們訓練了一個輕量級的"適配器"(Adapter),讓它學會把任意單一格式的向量"校正"到接近質心的位置,從而在不增加推理成本的前提下近似實現質心的效果。

這個適配器的結構很聰明。它接收一個格式特定的向量,先通過層歸一化讓數值穩定,然後用一個"瓶頸結構"——先把向量壓縮到更低維度,經過激活函數處理,再恢復回原來維度——計算出一個"校正量"。這個校正量通過殘差連接(直接加到原始向量上)的方式修改原始向量,並且有一個很小的縮放係數α(取值0.01),確保修改幅度很小,不會大幅改變原始表示。用一句話描述:這個適配器就像給原始向量做一個微小但方向精準的"推動",讓它更靠近質心所在的位置。

瓶頸結構的維度設置為512,遠小於原始向量的維度,這保證了適配器的參數量很少。原始的檢索模型(編碼器)完全凍結,不參與訓練,整個訓練過程只更新適配器的參數。

七、訓練目標:四個相互配合的約束

單純讓適配後的向量接近質心並不夠——如果把所有向量都推到同一個點,檢索系統就徹底失效了,因為所有表格都變得不可區分。研究團隊從VICReg(一種自監督學習方法)借鑑了靈感,設計了四個相互制衡的訓練目標。

核心目標是"不變性損失"(Invariance Loss):對同一張表格的不同格式向量,適配後的結果應該彼此接近,都收斂到該表格的質心。這是讓系統對格式不敏感的直接推動力。

但如果只有這一項約束,系統可能把所有表格的向量都推到同一個點。"方差損失"(Variance Loss)的作用就是防止這種崩塌:它要求適配後的向量在每個維度上都保持一定的分散程度,就像確保不同表格之間仍然保持距離。

與此同時,不同維度之間的相關性也不能太強,否則有效資訊量就會減少。"協方差損失"(Covariance Loss)負責懲罰維度之間的冗餘,鼓勵每個維度攜帶獨立的資訊。

最後還有"身份損失"(Identity Loss):它要求適配後的向量和原始向量之間的餘弦相似度儘可能高,防止適配器把向量推離原始檢索模型所建立的語義空間,因為查詢(Question)端仍然用原始凍結的編碼器,文檔(Table)端向量跑太遠了兩者就沒法配對了。

這四個損失函數各有權重:不變性損失和身份損失權重最高(都是100),方差損失權重居中(25),協方差損失權重最小(1)。訓練曲線顯示,不變性損失在訓練初期快速下降,說明適配器很快就學會了把不同格式推向質心;與此同時,餘弦相似度保持在較高水平,說明原始語義空間得到了保留;方差損失基本穩定,說明表示沒有崩塌。

八、適配器效果如何?好消息和壞消息並存

適配器的實際效果體現在兩個層面:降低對格式的敏感性,以及提升最差格式的檢索表現。

先看降低敏感性。對所有模型來說,適配器都明顯縮小了不同格式之間Recall@1的標準差和極差,說明格式選擇的影響確實減弱了。以ReasonIR在WTQ上為例,基礎模型各格式之間的標準差為0.040,使用聯合訓練的適配器後降到0.032,使用子集適配器後降到0.022。對於NQ-Tables,格式敏感性的降低更加顯著,因為那裡原本的格式差異就最大。

再看具體格式的提升。MPNet在WTQ數據集的html格式上,基礎模型Recall@1隻有0.09,使用聯合適配器後上升到0.18,子集適配器也能達到0.17。在WikiSQL的html格式上,從0.11上升到0.17。ReasonIR在WTQ的shuffled_rows格式上,從0.22上升到0.26(聯合)和0.29(子集)。BGE-M3在NQ-Tables的shuffled_rows格式上,從0.12上升到0.17(聯合)。

但這些收益並不是免費的。對於已經表現很好的格式,適配器有時會帶來輕微的下降。比如ReasonIR在WTQ的xml格式上,基礎模型得到0.37,聯合適配器和子集適配器各降了0.01。對於MPNet,在NQ-Tables的csv格式(原本是最好格式之一,得分0.28)上,聯合適配器反而下降到0.22,子集適配器降到0.25。研究團隊對此的解釋是:適配器的不變性損失會把格式向量用力推向質心,當某個格式原本就離質心很近時,這種推力會造成過度校正。

SPLADE模型是一個系統性的失敗案例。聯合適配器讓SPLADE在WTQ的tsv格式上從0.44下降到0.39,在NQ-Tables的csv格式上從0.33暴跌到0.16。研究團隊認為,根本原因在於SPLADE的工作方式與前三種模型截然不同:SPLADE產生的是高維稀疏向量,大多數維度接近零,只有少數維度有顯著數值,依靠這些少數維度來匹配詞彙信號。而適配器的瓶頸MLP結構會在維度之間做混合和變換,不可避免地把稀疏向量稠密化,破壞了SPLADE賴以工作的稀疏結構。這就像你試圖用處理連續信號的方法去修正一個摩爾斯電碼——修著修著就把信號本身破壞了。

九、遷移到未見過的數據集——子集適配器的驚喜

研究團隊還做了一個有實際意義的實驗:用WTQ和WikiSQL的數據訓練適配器,然後拿去NQ-Tables數據集上測試,檢驗適配器能否遷移到從未見過的數據集。

結果發現,遷移是可能的,但效果因模型而異。對於ReasonIR,子集適配器實際上在NQ-Tables上表現得比聯合適配器更好:它成功把最差格式shuffled_cols從0.08提升到0.11,同時對最好格式ddl(0.31)幾乎沒有影響。對於BGE-M3,聯合適配器在shuffled_rows上有提升,但xml格式有所下降;子集適配器則相對更保守。總體規律是:在產生負面影響的情況下,子集適配器的損害通常比聯合適配器更小,因為在沒有目標數據集樣本的情況下,身份損失的約束相對更強,對已經表現良好的格式的干擾更小。

此外,研究團隊還測試了一種"混合序列化"場景:同一張表格的不同行使用不同的序列化格式(比如第一行是CSV格式,第二行是JSON格式,第三行是HTML格式)。這是一種極端的格式污染情形,基礎檢索模型在這種情況下表現都明顯變差。適配器在這個場景下表現出了良好的魯棒性,在多數密集檢索模型上都有所改善,說明它學到的是某種格式無關的一般性校正能力,而不僅僅是對訓練時見過的特定格式組合的記憶。

具體數據方面:ReasonIR在混合格式WTQ上的Recall@1從基礎模型的0.2774提升到0.3195(聯合)和0.3181(子集),提升幅度約15%;在NQ-Tables上從0.1925提升到0.2422(聯合,+25.8%)和0.2464(子集,+28.0%)。MPNet在WTQ上基本持平(-1.1%),在NQ-Tables上有所下降(-11.3%),SPLADE在NQ-Tables上略有提升(+0.5%聯合,+12.3%子集)。這些結果進一步支持了"適配器提升魯棒性而非普遍性能提升"的結論。

十、這項研究的意義和局限

說到底,這項研究做了三件事:第一,第一次系統性地測量並量化了表格序列化格式對AI檢索系統的影響,用真實數據說明了這個問題不容忽視;第二,從理論和實驗兩個角度證明了質心平均這種方法可以提供更穩健的表格表示;第三,提出了一個實用的輕量級適配器,讓系統在推理時只需要編碼一種格式,就能近似實現質心的效果。

這項工作也坦誠地承認了自己的局限性。適配器的效果是有條件的,對密集檢索模型(MPNet、BGE-M3、ReasonIR)普遍有效,對稀疏檢索模型(SPLADE)則系統性地造成損害。即使對密集檢索模型,適配器也不是對所有格式和數據集都有提升,對已經表現良好的格式有時會造成小幅下降。這意味著這不是一個放之四海而皆準的萬能方案,而是一個在特定條件下有效的工具。

從更宏觀的視角看,這項研究提醒我們:構建AI檢索系統時,數據的"呈現方式"和數據本身一樣重要,或者說,我們不應該假設AI系統能自動忽略語義無關的格式變化。隨著越來越多的生產環境開始用AI系統處理表格數據,格式選擇這個往往被忽略的工程細節,實際上是影響系統穩定性的一個關鍵參數。

當然,歸根結底,這個問題的更徹底解決方案或許在於設計原生支持二維結構的表格編碼器,而不是把二維表格強行壓平後再試圖修復壓平帶來的問題。這或許是未來研究的方向。有興趣深入探討這一課題的讀者,可以通過arXiv編號2604.24040查閱完整論文,代碼、數據集和模型權重也都已開源。

---

Q&A

Q1:表格序列化格式對AI檢索系統影響有多大?

A:影響非常顯著。以MPNet模型在NQ-Tables數據集上的測試為例,同一張表格用mschema格式儲存時Recall@1僅為0.01,而用csv格式儲存時可以達到0.28,差距接近30倍。在WTQ數據集上,html格式和tsv格式之間也有接近三倍的性能差異。這說明序列化格式不是細枝末節的技術問題,而是直接決定檢索系統能否正常工作的關鍵變量。

Q2:質心表示法(Centroid)具體是怎麼計算的?

A:質心表示法是把同一張表格的所有序列化格式分別輸入AI編碼器,得到多個向量,然後對這些向量取算術平均值。例如把CSV、TSV、HTML、Markdown等17種格式的向量加總再除以17,得到的平均向量就是質心。它在數學上被證明是距離所有格式向量之和最小的點,同時在格式引入的偏差方向各異時,取平均可以使這些偏差相互抵消,恢復表格的真實語義信號。

Q3:殘差瓶頸適配器對SPLADE稀疏檢索模型為何不起作用?

A:SPLADE產生的是高維稀疏向量,只有少數維度有顯著數值,依靠這些維度做詞彙匹配。適配器的瓶頸MLP結構會在維度之間做混合變換,不可避免地把稀疏向量稠密化,引入大量低幅度的非零值,破壞了稀疏檢索賴以工作的稀疏結構。此外,對所有格式取平均會把來自不同格式的詞彙信號混合,在稀疏詞彙空間中產生一個語義不清晰的目標向量,比任何單一格式都更難匹配。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新