宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

NYU等校聯手突破:讓AI寫財務分析像配三重保險一樣靠譜

2025年11月11日 首頁 » 熱門科技

當人工智慧開始寫財務分析報告時,會發生什麼?就像讓一個剛學會開車的新手在高速公路上飛馳一樣,看起來很厲害,但經常會"開到溝里去"。這項由紐約大學上海分校的胡天晟、紐約大學的陳釗教授,以及耶魯大學的趙藝倫、阿曼·科漢教授共同完成的研究,發表於2025年10月,專門解決了AI在處理複雜財務問題時經常"胡說八道"的問題。有興趣深入了解的讀者可以通過論文編號arXiv:2510.06426v1查詢完整論文。

現在的大型語言模型就像是一個博學但有時會胡編亂造的助手。當你問它複雜的財務問題時,它能給出聽起來很專業的長篇回答,但仔細一看,裡面的數字計算錯了,引用的資料也不對,甚至有些內容完全是憑空想像出來的。這種現象在學術界被稱為"幻覺",就像人在發燒時會看到不存在的東西一樣。

為了解決這個問題,研究人員通常會給AI的回答加上"出處標註",就像學生寫作業時要標明參考資料一樣。但現有的標註方法太簡單了,只是告訴你"這句話來自哪篇文檔",就像在地圖上只標出了城市名稱,卻沒有標出具體的街道地址。

研究團隊發現,在財務分析這個專業領域裡,僅僅標註文檔出處是遠遠不夠的。財務分析就像做一道複雜的數學應用題,不僅需要找到正確的數據來源,還要展示詳細的計算過程,更要運用專業的財務知識。這就好比一個廚師不僅要說明食材來源,還要展示烹飪步驟,並解釋為什麼要用這種烹飪方法。

基於這種認識,研究團隊創建了一個全新的評測基準FINLFQA,專門用來檢驗AI在財務分析方面的"三重保險"能力。這套評測系統包含了1008個專家精心設計的財務問題,每個問題都要求AI不僅給出正確答案,還要提供三種不同類型的支撐證據,就像法庭審判時需要人證、物證和專家證詞一樣。

一、給AI裝上"三重保險"的新評測體系

傳統的AI評測就像只檢查學生的答案對不對,而FINLFQA更像是要求學生不僅答案正確,還要展示完整的解題過程、引用的公式,以及使用的解題思路。這種"三重保險"的評測方式確保AI的回答不僅聽起來合理,而且經得起專業scrutiny。

第一重保險是"證據支撐"。當AI說某家公司的利潤增長了25%時,它必須明確指出這個數字來自財務報告的第16段。這就像記者寫新聞時必須標明消息來源一樣,讓讀者能夠追溯和驗證資訊的真實性。

第二重保險是"計算過程"。財務分析中充滿了各種計算,比如計算公司的現金流、債務比率或者投資回報率。AI不能只給出最終結果,還必須展示完整的計算代碼,就像數學考試中要求"寫出解題步驟"一樣。這些計算代碼必須能夠實際運行並得出正確結果,確保沒有計算錯誤。

第三重保險是"專業知識引用"。財務分析需要大量專業概念,比如"自由現金流等於經營現金流減去資本支出"這樣的公式。AI必須正確識別和引用這些專業知識,就像醫生診斷時要引用醫學理論一樣。研究團隊為此構建了一個包含一千個財務概念的知識庫,AI需要從中選擇相關的概念來支撐自己的分析。

這套評測體系的設計非常巧妙。研究人員選擇了兩家同行業的公司,獲取它們同一財務季度的報告,然後讓財務專家基於這些真實數據設計問題。這些問題往往需要跨公司比較、整合表格和文本數據、進行時間序列分析,以及計算各種財務指標。例如,一個典型問題可能是"分析CWT和AWK兩家公司在2024年第一季度淨利息支出的變化對其財務策略的影響"。

要回答這樣的問題,AI不僅要從大量財務文檔中找到相關數據,還要進行準確計算,並運用財務理論進行分析。整個過程就像讓AI完成一份專業的財務諮詢報告,要求極高的準確性和專業性。

二、三種不同的AI訓練方式大比拼

研究團隊設計了三種不同的方法來訓練AI完成這種"三重保險"的財務分析,就像比較三種不同的學習方法哪種最有效。

第一種方法叫做"事後補課法"。就像學生先把作業寫完,然後再回過頭來標註參考資料和解題步驟一樣。AI首先根據財務報告和問題生成一個完整的答案,然後在第二階段為這個答案添加證據支撐、計算代碼和專業知識引用。這種方法的優點是思路清晰,先專心回答問題,再專心做標註。

第二種方法叫做"一氣呵成法"。就像要求學生在寫作業的同時就標明每一步的依據和計算過程。AI在生成答案的同時就提供三種類型的支撐證據,所有內容在一次輸出中完成。這種方法更加高效,也確保了答案和支撐證據之間的一致性。

第三種方法叫做"反覆打磨法"。就像寫論文時要經過多輪修改和完善一樣。AI首先生成一個初始版本的答案,然後對這個答案進行自我評估和改進,包括檢查計算結果、驗證證據支撐、確認專業知識使用是否恰當等。這個過程會持續多輪,直到AI認為答案已經足夠完善,或者達到預設的最大疊代次數。

在"反覆打磨法"中,AI會像一個嚴格的老師一樣檢查自己的作業。它會驗證四個方面:首先檢查答案是否完整回答了問題;其次確保每個聲明都有財務報告的支撐;再次驗證計算結果是否與代碼輸出一致;最後檢查引用的專業知識是否相關和正確。如果發現問題,AI會生成具體的改進建議,然後據此修改答案。

有趣的是,研究團隊還測試了不同的"打磨"方式。有時讓AI完全依靠自己的判斷進行改進,有時則引入外部的"專業顧問"來提供修改建議。就像學生可以自己檢查作業,也可以請老師或者學霸同學幫忙檢查一樣。

三、八個AI"學生"的考試表現大揭秘

研究團隊選擇了八個不同的大型語言模型進行測試,就像讓八個不同水平的學生參加同一場考試。這些"學生"包括了目前最先進的GPT-4o、以及一些優秀的開源模型如Qwen2.5-72B、Llama-3.3-70B等,還有一些相對較小的模型作為對比。

測試結果就像期末考試的成績單一樣有趣。GPT-4o不出意外地成為了"班級第一",在15分滿分的評測中獲得了13.7分。它在數字計算方面表現尤其出色,就像一個數學天賦很高的學生,能夠準確處理複雜的財務計算。具體來說,在數字匹配的準確性方面,GPT-4o的精確度達到37.9%,召回率達到58.0%,F1分數為42.3%。

令人欣喜的是,一些開源模型的表現也相當不錯。Qwen2.5-72B獲得了13.0分,緊追GPT-4o的步伐,就像班級里的第二名學生,實力不容小覷。Llama-3.3-70B也表現穩定,在多個維度上都顯示出了競爭力,特別是在證據引用方面表現優秀。

更有趣的是不同訓練方法的對比結果。"事後補課法"和"一氣呵成法"的表現幾乎不相上下,這說明對於目前的先進AI模型來說,無論是分步完成還是一次性完成,都能達到類似的效果。這就像有些學生喜歡先寫完作業再檢查,有些學生喜歡邊寫邊檢查,只要方法得當,最終效果差不多。

然而,"反覆打磨法"的結果讓人意外。當AI只是自己跟自己較勁,反覆修改答案時,並沒有帶來明顯的改進,有時甚至會越改越糟。這就像學生過度糾結一道題目,反而可能把原本正確的答案改錯了。但是,當引入外部的"專業指導"時,情況就大不相同了。

研究團隊發現,外部指導的效果很大程度上取決於"老師"的水平。當使用更強大的模型來指導較弱的模型時,效果明顯。例如,讓Llama-3.3-70B來指導Llama-3.2-3B,後者的表現確實有所提升。更有趣的是,當使用專門在財務數據上訓練過的Fino1-8B來指導同等規模的Llama-3.1-8B時,效果非常顯著,這說明專業知識的重要性。

這個發現很像現實中的學習情況:一個學生自己埋頭苦讀可能效果有限,但如果有一個好老師或者學霸同學的指導,進步就會明顯很多。而且,專業老師的指導往往比非專業人士的建議更有價值。

四、AI在財務分析中的五大"翻車"現場

通過仔細分析AI的錯誤表現,研究團隊發現了五種主要的"翻車"類型,就像分析學生考試失分的原因一樣。

最常見的問題是"證據標註混亂",占了所有錯誤的25%。AI經常會引用錯誤的文檔段落,或者遺漏重要的支撐證據,就像學生寫論文時引用了不相關的資料,或者忘記標註重要的參考文獻。有時AI還會出現冗餘引用,明明一個段落就能說明問題,卻要引用好幾個不必要的段落。

第二常見的是"代碼執行失敗",占22%。AI生成的計算代碼經常因為語法錯誤或邏輯問題而無法運行,就像學生在數學考試中寫出了錯誤的計算公式。通過深入分析,研究團隊發現了三種主要的代碼錯誤:46%的錯誤是因為定義了函數卻沒有提供必要的參數,20%是因為執行了計算卻忘記返回結果,16%是因為代碼縮進格式錯誤。

第三類問題是"數字提取和計算錯誤",占20%。這包括從財務報表中提取錯誤的數字、單位換算出錯、以及基本的算術計算失誤。比如AI可能把"百萬美元"誤讀為"千美元",或者在計算百分比時出現捨入錯誤。這就像學生在做應用題時看錯了題目中的數字,或者計算時粗心大意。

第四類是"專業知識驗證錯誤",占15%。AI有時會引用不相關的財務概念,或者在沒有正確理解概念含義的情況下就使用專業術語。比如在分析淨收入數據時,卻引用了關於"淨利潤率"的定義,雖然相關但並不直接適用。這就像學生在回答問題時使用了聽起來很專業但實際不相關的術語。

最後是"流暢性、事實一致性和推理錯誤",占12%。這包括生成錯誤的時間資訊、混淆不同公司的數據、給出缺乏邏輯支撐的結論,甚至完全虛構一些事實。還有一些是格式問題,比如答案過於冗長或者語言不是英文。

通過這些錯誤分析,研究團隊得出了一個重要結論:當前的AI在處理需要精確性的專業任務時,仍然存在明顯的局限性。就像一個聰明但缺乏專業訓練的人,能夠理解大體方向,但在細節處理上還需要更多的改進。

五、數字遊戲中的精確度挑戰

在財務分析中,數字的準確性至關重要,哪怕是小數點後一位的差異都可能導致截然不同的投資決策。研究團隊為此設計了專門的數字準確性評測方法,就像用放大鏡檢查鐘錶的每一個齒輪是否精確吻合。

傳統的文本相似度評測方法,比如常用的ROUGE分數和BERTScore,在這裡就像是用尺子測量時間一樣不合適。這些方法主要關注詞彙的重疊程度和語義相似性,但在財務分析中,即使語義完全正確,數字錯誤也會導致分析結論完全失效。

因此,研究團隊開發了一套更加嚴格的數字評測標準。這套標準不僅要求數字完全準確,還考慮到了現實世界中常見的數字表示方式差異。比如,300萬、3000千、3,000,000這些不同的表示方式應該被認為是等價的。同時,考慮到合理的捨入誤差,如果預測值與真實值的相對誤差在1%以內,也會被認為是正確的。

測試結果顯示,即使是最先進的GPT-4o,在數字準確性方面的表現也只能算是"及格"水平。這就像一個優秀學生在文科方面表現出色,但在精確計算方面還有提升空間。所有模型在處理複雜財務計算時都面臨著相似的挑戰,這說明數字準確性是當前AI技術的一個普遍難點。

有趣的是,那些能夠生成可執行代碼的AI往往在數字準確性方面表現更好。這是因為代碼執行提供了額外的驗證機制,就像學生做數學題時用計算器檢驗答案一樣。當AI生成的代碼能夠成功運行並產生結果時,這個結果通常比直接生成的數字更加可靠。

六、專業知識的智慧運用考驗

財務分析不僅僅是數字遊戲,更需要深厚的專業知識作為支撐。就像一個醫生不僅要會使用醫療設備,還要理解各種醫學理論一樣,AI在做財務分析時也需要正確理解和運用各種財務概念。

研究團隊構建了一個包含一千個財務概念的專業知識庫,涵蓋了從基礎的會計原理到高級的投資分析理論。每個概念都有清晰的定義和應用場景,就像一本財務百科全書。在每個測試問題中,AI需要從這個知識庫中選擇相關的概念來支撐自己的分析。

這種設計模擬了真實的財務分析場景。專業的財務分析師在撰寫報告時,總是會引用相關的財務理論和概念來增強分析的說服力。比如,在分析公司的流動性時,會引用"流動比率"的定義;在評估投資回報時,會運用"淨現值"或"內部收益率"等概念。

測試結果顯示,不同模型在專業知識運用方面存在明顯差異。一些模型能夠準確識別相關概念並恰當引用,而另一些模型則經常出現"張冠李戴"的情況,引用了聽起來相關但實際不適用的概念。這就像學生在考試時使用了錯誤的公式,雖然知道要引用公式,但選擇了錯誤的公式。

更有趣的是,研究團隊發現模型的規模和專業知識運用能力之間並不總是正相關。有些相對較小但專門訓練過的模型,在專業知識運用方面甚至超過了一些更大的通用模型。這說明專業化訓練對於特定領域的應用非常重要,就像專科醫生在自己的領域內往往比全科醫生更專業一樣。

七、自動評測系統的創新設計

評估AI在複雜任務上的表現本身就是一個技術挑戰,就像設計一套全面的考試系統來評估學生的綜合能力。研究團隊為此開發了一套多維度的自動評測系統,不僅能夠快速給出評分,還能提供詳細的能力分析。

這套評測系統的核心是使用另一個AI(GPT-4o)作為"評判員",就像請一位經驗豐富的老師來批改學生的作業。這個"AI評判員"會從三個維度對答案進行評分:答案的準確性、數字計算的正確性、以及證據支撐的充分性。每個維度都是1到5分,總分15分。

為了驗證這種"AI評判員"方法的可靠性,研究團隊進行了一個有趣的對比實驗。他們讓真人財務專家和AI評判員同時評估50個樣本答案,然後比較兩者的評分結果。結果顯示,AI評判員與人類專家的評分相關性達到了85.3%,這說明AI確實能夠相對準確地模擬人類專家的判斷標準。

這種方法的優勢在於既保持了評估的專業性,又大大提高了評估效率。人類專家評估一個複雜的財務分析答案可能需要半小時,而AI評判員只需要幾分鐘就能完成同樣的工作。這就像有了一個永不疲勞、標準統一的自動閱卷系統。

除了總體評分,評測系統還提供了豐富的細節分析。比如,它會統計AI引用了多少個正確的證據段落、生成了多少可執行的代碼塊、運用了多少相關的專業概念等。這種細粒度的分析幫助研究人員更好地理解不同模型的優劣勢,就像詳細的體檢報告能夠幫助醫生了解患者的健康狀況。

八、開源模型的逆襲之路

雖然商業化的GPT-4o在總體表現上仍然領先,但開源模型的快速進步令人矚目。這就像看到一群努力的學生正在快速縮小與班級第一名的差距,甚至在某些單項上已經能夠匹敵甚至超越。

Qwen2.5-72B的表現尤其令人印象深刻,在多個評測維度上都接近GPT-4o的水平。更重要的是,這個模型完全開源,任何人都可以免費使用和改進,就像一本可以自由傳播和修改的教科書。這種開放性為整個AI研究社區帶來了巨大價值。

Llama-3.3-70B在證據引用方面表現突出,甚至在某些測試中超過了GPT-4o。這說明不同模型可能各有專長,就像不同的學生可能在不同科目上有自己的優勢。Mistral-Small-24B在專業知識運用方面表現最佳,顯示出了專業化訓練的價值。

這種多元化的發展趨勢對整個行業都是利好消息。商業模型雖然在總體性能上仍有優勢,但開源模型在特定領域的突破為用戶提供了更多選擇。就像汽車市場上既有豪華品牌,也有性價比很高的大眾品牌,不同的用戶可以根據自己的需求和預算選擇合適的解決方案。

更重要的是,開源模型的透明性使得研究人員能夠更深入地理解AI的工作原理,並針對性地進行改進。這種開放式的發展模式正在推動整個領域的快速進步,就像開源軟體推動了整個軟體行業的發展一樣。

說到底,這項研究為我們展示了AI在專業領域應用時面臨的真實挑戰和可能的解決方案。就像考駕照不僅要求會開車,還要懂交通規則、能應對突發情況一樣,讓AI勝任專業的財務分析工作需要的不僅僅是語言能力,還需要精確的計算能力、嚴謹的邏輯推理、以及深厚的專業知識。

研究團隊開發的"三重保險"評測體系為這個領域建立了新的標準,就像為AI專業能力認證考試製定了考試大綱。這不僅有助於推動AI技術的改進,也為實際應用提供了重要的參考依據。

對於普通人來說,這項研究的意義在於讓我們更清醒地認識到AI的能力邊界。雖然AI在很多方面已經表現出色,但在需要高度專業性和精確性的領域,我們仍然需要保持謹慎的態度。就像雖然GPS很方便,但在關鍵時刻我們仍然需要具備基本的方向感一樣,AI可以是很好的助手,但重要決策還是需要人類專家的參與和驗證。

隨著技術的不斷進步,我們有理由相信AI在專業領域的表現會越來越好。但這個過程需要像這項研究一樣嚴謹的評測和持續的改進,而不是盲目的樂觀或恐懼。畢竟,任何強大的工具都需要我們學會正確地使用它。

Q&A

Q1:FINLFQA是什麼?它和普通的AI評測有什麼不同?

A:FINLFQA是由紐約大學等院校開發的專門評測AI財務分析能力的基準系統。與普通評測不同,它要求AI提供"三重保險":不僅要給出正確答案,還要標明證據來源、展示計算過程、引用專業知識。就像法庭審判需要人證、物證和專家證詞一樣嚴格。

Q2:為什麼現在的AI在財務分析方面容易出錯?

A:主要有五大問題:證據引用混亂占25%、代碼執行失敗占22%、數字計算錯誤占20%、專業知識誤用占15%、邏輯推理問題占12%。就像一個聰明但缺乏專業訓練的人,雖然能理解大體方向,但在需要精確性的細節處理上還有明顯不足。

Q3:普通人現在能用這種高精度的AI財務分析嗎?

A:目前還不能直接使用,FINLFQA主要是研究工具。但研究顯示開源模型正快速進步,像Qwen2.5-72B已經接近GPT-4o水平。隨著技術發展,未來可能會有基於這些嚴格標準開發的財務分析AI產品,但重要財務決策仍建議諮詢專業人士。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新