宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

HANRAG:讓AI問答更聰明的新武器——螞蟻集團重磅發布多跳問答「大腦」

2025年09月26日 首頁 » 熱門科技

這項由螞蟻集團杭州研發團隊完成的突破性研究於2025年9月發表在計算語言學頂級會議上,論文題為《HANRAG: Heuristic Accurate Noise-resistant Retrieval-Augmented Generation for Multi-hop Question Answering》。感興趣的讀者可以通過arXiv:2509.09713v1訪問完整論文,了解這項被譽為新一代智能問答系統的技術細節。

當你問AI"誰是美國第一任總統的妻子的父親"這樣的問題時,它需要像偵探一樣分步推理:先找出第一任總統是誰,再查出他妻子是誰,最後確定她父親的身份。然而,現有的AI問答系統在處理這類需要"跳躍思維"的複雜問題時,就像一個初學偵探,要麼在錯誤線索上浪費時間,要麼被無關資訊誤導,很難給出準確答案。

螞蟻集團的研究團隊發現了這個問題的根源,並開發出一套名為HANRAG的全新解決方案。這套系統就像為AI配備了一個經驗豐富的"案件分析師",能夠智能判斷問題類型,合理規劃解答路徑,同時過濾掉干擾資訊,讓AI的推理過程變得更加高效準確。更重要的是,HANRAG不僅在複雜的多步推理問題上表現出色,在簡單的單步問答任務中也展現出了顯著的性能提升。

這項研究的核心創新在於設計了一個叫做"Revelator"的智能調度模塊,它就像一個聰明的交通指揮員,能夠根據問題的複雜程度將其引導到最合適的處理流程。對於需要並行處理的複合問題,系統會同時啟動多個搜索任務;對於需要逐步推理的複雜問題,則會按序進行深度分析。同時,系統還具備強大的"噪音過濾"能力,能夠自動識別和排除那些看似相關但實際無用的資訊,確保推理過程不被誤導。

一、AI問答的"多跳"挑戰:像偵探一樣思考

當我們人類回答覆雜問題時,大腦會自動進行分層思考。比如有人問你"《哈利·波特》作者的出生國家的首都是哪裡",你的思維過程是這樣的:首先想到作者是J.K.羅琳,然後記起她是英國人,最後得出答案是倫敦。這種需要多個步驟、每一步的答案都為下一步提供線索的推理過程,就是研究人員所說的"多跳問答"。

傳統的AI問答系統在處理這類問題時遇到了三個主要障礙。第一個障礙是過度依賴"試錯法"。就像一個沒有經驗的新手偵探,系統會機械地進行多輪資訊搜索,即使面對本來可以並行處理的簡單問題組合,也要一步步慢慢來,大大浪費了計算資源和時間。

第二個障礙是"問錯問題"。許多現有系統在搜索資訊時,會直接使用用戶的原始問題作為搜索詞。這就好比你想找"倫敦天氣",卻在搜尋引擎里輸入"《哈利·波特》作者的出生國家的首都的天氣如何",結果可想而知。正確的做法應該是先搜索作者資訊,再根據得到的結果調整搜索策略。

第三個障礙是"資訊噪音積累"。在多輪搜索過程中,系統會收集到大量資訊,其中既有有用的,也有無關的。就像一個雜亂無章的案卷,如果不及時整理和篩選,無關資訊會越積越多,最終干擾系統的判斷,導致錯誤的結論。

螞蟻集團的研究團隊深入分析了這些問題的本質,發現關鍵在於缺乏一個智能的"案情分析"機制。現有系統就像只會按固定流程辦事的機器,無法根據問題的具體特點靈活調整策略。因此,他們決定為AI系統配備一個更聰明的"大腦",讓它能夠像經驗豐富的偵探那樣,根據案件性質選擇最合適的調查方法。

二、Revelator:AI問答系統的智慧大腦

HANRAG系統的核心是一個名為"Revelator"的智能模塊,它就像一位經驗豐富的首席偵探,負責統籌整個問答過程。這個模塊的設計理念很簡單:不同類型的問題需要不同的解決策略,就像不同類型的案件需要不同的調查方法一樣。

Revelator首先會對接收到的問題進行"案件分類"。它能夠識別四種不同類型的問題:直接問題、單步搜索問題、複合問題和複雜問題。直接問題就像詢問"你好嗎"這樣的簡單對話,AI可以直接從已有知識中回答,無需額外搜索。單步搜索問題需要查詢一次外部資訊,比如"今天北京的天氣如何"。

複合問題則像是幾個獨立問題的組合,比如"劉翔何時出生,何時退役",雖然包含多個子問題,但這些子問題之間相互獨立,可以並行處理。複雜問題則需要逐步推理,每一步的答案都是下一步的前提,就像開頭提到的"美國第一任總統的妻子的父親"這類問題。

針對不同類型的問題,Revelator會啟動不同的處理流程。對於直接問題,系統會繞過搜索環節,直接生成答案,節約時間和計算資源。對於單步搜索問題,系統會啟動標準的搜索-回答流程。

對於複合問題,Revelator展現出了其最大的優勢之一:並行處理能力。它會將複合問題分解為多個獨立的子問題,然後同時啟動多個搜索任務。這就像派遣多個偵探同時調查不同線索,而不是讓一個人按順序處理所有事情。比如面對"劉翔的出生年份和退役年份"這個問題,系統會同時搜索劉翔的出生資訊和退役資訊,然後將結果整合成最終答案。

對於複雜問題,Revelator則會啟動逐步推理模式。它會先從原始問題中提取出第一個需要回答的"種子問題",比如從"美國第一任總統的妻子的父親"中提取出"美國第一任總統是誰"。得到答案後,系統會根據這個答案生成下一個種子問題,如此循環,直到完全解決原始問題。

三、雙重武器:智能分解與噪音過濾

Revelator的強大之處不僅在於能夠正確分類問題,更在於它具備兩項核心能力:智能分解和噪音過濾。這兩項能力就像偵探工作中的"案情分析"和"證據篩選",缺一不可。

智能分解能力讓系統能夠將複雜問題拆解為更容易處理的子問題。這個過程不是簡單的文字切分,而是需要理解問題的邏輯結構。比如面對"誰接替了納米比亞第一任總統"這樣的問題,系統需要理解這實際上包含兩個有邏輯關係的子問題:先要知道納米比亞第一任總統是誰,然後才能找出誰接替了他。

Revelator會根據問題的邏輯關係,生成合適的"種子問題"。種子問題就像推理鏈條中的關鍵環節,每解決一個種子問題,就為解決下一個問題提供了必要資訊。系統會持續這個過程,直到原始問題得到完整解答。

噪音過濾則是HANRAG的另一項核心技術。在資訊搜索過程中,系統往往會檢索到大量文檔,其中只有一部分真正有用。就像在一堆案卷中尋找關鍵證據,如果不能有效篩選,有用資訊就可能被無關資訊掩蓋。

Revelator配備了專門的"相關性判斷"功能,能夠評估每個檢索到的文檔與當前問題的相關程度。這個過程就像一個經驗豐富的法官,能夠快速判斷哪些證據與案件相關,哪些只是干擾資訊。系統會保留相關度高的文檔,過濾掉無關內容,確保後續的答案生成過程不受干擾。

這種噪音過濾機制在多輪搜索中尤為重要。隨著推理步驟的增加,積累的無關資訊也會越來越多。如果不及時清理,這些"資訊垃圾"會像滾雪球一樣越來越大,最終嚴重影響系統的判斷準確性。通過每輪都進行有效過濾,HANRAG成功避免了這種"噪音累積"問題。

四、訓練數據:為AI大腦提供養分

要讓Revelator變得如此聰明,研究團隊需要為它準備大量高質量的訓練數據,就像為一個偵探提供豐富的案例經驗。這些訓練數據涵蓋了Revelator需要掌握的所有技能:問題分類、問題分解、逐步推理、相關性判斷和結束時機判斷。

對於問題分類訓練,研究團隊收集了四類不同的問題樣本。直接問題來自常識問答數據集,包含約一萬個不需要外部搜索就能回答的問題。單步搜索問題則來自兩個來源:一部分是單跳問答數據集中的問題,另一部分是多跳問答數據集中的子問題,總共五萬個樣本。

複雜問題直接採樣自多跳問答數據集,包含五萬個需要逐步推理的問題。最有趣的是複合問題的構建過程。由於現有數據集中缺乏這類問題,研究團隊開創性地構建了專門的複合問題基準測試集。

這個構建過程頗具創意。研究團隊首先從維基百科中隨機選擇了一萬個實體,然後為每個實體收集相關文檔,使用大語言模型為每個文檔生成問題。接下來,他們將同一實體的多個問題組合成複合問題,形成"實體-文檔-問題-答案"的完整樣本對。最終,他們從中抽取五萬個樣本用於訓練,八千個用於開發,兩千個用於測試。

對於問題分解訓練,系統學習如何將複合問題拆分為獨立的子問題。訓練數據直接使用複合問題及其對應的子問題組合。對於逐步推理訓練,系統學習如何從複雜問題中提取種子問題。訓練數據來自多跳問答數據集中的詳細推理過程,每個推理步驟都被用作種子問題的訓練樣本。

相關性判斷訓練使用"問題-文檔-相關性標籤"的三元組數據。研究團隊使用強大的語言模型對問題和文檔的相關性進行標註,生成大量訓練樣本。結束時機判斷訓練則教會系統何時停止繼續推理。訓練數據同樣來自多跳數據集的推理過程,最後一步被標記為"可以結束",前面的步驟被標記為"需要繼續"。

值得一提的是,研究團隊非常注重數據質量和實驗有效性。他們確保訓練數據和測試數據之間沒有重疊,保證了實驗結果的可靠性。

五、實戰表現:全面超越現有方法

為了驗證HANRAG的實際效果,研究團隊進行了大規模的對比實驗,測試範圍涵蓋了從簡單到複雜的各類問答任務。實驗結果顯示,HANRAG在所有測試中都表現出了顯著優勢,就像一個全能選手在各項比賽中都名列前茅。

在單跳問答測試中,研究團隊使用了三個經典數據集:SQuAD、自然問題和TriviaQA。這些測試就像基礎體能測試,檢驗系統處理簡單問題的能力。HANRAG在這些測試中全面超越了現有的先進方法Adaptive-RAG,在準確率方面分別提升了12.2%、6.83%和20.13%。

更令人印象深刻的是效率提升。HANRAG平均減少了0.13個搜索步驟,這看似微小的改進實際上意義重大。它表明HANRAG的智能路由機制確實有效,能夠準確識別哪些問題不需要複雜的多步搜索,從而節省了大量計算資源。

在多跳複雜問答測試中,HANRAG面對的是真正的挑戰。研究團隊使用了MuSiQue、HotpotQA和2WikiMultihopQA三個具有代表性的數據集。這些數據集包含需要2-4步推理的複雜問題,就像高難度的推理題目。

HANRAG在這些測試中同樣表現出色,平均準確率比Adaptive-RAG提升了6.67%、6.34%和16.17%。更重要的是,它平均減少了0.52個搜索步驟,這意味著HANRAG不僅答案更準確,解題過程也更高效。這種效率提升主要歸功於Revelator的精準判斷能力,它能夠準確決定何時停止進一步搜索,避免了不必要的計算浪費。

最值得關注的是複合問題測試結果。在研究團隊構建的複合問題基準上,HANRAG相比Adaptive-RAG的準確率提升了驚人的19.63%,同時搜索步驟減少了約1.5步。這個結果證明了並行處理策略的巨大優勢。傳統方法需要依次處理複合問題中的每個子問題,而HANRAG可以同時處理,大大提高了效率。

為了進一步驗證結果的可靠性,研究團隊還進行了理想條件測試,即假設問題分類100%準確的情況。即使在這種理想條件下,改進幅度也相對有限,說明HANRAG的問題分類能力已經非常接近理想水平。

六、深度分析:成功的三大關鍵要素

通過詳細的分析實驗,研究團隊揭示了HANRAG成功的三個關鍵要素,就像解開一個精密機器成功運轉的秘密。

第一個要素是精準的問題路由機制。研究團隊構建了專門的測試集來評估Revelator的分類準確性,結果顯示其分類準確率達到了83.93%。這意味著在大多數情況下,系統都能正確判斷問題類型並選擇合適的處理策略。這種準確的"診斷"能力是整個系統高效運行的基礎。

第二個要素是有效的噪音過濾機制。在移除相關性判斷模塊的對比實驗中,系統性能出現了明顯下降,證實了噪音過濾的重要性。研究團隊通過具體案例分析發現,在沒有噪音過濾的情況下,無關文檔會嚴重誤導答案生成過程,導致錯誤結果。

第三個要素是智能的推理控制機制。在移除結束判斷模塊的實驗中,雖然答案質量沒有明顯變化,但搜索步驟增加到了設定的上限4.5步,說明系統失去了自主停止的能力。這種情況下,系統會進行不必要的額外搜索,浪費計算資源。

特別值得注意的是問題精化模塊的重要性。當研究團隊移除這個模塊,直接使用原始問題進行每輪搜索時,系統準確率出現了10%的大幅下降。這個結果強調了"問對問題"的重要性。就像偵探調查案件時需要問對關鍵問題一樣,AI系統也需要在每個推理步驟中提出恰當的查詢,才能獲得有用資訊。

研究團隊還通過具體案例展示了HANRAG的工作原理。在一個關於英國國王的問題中,傳統方法檢索到三個文檔,但其中兩個與問題無關,導致AI生成錯誤答案。而HANRAG通過噪音過濾,只保留了相關文檔,成功生成了正確答案。這個案例生動說明了噪音過濾的實際價值。

七、技術創新:三大突破性貢獻

HANRAG的成功不是偶然的,而是建立在三個重要技術創新基礎上的。這些創新就像三個相互配合的齒輪,共同驅動了整個系統的高效運轉。

第一個創新是首次系統性區分並處理了複合問題和複雜問題。以往的研究往往將所有多跳問題都視為需要逐步推理的複雜問題,採用統一的串行處理策略。HANRAG敏銳地識別出了這兩類問題的本質區別:複合問題的子問題相互獨立,可以並行處理;複雜問題的子問題存在邏輯依賴關係,必須串行處理。

這個區分看似簡單,實際影響深遠。通過為複合問題專門設計並行處理流程,HANRAG實現了顯著的效率提升。這就像區分了"同時做幾件不相關的事"和"按順序做幾件相關的事",選擇了更合適的處理方式。

第二個創新是設計了統一的智能調度架構。Revelator作為系統的"大腦",集成了問題分類、問題分解、逐步推理、噪音過濾和結束判斷等多項功能。這種統一設計避免了多個獨立模塊之間的協調問題,確保了整個系統的一致性和穩定性。

這種設計理念體現了系統工程的智慧。與其讓多個專門模塊各自為政,不如由一個統一的智能模塊統籌全局。這樣既提高了決策的一致性,也簡化了系統維護的複雜度。

第三個創新是提出了完整的噪音管理策略。傳統方法往往忽視了多輪檢索過程中噪音積累的問題,或者採用過於細粒度的過濾方法,影響系統效率。HANRAG採用了文檔級別的相關性判斷,既保證了過濾效果,又維持了處理效率。

這種噪音管理策略的效果在實驗中得到了充分驗證。通過在每個推理步驟中及時清理無關資訊,系統避免了錯誤資訊的累積傳播,確保了推理過程的準確性。

八、實際應用:改變問答系統的未來

HANRAG的技術突破為智能問答系統的實際應用開闢了新的可能性。這些改進不僅體現在技術指標上,更重要的是為用戶帶來了更好的使用體驗。

在搜尋引擎應用中,HANRAG能夠更好地理解用戶的複雜查詢意圖。當用戶輸入包含多個方面的問題時,系統可以智能判斷這些方面是否相互關聯,然後選擇並行或串行的處理策略。這意味著用戶能夠更快地獲得準確、全面的答案。

在智能客服系統中,HANRAG的優勢更加明顯。客戶的諮詢往往涉及多個相關問題,傳統系統可能需要多次交互才能完全解答。而HANRAG可以在一次交互中理解並回答覆雜的複合查詢,顯著提升客戶滿意度。

在教育輔助系統中,HANRAG能夠處理學生提出的複雜學術問題。比如"牛頓第二定律的發現背景和現代應用"這類問題,系統可以同時搜索歷史背景和現代應用資訊,為學生提供全面的學習材料。

特別值得一提的是,HANRAG的噪音過濾能力對提升用戶信任度具有重要意義。在資訊過載的時代,用戶最擔心的是獲得錯誤或無關的資訊。HANRAG通過有效過濾,確保向用戶提供的都是高質量、高相關性的內容,有助於建立用戶對AI系統的信任。

九、未來展望:持續進化的智能問答

儘管HANRAG在當前測試中表現出色,但研究團隊也坦誠地指出了系統的局限性和改進方向。這種科學態度體現了嚴謹的研究精神,也為未來的發展指明了道路。

當前的主要限制在於訓練成本。為了讓Revelator掌握如此多樣的能力,研究團隊需要構建大量的專門訓練數據,這個過程需要相當的時間和計算資源投入。雖然這種投入是值得的,但確實增加了系統部署的門檻。

研究團隊已經在考慮解決方案。未來的研究方向包括開發更輕量級的訓練方法,減少對大規模標註數據的依賴。可能的途徑包括使用更先進的自監督學習技術,或者開發能夠自動生成高質量訓練數據的方法。

另一個有趣的發展方向是擴展HANRAG的應用範圍。當前系統主要針對文本問答,未來可能擴展到多模態問答,處理包含圖像、音頻等不同類型資訊的複雜問題。這將進一步提升系統的實用性和適用範圍。

研究團隊還在探索如何讓系統具備更強的自適應能力。理想的智能問答系統應該能夠根據不同領域和不同用戶的特點,自動調整其處理策略。這需要在現有基礎上進一步增強系統的學習和適應能力。

從更廣闊的視角來看,HANRAG代表了AI系統設計理念的重要轉變:從單一功能的專用工具向多功能的智能代理發展。這種設計理念將為未來的AI系統開發提供重要啟示。

說到底,HANRAG的成功證明了一個重要觀點:真正智能的AI系統不應該只是更強大的計算引擎,更應該是更聰明的思維助手。通過模擬人類解決複雜問題的思維過程——分析問題類型、制定解決策略、篩選相關資訊、控制推理節奏——HANRAG展示了AI系統向真正智能邁進的可能路徑。

對於普通用戶而言,HANRAG的意義在於它讓AI問答變得更加可靠和高效。無論是日常生活中的資訊查詢,還是工作中的專業問題,用戶都可以期待獲得更準確、更全面的答案。這種改進雖然在技術層面複雜,但對用戶來說是透明的——他們只會感受到更好的使用體驗,而不需要了解背後的技術細節。

這項研究的更深層意義在於它為AI系統的未來發展提供了新的思路。通過將多種智能能力整合到一個統一的架構中,HANRAG展示了構建真正智能系統的可能性。這種系統不再是簡單的輸入輸出機器,而是具備分析、規劃、執行和監控能力的智能代理。

有興趣深入了解HANRAG技術細節的讀者,可以訪問完整論文獲取更多資訊,相信這項創新將為智能問答系統的發展開啟新的篇章。

Q&A

Q1:HANRAG是什麼?它比傳統AI問答系統強在哪裡?

A:HANRAG是螞蟻集團開發的新一代智能問答系統,核心優勢在於配備了名為"Revelator"的智能調度模塊。它能根據問題複雜程度智能選擇處理策略:對簡單問題直接回答,對複合問題並行處理,對複雜問題逐步推理,同時還具備強大的噪音過濾能力,確保答案準確性。

Q2:HANRAG如何處理需要多步推理的複雜問題?

A:HANRAG會將複雜問題分解為逐步的"種子問題",就像偵探破案一樣一步步推理。比如回答"美國第一任總統的妻子的父親"時,系統會先問"美國第一任總統是誰",得到答案後再問"他的妻子是誰",最後問"她的父親是誰",每一步的答案都為下一步提供線索。

Q3:HANRAG的噪音過濾功能具體是怎麼工作的?

A:HANRAG在每次搜索後都會評估檢索到的文檔與問題的相關性,就像法官篩選證據一樣。它會自動過濾掉無關內容,只保留真正有用的資訊用於生成答案。這樣既避免了錯誤資訊的干擾,也防止了多輪搜索中無用資訊的積累,確保推理過程準確高效。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新