宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

香港城市大學和阿里巴巴集團聯合出擊:讓AI學會處理模糊不清的問題,一個答案根本不夠用!

2025年11月11日 首頁 » 熱門科技

在我們的日常生活中,很多問題其實並沒有標準答案。比如問"今天天氣怎麼樣?",有人可能回答"挺好的,陽光明媚",也有人可能說"不錯,微風習習"。這兩個答案都對,只是關注點不同。然而,目前的人工智慧系統在面對這類問題時往往表現得過於"死板"——它們總是試圖找到一個"標準答案",就像考試時只認可標準答案一樣。

最近,由香港城市大學的張鳳機、阿里巴巴集團的牛欣耀、應程陽等研究人員組成的團隊發表了一項突破性研究,這項研究於2025年10月發表在預印本論文平台上,題為"A?SEARCH: AMBIGUITY-AWARE QUESTION ANSWERING WITH REINFORCEMENT LEARNING"。這個研究團隊意識到了AI在處理模糊問題時的局限性,並開發了一個名為A?SEARCH的全新系統來解決這個問題。

這就好比訓練一個新手廚師。傳統的AI就像只會按照固定菜譜做菜的廚師,遇到"做一道好吃的菜"這樣的要求時,它只會做出一種菜。而A?SEARCH就像一個經驗豐富的大廚,面對同樣的要求時,能夠根據不同的理解提供多種選擇——可能是香辣川菜,也可能是清淡粵菜,每一種都很棒。

研究團隊發現了一個令人驚訝的現象:在他們分析的資料庫中,有超過四分之一的問題實際上都有多個合理答案。這意味著我們一直以來對AI的訓練方式可能存在根本性問題——我們總是告訴AI "這個答案是對的,其他都是錯的",但現實世界遠比這複雜得多。

一、發現問題:AI的"獨眼龍"困境

讓我們先來看看傳統AI系統面臨的困境。現在的問答系統就像一個只有一隻眼睛的人,只能從一個角度看問題。當遇到像"伊斯蘭哲學中最具影響力的人物是誰?"這樣的問題時,不同的學者可能會給出不同但都正確的答案。有的會說是阿維森納(Avicenna),因為他被譽為"最偉大的思想家之一";有的會說是穆拉·薩德拉(Mulla Sadra),因為他被認為是"過去四百年中穆斯林世界最重要的哲學家"。

問題在於,現有的AI訓練數據通常只標註一個"正確答案",這就像告訴學生"只有這一種解題方法是對的",忽略了其他同樣有效的方法。當AI在訓練過程中遇到那些提供"非標準答案"的情況時,系統會認為這些答案是錯誤的,從而產生誤導性的學習信號。

研究團隊通過深入分析發現,在MuSiQue這個複雜問答資料庫中,有27.6%的問題都存在多個有效答案。在其他資料庫中,這個比例也相當可觀:2Wiki中有7.2%,而NQ中有19.3%。這意味著我們一直在用一種過於簡化的方式來訓練AI系統。

二、解決方案:A?SEARCH的"全景視角"

面對這個問題,研究團隊開發了A?SEARCH系統。這個名字中的"A?"代表"Ambiguity-Aware",意思是"具備模糊感知能力"。如果把傳統AI比作只會死記硬背的學生,那麼A?SEARCH就像一個會獨立思考的學生,不僅能找到標準答案,還能發現其他同樣合理的解答。

A?SEARCH的工作方式可以用這樣一個比喻來理解:假設你要找到城市裡最好的餐廳。傳統AI會告訴你"XX餐廳是最好的",然後就結束了。而A?SEARCH則會像一個資深美食家,它會先派出多個"美食探員"去不同的地方尋找,然後收集各種資訊,最後告訴你"根據不同的標準,這幾家餐廳都很棒——如果你喜歡川菜,推薦A餐廳;如果偏愛粵菜,B餐廳更合適"。

具體來說,A?SEARCH採用了四個關鍵步驟來發現多個合理答案。第一步是"廣撒網"——系統會讓多個AI模型同時回答同一個問題,就像讓幾個不同背景的專家同時給意見。第二步是"初篩"——過濾掉明顯錯誤或重複的答案。第三步是最關鍵的"驗證"——系統會仔細檢查每個答案是否有足夠的證據支持。第四步是"歸類整理"——將意思相同但表達不同的答案歸為一類。

三、訓練過程:讓AI學會"換位思考"

訓練A?SEARCH就像教會一個學生從多個角度思考問題。傳統的AI訓練方式就像填鴨式教育,只要求學生記住標準答案。而A?SEARCH的訓練過程更像啟發式教育,鼓勵系統探索不同的可能性。

在訓練數據的準備過程中,研究團隊面臨著一個巨大挑戰:如何自動識別那些有多個合理答案的問題?他們設計了一個巧妙的方法,就像組建一個"專家評審團"。這個評審團由多個高性能AI模型組成,包括ReSearch、Search-R1等"明星選手"。每個模型都會對同一個問題給出自己的答案,然後系統會分析這些答案的質量。

為了確保答案的可靠性,研究團隊還設計了一個嚴格的"證據檢查"機制。這就像法庭上的證據審查,每個答案都必須有充分的證據支持才能被接受。他們使用了四個不同的AI"法官"來評估每個答案,只有當大多數"法官"都認為答案有充分證據支持時,這個答案才會被採用。

經過這個嚴格的篩選過程,研究團隊從將近400萬個候選答案中篩選出了約2萬個高質量的多答案樣本。這個過程的嚴格程度可以用這樣一個比例來說明:最終保留的答案只占原始數據的0.5%左右,可見質量控制的嚴格。

四、技術創新:AnsF1獎勵機制的妙用

A?SEARCH的另一個重要創新是採用了一種叫做AnsF1的獎勵機制。如果把AI的學習過程比作培養一個好學生,那麼傳統的獎勵機制就像只獎勵"答對標準答案"的學生,而AnsF1機制則會綜合考慮學生答案的"覆蓋面"和"準確性"。

這個機制的工作原理很有趣。假設一個問題有三個正確答案A、B、C,學生回答了A、B、D三個答案。傳統系統可能會說"你答錯了一個(D是錯的)",主要關注錯誤。而AnsF1機制會更全面地評價:"你答對了兩個(A和B),覆蓋了三分之二的正確答案,雖然多答了一個錯誤答案,但整體表現不錯。"

這種獎勵機制鼓勵AI系統在保證準確性的同時,儘可能發現更多的合理答案。就像鼓勵學生在保證基本正確的前提下,多思考、多探索不同的解題思路。

研究團隊在訓練過程中還引入了一種叫做GRPO(Group Relative Policy Optimization)的高級訓練方法。這就像組織學生進行小組學習,讓系統通過比較不同答案的質量來不斷改進自己的表現。

五、實驗驗證:全方位的性能提升

為了驗證A?SEARCH的效果,研究團隊進行了大規模的實驗測試。他們選擇了八個不同的問答資料庫進行測試,就像讓一個學生參加多個不同科目的考試,全面檢驗其能力。

測試結果令人印象深刻。在複雜的多步推理問題上,A?SEARCH-7B版本(擁有70億參數的模型)僅用一次回答就達到了48.4%的平均得分,而需要多次嘗試的傳統方法ReSearch-32B(擁有320億參數)的得分只有46.2%。這就像一個七年級學生一次性解決了問題,而一個高中生需要多次嘗試才能達到相似的效果。

更令人驚喜的是,即使是較小規模的A?SEARCH-3B版本(擁有30億參數),也能達到43.1%的得分,表現相當出色。這證明了A?SEARCH的方法不僅有效,而且效率很高,不需要巨大的計算資源就能獲得好結果。

在專門測試模糊問題處理能力的AmbigQA資料庫上,A?SEARCH的表現更是出色。雖然它沒有專門在這個資料庫上進行訓練,但卻超越了那些專門針對該資料庫優化的系統。這就像一個從沒專門練習過某種題型的學生,卻在考試中表現得比那些專門訓練過的學生還要好。

六、實際案例:看A?SEARCH如何處理複雜問題

讓我們看幾個A?SEARCH處理實際問題的例子,來更好地理解它的能力。

當面對"誰說伊斯蘭哲學中最具影響力的人物是最偉大的思想家之一?"這個問題時,A?SEARCH能夠識別出這個問題存在多重解釋的可能性。它發現喬治·薩頓(George Sarton)曾稱阿維森納為"歷史上最偉大的思想家和醫學學者之一",同時奧利弗·利曼(Oliver Leaman)也認為穆拉·薩德拉是"過去四百年中穆斯林世界最重要的哲學家"。傳統AI可能只會給出其中一個答案,而A?SEARCH能同時提供兩個都有充分證據支持的答案。

另一個有趣的例子是關於地理和歷史的問題:"拿騷的尼古勞斯·威廉王子的母親來自哪個國家?"這個問題的複雜之處在於歷史的變遷。A?SEARCH發現,從嚴格的歷史角度看,答案是"符騰堡",因為當時符騰堡還是一個獨立的王國。但從現代地理角度看,答案是"德國",因為符騰堡後來併入了德國。傳統AI會被訓練成只認可其中一個答案,而A?SEARCH能夠理解並提供兩個都合理的答案。

這些例子展示了A?SEARCH的核心優勢:它不是簡單地增加答案數量,而是真正理解了問題的多面性,能夠提供有意義的、經過驗證的多重視角。

七、技術細節:讓普通人也能理解的工作原理

雖然A?SEARCH的底層技術很複雜,但其核心思想可以用一個簡單的類比來理解。想像你是一個圖書館管理員,需要幫助讀者找到關於某個話題的最佳資料。

傳統的AI就像一個只記得一本"標準教科書"的管理員,無論讀者問什麼,都只推薦那一本書。而A?SEARCH則像一個經驗豐富的管理員,會根據讀者的具體需求,從多個角度推薦相關資料。如果讀者問的是一個可能有多種理解的話題,這個管理員會說:"根據你的問題,我推薦這幾本書,因為它們從不同角度都很好地回答了你的問題。"

在技術實現上,A?SEARCH使用了強化學習的方法,這就像通過不斷練習來提升技能。系統會生成很多可能的答案,然後通過反饋機制學習哪些答案更好。這個過程就像學習騎自行車,通過不斷嘗試和調整,最終掌握平衡技巧。

系統還使用了一種叫做"軌跡採樣"的技術。這就像派出多個探險隊去探索同一個未知區域,每個探險隊可能會發現不同的路徑和景觀,最後匯總所有發現,得到對這個區域的全面了解。

八、未來影響:改變我們與AI互動的方式

A?SEARCH的意義遠遠超出了技術層面的改進。它可能會從根本上改變我們與AI系統的互動方式。

在教育領域,這種技術能夠幫助開發更好的智能輔導系統。當學生提出一個開放性問題時,系統不會簡單地給出一個標準答案,而是會像一位經驗豐富的老師一樣,提供多個角度的解釋和理解。這種方式更符合真正的學習過程,有助於培養學生的批判性思維。

在客戶服務方面,這種技術能夠讓AI助手更好地理解客戶的多樣化需求。當客戶詢問"如何解決這個問題"時,系統能夠提供多種可能的解決方案,而不是機械地給出單一回復。

對於研究和知識工作者來說,A?SEARCH類型的系統能夠成為更好的研究助手。它不會局限於單一的觀點或方法,而是能夠從多個角度分析問題,為用戶提供更全面的資訊和見解。

更重要的是,這種技術認識到了現實世界的複雜性和多樣性。很多重要的問題確實沒有唯一的"正確答案",而需要從多個維度去理解和回應。A?SEARCH代表了AI系統向更加nuanced和智能的方向發展。

九、挑戰與限制:技術發展的現實考量

當然,A?SEARCH也面臨一些挑戰和限制。首先是計算成本的問題。生成和驗證多個答案需要更多的計算資源,這就像同時僱傭多個顧問而不是一個顧問,成本自然會增加。

另一個挑戰是如何平衡答案的數量和質量。提供太多答案可能會讓用戶感到困惑,就像在餐廳面對過多選擇時的"選擇困難症"。系統需要學會在提供全面資訊和保持簡潔易懂之間找到平衡。

還有一個重要問題是如何確保所提供的多個答案都是真正有價值的,而不是為了多樣性而多樣性。這需要系統具備很強的判斷能力,能夠區分真正的多元觀點和無意義的重複或錯誤資訊。

此外,不同文化和背景的人對同一個問題可能有不同的理解框架,如何讓系統能夠識別並尊重這些差異,也是一個需要持續關注的問題。

十、研究方法的創新:自動化發現多重真相

A?SEARCH最令人印象深刻的創新之一是它完全自動化的多答案發現機制。傳統的方法需要人工標註專家花費大量時間來識別和標記哪些問題有多個正確答案,這個過程既昂貴又耗時。

研究團隊設計的自動化流程就像建立了一條"答案檢驗的生產線"。這條生產線的第一站是"答案收集站",多個AI模型simultaneously工作,每個都對同一問題提供自己的見解。第二站是"質量篩選站",自動過濾掉明顯不合理或重複的答案。第三站是"證據驗證站",這裡最多可以有四個AI"審查員"同時工作,仔細檢查每個答案是否有充分的證據支持。最後一站是"分類整合站",將語義相同但表達不同的答案合併。

這個自動化過程的效率驚人。從最初的近400萬個候選答案中,經過層層篩選,最終保留了約2萬個高質量的多答案樣本。這意味著系統能夠以99.5%的精度過濾掉低質量內容,同時保留真正有價值的多元化觀點。

研究團隊還發現了一個有趣的現象:不同類型的問題具有不同的"模糊性傾向"。複雜的多步推理問題(如MuSiQue資料庫中的問題)有27.6%存在多個合理答案,而相對簡單的問題這個比例較低。這個發現幫助我們理解了現實世界問題的複雜性分布,為未來的AI系統設計提供了重要參考。

說到底,A?SEARCH代表了人工智慧發展的一個重要轉折點。它不再滿足於找到"一個正確答案",而是努力理解問題的多面性,就像從"獨眼龍"進化成了"複眼昆蟲",能夠同時從多個角度觀察和理解世界。

這種技術進步的意義在於,它讓AI系統變得更加貼近人類思維的複雜性。在現實生活中,很多重要問題確實沒有標準答案,需要我們從多個角度去思考和理解。A?SEARCH的出現,標誌著AI系統正在從簡單的"問答機器"向真正的"智能思考夥伴"轉變。

對於普通用戶來說,這意味著未來的AI助手會變得更加實用和智能。它們不會再給出生硬的標準回復,而是能夠理解問題的複雜性,提供更加全面和有用的建議。這種轉變將讓人工智慧真正成為我們思考和決策過程中的有力助手,而不僅僅是資訊查詢工具。

當然,這項技術還處於發展初期,距離廣泛應用還有一段路要走。但是A?SEARCH的成功展示了一種新的可能性:AI系統可以學會處理現實世界的複雜性和模糊性,這為構建更加智能、更加有用的人工智慧系統開闢了新的道路。研究團隊已經將相關代碼和數據公開發布,有興趣的研究者可以通過GitHub平台訪問完整的技術實現,這將有助於推動整個領域的進步。

Q&A

Q1:A?SEARCH和傳統AI問答系統有什麼不同?

A:傳統AI問答系統就像只會死記硬背標準答案的學生,每個問題只給一個答案。而A?SEARCH更像會獨立思考的學生,能識別出一個問題可能有多個合理答案,並同時提供這些答案。比如問"最具影響力的伊斯蘭哲學家是誰?",傳統系統只會說一個名字,A?SEARCH會同時提到阿維森納和穆拉·薩德拉,因為不同學者對此有不同但都合理的觀點。

Q2:A?SEARCH是如何自動發現多個正確答案的?

A:A?SEARCH採用四步自動化流程,就像建立了一條答案檢驗的生產線。首先讓多個AI模型同時回答問題,收集不同觀點;然後過濾明顯錯誤的答案;接著用四個AI"審查員"檢查每個答案是否有充分證據支持;最後將意思相同但表達不同的答案歸類整合。這個過程能從400萬候選答案中篩選出2萬個高質量的多元化答案。

Q3:A?SEARCH的技術優勢體現在哪裡?

A:A?SEARCH的最大優勢是效率和準確性的平衡。它僅用一次回答就能達到傳統方法多次嘗試的效果,70億參數的A?SEARCH-7B版本得分48.4%,超越了需要多次嘗試的320億參數ReSearch-32B的46.2%得分。而且它採用了AnsF1獎勵機制,既鼓勵發現更多正確答案,又保證答案質量,讓AI學會在準確性和全面性之間找到最佳平衡。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新