這項由中國人民大學高嶺人工智慧學院主導的研究,以預印本形式發布於2026年5月,論文編號為arXiv:2605.29861v1,有興趣深入了解技術細節的讀者可通過該編號查詢完整原文。
當你向AI提問,期待得到一份像諮詢公司那樣圖文並茂的專業研究報告時,你會發現大多數現有AI工具都只能給你一大段白花花的文字。圖在哪裡?數據圖表在哪裡?那些用來說明觀點的截圖和示意圖在哪裡?更關鍵的是,這些AI說的話到底有沒有靠譜的來源?這正是這項研究要解決的核心問題。
研究團隊提出了一套名為PTAH的多智能體系統——名字來自古埃及的創造之神,工匠的守護神,寓意著將散落的文字與視覺素材精心組合為完整作品。這套系統的目標只有一個:從用戶的一句提問出發,最終生成一份可以直接在瀏覽器中閱讀、圖文交織、引用有據可查的網頁版深度研究報告。與此同時,研究團隊還設計了一套配套的評估體系PTAHEval,專門用來衡量這類多模態報告的質量,填補了現有評估工具只能評分文字內容、對圖片視而不見的空白。
---
一、為什麼AI寫報告這件事,比你以為的要難得多
當我們談論"讓AI幫你查資料寫報告"時,腦海中可能浮現的是一個超級高效的助理:它能在幾分鐘內瀏覽數十個網頁,把關鍵資訊提煉出來,再組織成一篇條理清晰的長文。這類系統被研究者稱為"深度研究"(Deep Research),區別於只回答一個具體問題的"深度搜索"(Deep Search)。
深度搜索就像在圖書館查一個詞條——你問"珠穆朗瑪峰有多高",它告訴你"8848.86米",這個答案對不對,一秒鐘就能驗證。而深度研究更像是寫一篇綜述論文:沒有唯一正確答案,需要綜合多方來源,需要判斷哪些資訊重要、哪些相互矛盾,還需要以清晰有說服力的方式呈現出來。
這就帶來了兩個特別棘手的挑戰。第一個挑戰是"沒有標準答案"。深度研究報告不像數學題,對錯一目了然,它的質量很難用一個簡單的指標衡量,而一旦前期收集的資訊出了問題,後續所有內容都會受到污染。第二個挑戰是"圖文配合"。一份真正專業的報告從來不只是文字。它會用趨勢折線圖說明某項技術的發展走勢,用架構示意圖幫讀者理解複雜系統的運作原理,用來自原始文獻的截圖作為論據支撐。然而現有的AI系統大多把圖片當作寫完報告後隨手貼上去的裝飾,與文字內容的關聯很鬆散,甚至會出現配圖和正文說的完全不是同一件事的情況。
研究團隊把這兩個挑戰比作"深度研究面臨的兩道坎",而PTAH的設計思路就是同時跨越這兩道坎。
---
二、PTAH是如何工作的:一個分工明確的多人協作團隊
理解PTAH最直觀的方式,是把它比作一個正在完成諮詢項目的專業團隊。這個團隊裡有項目經理、多名獨立調研員、一名主筆撰稿人,以及一名隨時待命的質控審核員。
團隊的第一步工作由"規劃師(Planner)"完成。規劃師拿到用戶的問題後,不會立刻開始查資料,而是先做前期探索,然後產出一份詳細的"研究計劃書"。這份計劃書不只是列出報告要寫哪些章節,還明確說明了每個章節需要配什麼類型的圖——是需要數據圖表來展示趨勢,還是需要架構圖來解釋原理,還是需要實物截圖來提供佐證。這種把視覺需求寫進計劃書的做法,是PTAH區別於大多數現有系統的重要特徵之一。
計劃書完成後,會經過"審核員(Verifier)"的第一輪檢查。審核員會用兩種方式來判斷這份計劃書夠不夠好:一是機械式的規則檢查,比如格式是否正確、工具調用是否符合規範;二是讓另一個語言模型來判斷這份計劃是否真正覆蓋了用戶問題的方方面面,各章節之間是否邏輯連貫,以及計劃中的視覺需求是否與對應的文字論述相匹配。如果審核不通過,規劃師需要修改甚至重新搜索資料後再提交。
通過審核後,多名"調研員(Researcher)"同時並行工作,每人負責一個章節的深入調研。每位調研員搜索網頁、閱讀資料、整理發現,產出一個結構化的"研究包",裡面包含關鍵發現、支持論據、數據表格、引用來源以及給後續撰稿人的寫作建議。
與此同時,調研員還會系統性地從訪問過的網頁中提取圖片,建立該章節專屬的"視覺工作記憶(Visual Working Memory)"。這個"工作記憶"就像調研員隨手建立的一個圖片素材庫,但不是隨意堆放:每張圖片都跟著自己的來源網址、所屬章節、和在報告中應該扮演的角色一起被儲存起來。同樣,這個素材庫中的圖片在進入下一步之前,也會先經過規則篩選(剔除解析度過低、比例極端、明顯無關的圖片),再由視覺語言模型根據規劃階段設定的圖片需求,進行更細緻的相關性評估,決定留下哪些、去掉哪些。
每個調研員交出的研究包,同樣要經過審核員的審查——這次重點檢查的是引用的URL是否真實有效,數字數據是否前後一致,圖片與章節內容的相關性是否達標。不合格的研究包會被退回給對應的調研員,要求補充或修正。
---
三、從素材到報告:撰稿人如何編織圖文交織的完整作品
調研完成後,"撰稿人(Writer)"拿到的是:一份全局研究計劃、所有章節經過審核的研究包,以及各章節對應的視覺工作記憶素材庫。
撰稿人不是先寫完所有文字,再回頭想"這裡放一張什麼圖好"。而是採用一種"聲明式多模態寫作"的策略:在寫文字內容的同時,就在應該出現圖片的位置嵌入圖片指令標籤,說明這個位置需要什麼樣的圖、圖片的作用是什麼、應該通過什麼方式獲取。
圖片的獲取有三條路徑。優先考慮的是從視覺工作記憶里直接復用調研階段已經收集並篩選過的原始網頁圖片,因為這類圖片本身來自與正文內容直接相關的來源,一致性最高。如果現有素材庫里沒有合適的,則會啟動額外的圖片搜索,從網路檢索相關圖片。如果報告需要的是某種原創性的可視化內容,比如根據數據繪製的趨勢圖,或者解釋某個抽象概念的示意圖,則可以調用代碼執行工具生成圖表,或者調用圖像生成模型來創作插圖。
初稿完成後,PTAH並不急著交差,而是啟動一個叫做"測試時優化(Test-Time Scaling)"的六步精煉流程。第一步是章節精煉,逐章檢查文字的清晰度、證據覆蓋情況和引用準確性。第二步是圖片精煉,對每一張圖片做出"保留、刪除或編輯"的判斷,需要調整的圖片會執行具體的編輯指令。第三步是整體精煉,從全局視角審視各章節之間的一致性,以及圖片與文字在整體上是否協調呼應。第四步是生成HTML文檔,把精煉好的報告轉換成帶有布局和樣式設計的網頁格式。第五步是HTML精煉,進一步調整網頁的排版細節、間距和視覺呈現。第六步是最終渲染,在瀏覽器中生成可以直接閱讀的用戶端多模態報告。
這六步精煉的意義不僅僅是"改改錯別字",更關鍵的是確保最終呈現給用戶的不只是內容正確,還要在視覺上易於閱讀,圖片放置的位置和方式真正服務於理解,而不是堆砌裝飾。
---
四、如何衡量一份圖文報告到底好不好:PTAHEval評估體系
現有的深度研究基準測試,比如DeepResearch Bench和DeepConsult,主要是評估報告的文字質量——內容是否全面、分析是否深入、是否符合指令要求、文字是否流暢。這些維度對於純文字報告完全夠用,但對於圖文交織的多模態報告,卻完全無法評價圖片部分的質量。
PTAHEval的設計思路是在保留原有文字評估維度的基礎上,新增兩個專門針對多模態內容的評估維度。
第一個維度叫"圖片內容質量(ICQ)",評估的是報告裡每一張具體圖片的質量。評估時,將包含圖片和周圍文字的內容一起送入視覺語言模型進行判斷。具體來說,ICQ從四個角度評分:圖片本身是否清晰易讀(視覺清晰度);圖片的語義內容是否與周圍文字一致、放置位置是否合理(跨模態對齊);圖片是否傳遞了文字難以單獨表達的有價值資訊(資訊互補性);圖片是否為正文中的論點或結論提供了佐證(證據支撐性)。每個角度的評分採用1到5分的五級量表。
第二個維度叫"多模態呈現質量(MPQ)",評估的是整份報告渲染成網頁後,讀者實際看到的那個界面的質量。評估時,將報告網頁渲染出來,截取寬1000像素、高2000像素的首屏截圖送入視覺語言模型評分。MPQ同樣從四個角度評估:資訊密度與視覺清晰度的平衡(密度可讀性平衡);關鍵資訊和結構要素是否通過視覺層次感得到有效突出(資訊顯著性);是否使用了表格、圖標、圖表、示意圖等多種視覺形式輔助理解(視覺編碼多樣性);排版間距、視覺節奏、對齊方式是否降低了閱讀負擔(視覺工效)。
這種把"內容對不對"和"呈現好不好"分開評估的思路,讓PTAHEval能夠從多個維度全面衡量一份多模態報告的實際質量。
---
五、實驗結果:PTAH在各項評估中的表現
研究團隊在DeepResearch Bench(100道博士級研究任務,覆蓋22個領域,中英文各50道)和DeepConsult(102道商業諮詢類問題)兩個基準上進行了評測,與多個基線系統進行對比。參與比較的系統包括:直接讓語言模型生成報告(不做任何搜索)、三種單智能體文字搜索系統(ReAct、Search-o1、WebThinker),以及一種能夠生成多模態內容的智能體方法LLM-I。
在文字質量方面,PTAH在DeepResearch Bench上的綜合評分為45.16,是所有參與比較的系統中最高的,在分析深度和報告可讀性兩個維度上尤為突出。在DeepConsult上,PTAH的平均分為16.18,比第二名WebThinker(7.35)高出一倍有餘,在指令遵循、完整性和寫作質量上的提升最為明顯。
在圖片質量方面,PTAH在ICQ的四個維度上全面領先,其中跨模態對齊的得分尤其接近滿分,這背後有兩個原因:一是從真實網頁提取的圖片本身就與網頁內容高度相關,二是測試時優化機制進一步強化了圖文的一致性。相比之下,LLM-I的ICQ平均得分僅為1.97,與PTAH的4.39相差懸殊,說明沒有系統性驗證機制的多模態生成,其圖片質量遠不穩定。
在報告可信度方面,PTAH的引用準確率達到87.53%,平均每篇報告包含9.64條有效引用,搜索工具調用次數(12.82次)也明顯多於其他系統。對照組實驗中發現,在沒有審核員模組的情況下,ReAct和Search-o1等基線系統頻繁生成無效甚至虛構的URL,而PTAH的審核員機制有效保證了每一條引用都指向真實可訪問的來源。
人工評估進一步驗證了自動評估的可靠性。研究團隊從DeepResearch Bench中隨機抽取25道題,由四名標註員(兩名AI博士生和兩名大學生)以匿名對比的方式比較PTAH與基線系統的報告質量。標註員在圖片內容質量上對PTAH的支持率達到88%-96%,在多模態呈現質量上對PTAH的支持率達到80%-100%,結果與自動評估高度吻合。
此外,研究團隊專門圍繞審核員的作用進行了消融實驗。去掉審核員後,100道題中有14道在規劃階段就因格式錯誤或工具調用失敗而無法繼續,剩餘86道中又有18道在調研階段失敗,最終只有68道能完整生成報告,說明審核員對整個流程的穩定性至關重要。對於成功生成的68份報告,引用準確率從87.53%驟降至30.29%,充分說明審核員在事實可信度方面的關鍵作用。
測試時優化機制的效果同樣經過了單獨驗證。去掉這個六步精煉流程後,報告的綜合文字得分下降3.03分,ICQ平均分從4.39降至2.77,MPQ平均分從3.71降至3.49。同時,去掉精煉流程後報告中圖片的平均數量從3.76增加到5.06,但無效圖片的比例也從0.12上升到0.38,說明精煉流程不只是在數量上篩選圖片,更在質量上大幅提升了圖片的可用性。
用戶體驗評估部分,研究團隊讓四名評估者對比PTAH和WebThinker生成的報告,從可讀性、易用性、資訊獲取效率和整體偏好四個維度做出判斷。PTAH的勝出或持平率分別為88.75%、88.75%、96.25%和95.00%,其中資訊獲取效率的高勝率說明圖文穿插的呈現方式確實幫助讀者更快找到和理解關鍵資訊。
針對視覺元素本身的貢獻,研究團隊還設計了一個"去圖版PTAH"實驗,使用完全相同的流程,只是在最終報告中不加入任何圖片。去圖版PTAH的文字綜合評分(45.10)與完整版(45.16)幾乎相同,但MPQ平均分從3.71降至3.29,說明圖片對文字評分幾乎沒有負面影響,但對多模態呈現質量有實質性的提升貢獻。
---
六、系統的時間成本與效率設計
研究團隊在DeepResearch Bench上對PTAH的運行效率做了細緻分析。完整流程平均耗時約1015秒(約17分鐘),其中調研階段是最耗時的部分,平均459秒,因為它涉及對多個網頁的開放式搜索、內容解讀和圖片池構建。測試時優化階段平均243秒,規劃階段192秒,寫作階段121秒。
多名調研員並行工作的設計帶來了顯著的效率提升。如果改為順序執行,調研階段的平均耗時將從459秒膨脹到1328秒,增加近三倍。並行設計在不犧牲報告質量的前提下,將調研時間壓縮了65%。
不同強度的審核員也會影響整體速度。研究團隊測試了用DeepSeek-R1替換當前審核員的效果,發現規劃階段耗時從192秒增加到853秒,調研階段從459秒增加到1408秒。更強的推理模型意味著更嚴格的檢查和更多輪的修改疊代,因此在報告質量和生成速度之間存在明顯的權衡關係。研究團隊最終選擇當前版本的審核員作為質量與效率之間的平衡配置。
---
說到底,PTAH這項研究回答的是一個非常具體的問題:當我們希望AI不只是給出一段文字答案,而是真正生成一份像樣的專業報告時,需要在架構設計上做哪些事情。研究團隊給出的答案是:分階段拆解任務,讓專業化的智能體各司其職;把圖片處理從事後裝飾變成前期規劃中的核心要素;在每個關鍵環節設置審核檢查點,阻止錯誤累積傳播;最後通過多輪精煉把內容質量和視覺呈現質量都打磨到位。
這套思路本身並不複雜,但把它完整落地需要解決大量工程細節和設計取捨,而實驗結果表明這些努力是有實際效果的。對於普通用戶來說,這意味著未來藉助類似系統產出的研究報告,將不再是一大段孤零零的文字,而是能把數據圖表、示意圖、實物截圖和文字論述有機融合在一起,每一張圖都說明問題,每一條引用都指向真實來源。
如果你有興趣了解PTAH背後更完整的技術細節,可以通過arXiv編號2605.29861檢索原論文,這項工作由中國人民大學高嶺人工智慧學院的研究團隊完成。
---
Q&A
Q1:PTAH系統的"視覺工作記憶"是什麼,有什麼用?
A:視覺工作記憶是PTAH在調研階段為每個章節建立的一個圖片素材庫。調研員訪問網頁時會系統提取其中的圖片,經過解析度過濾和視覺語言模型的相關性篩選後,每張保留的圖片都會和來源網址、所屬章節、預期用途一起儲存。這樣做的好處是,撰稿階段可以直接復用這些來源可追溯的圖片,而不是臨時隨意搜索或生成,從而保證圖片與文字內容之間的高度一致性。
Q2:PTAHEval評估體系和現有的AI報告評估方法有什麼不同?
A:現有深度研究評估基準(如DeepResearch Bench)主要只評估文字內容的質量,對報告中是否有圖片、圖片質量如何完全不考量。PTAHEval在保留文字評估的基礎上新增了兩個維度:圖片內容質量(ICQ,評估每張圖片的清晰度、與文字的對齊度、資訊互補性和證據支撐性)和多模態呈現質量(MPQ,通過截取網頁首屏截圖來評估整體版面的可讀性、資訊顯著性、視覺多樣性和排版舒適度),由視覺語言模型評分。
Q3:去掉PTAH的審核員模組會發生什麼?
A:去掉審核員後,系統穩定性大幅下降。在100道測試題中,有14道在規劃階段就因格式或工具調用錯誤而卡住無法進行,剩餘中又有18道在調研階段失敗,最終只有68道能完整生成報告。更重要的是,成功生成的68份報告的引用準確率從87.53%驟降至30.29%,說明審核員不僅保證了流程穩定,還是確保報告引用真實可信的關鍵機制。






