這項由香港科技大學領導的研究以預印本形式發布於2026年5月,收錄於arXiv平台,編號為arXiv:2605.27905v1,歸屬於電腦科學與自然語言處理領域。有興趣深入了解的讀者可通過該編號查詢完整論文。
近幾年,AI領域出現了一類令人興奮的新工具——AI科研助手。這類工具不只是幫你查資料或整理文獻,它們能自己提出研究想法、設計實驗方案、甚至寫出完整的學術論文草稿。聽起來是不是像科幻小說里的情節?然而這已經是正在發生的現實。面對這樣的技術突破,一個自然而然的問題隨之浮現:這些AI助手到底是在幫科學家開疆拓土,還是只是在已經踩熟的老路上反覆徘徊?
香港科技大學的研究團隊對此產生了濃厚的興趣。他們沒有滿足於"AI生成的想法聽起來很聰明"這個表面印象,而是做了一件更嚴肅的事情——系統性地追問:AI生成的科研想法,究竟有多"新"?它們和人類科學家的真實研究相比,探索的範圍是更廣闊還是更狹窄?研究結論出人意料,卻又在某種程度上令人信服:**當前的AI科研助手更像是一位精通整理已有地圖的專家,而不是一位願意踏入未知荒野的探險家。**
一、科研助手大評測:他們用了多大規模的實驗
要回答"AI科研助手到底能不能拓展科學邊界"這個問題,香港科技大學的團隊選擇了一種既嚴格又有說服力的方式:大規模、系統性的對比實驗。
研究團隊首先構建了一個龐大的學術文獻庫,收集了來自機器學習三大頂級會議——ICLR、NeurIPS、ICML的共計34698篇論文,時間跨度從2019年到2025年,每篇論文都包含標題、摘要、關鍵詞以及引用關係。有了這批原材料,他們用一種叫"文獻耦合"的方法把這些論文分成不同的研究領域。所謂文獻耦合,說白了就是:如果兩篇論文經常引用同樣的參考文獻,那它們研究的問題大概率是相關的——就像兩個人經常去同一家書店買書,很可能有共同的閱讀口味。通過這種方式,研究團隊最終識別出19個活躍的研究領域,涵蓋強化學習、圖神經網路、AI公平性、在線算法、組合優化等熱門方向。
接下來是實驗的核心部分。研究團隊從2022年至2025年的文獻中,為每個研究領域反覆隨機抽取"種子文獻"——每次抽5篇,其中一篇是核心論文,另外四篇是與其相關的文獻——然後把這5篇論文餵給AI科研助手,讓AI基於這些文獻提出新的科研想法。這個過程重複了2140次,覆蓋了所有研究領域。
更重要的是,研究團隊不滿足於測試一個AI工具,而是同時測試了四種代表性的AI科研助手框架,再分別搭配六種大型語言模型來運行。這四種框架分別是:最簡單直接的零樣本生成(讓AI直接基於文獻輸出想法)、AIScientist(通過反覆自我審視和修改來打磨想法)、ResearchAgent(把提想法的過程拆成問題發現、方法設計、實驗規劃三個階段,每個階段還有另一個AI來評分評估)、以及AgentLaboratory(讓扮演"博士後"和"博士生"角色的不同AI通過對話來共同制定研究計劃)。搭配的六種語言模型來自Qwen、Llama、Gemma三個家族,參數規模從0.8億到350億不等。
整個實驗總共產生了51360次生成嘗試,其中37802次成功產出了有效的科研想法。這個數字足夠大,足以讓研究結論具有統計可靠性。值得一提的是,這些AI助手的提示詞裡都明確要求它們提出"新穎的、高影響力的、與現有工作不同的"想法——換句話說,研究者給了AI充分的"鼓勵"去大膽探索,但結果依然讓人若有所思。
二、AI總在"地圖中心"徘徊,而人類喜歡往邊緣走
拿到了37802個AI生成的科研想法之後,研究團隊的第一個問題是:這些想法在知識空間裡的分布,和人類科學家的論文相比,是更集中還是更分散?
為了回答這個問題,研究團隊把每一個AI生成的想法和每一篇人類論文都轉換成了一個數學向量——可以把這理解為在一張無形的"知識地圖"上標出每篇文章的坐標位置。兩篇文章在這張地圖上越近,代表它們研究的內容越相似;越遠,代表越不同。
結果非常清晰。在同一個研究領域內,AI生成的想法之間的相似度在0.82到0.84之間;而人類論文之間的相似度只有0.77。這個差距看起來不大,但放在學術研究的語境下,它意味著AI想法扎堆聚集在知識地圖的某幾個熱門區域,而人類研究則更分散地探索著更寬廣的範圍。
更耐人尋味的是,用四種不同框架生成的AI想法,彼此之間的相似度高達0.81到0.84——幾乎和同一框架內部生成的想法一樣相似。這說明,不管是讓AI自我反思、還是多階段驗證、還是讓兩個AI角色對話討論,最終產出的想法都指向了大致相同的概念區域。換句話說,更複雜、更"高端"的AI框架,並沒有讓探索範圍明顯變寬。
研究團隊還用了另一種測量方式來交叉驗證這個結論:計算每篇文章與其所在研究領域"重心"的距離。結果同樣一致——AI生成的想法距離領域重心的平均距離是0.091,而人類論文距離重心的平均距離是0.121。AI想法更緊密地圍繞著領域的核心地帶,而人類研究則更願意在邊緣地帶甚至相鄰領域裡遊蕩。
用一個形象的比喻來說:這就像一場城市探索活動。人類探險者喜歡往城市的邊緣街區、甚至隔壁城市跑,有時會迷路,但也會發現意想不到的風景。而AI探險者則更傾向於反覆拍攝市中心最熱鬧的廣場——那裡安全、有據可循,每次拍出來的照片都很好看,但實際上你已經見過很多次這個廣場了。
三、AI不願離開"出發點",人類卻在不斷前進
第一個發現告訴我們AI想法太集中;第二個問題則更進一步:AI生成的想法,和最初餵給它的那5篇"種子論文"相比,有沒有走出足夠遠的距離?
研究團隊為每一組種子論文找到了對應的"人類跟進研究"——也就是那些後來引用了這5篇種子論文中至少兩篇的後續人類論文。這批人類跟進研究代表了科學界在看到同樣出發點之後,實際走向了哪裡。
對比結果同樣清晰。AI生成的想法與種子論文之間的相似度是0.92,而人類跟進研究與同樣的種子論文之間的相似度只有0.88。這意味著AI想法距離出發點更近,人類研究走得更遠。更有意思的是,AI想法與人類跟進研究之間的相似度是最低的,只有0.82——說明AI和人類在看到同樣的文獻之後,選擇了相當不同的前進方向。
研究團隊還用了主成分分析(一種把多維數據投影到二維平面上的方法,可以幫助我們直觀地"看到"數據分布)來可視化這一現象。在每一個案例里,你都能看到相同的模式:那5篇種子論文聚在某個位置,AI生成的想法緊緊圍繞在它們附近形成密集的小圈子,而人類跟進研究則散落在更遠的地方,有時甚至跑到了圖的另一個角落。
這背後折射出一個關於科學進步的深刻事實。真正推動科學前進的,往往不是沿著現有方向走得更穩更快,而是某一天有人回頭問一句"我們為什麼要這麼走?有沒有完全不同的路?"這種提問需要某種程度的"離開舒適區"的勇氣,而目前的AI系統,似乎更擅長在舒適區內精耕細作。
四、AI想法扎堆的地方,引用數往往更低
發現AI想法更集中之後,研究團隊追問了第三個問題:AI喜歡去的那些知識區域,在科學上是不是真的更有價值?
由於AI生成的想法本身沒有真實的引用數據,研究團隊採用了一種間接測量方法:找出那些與AI生成想法非常相似(相似度超過0.9)的真實人類論文,然後查看這些人類論文的引用量,並與同年、同領域的平均引用量進行比較。如果AI喜歡的方向確實很有價值,那麼這些相似論文的引用量應該高於平均水平;反之則說明AI偏好的方向相對不那麼有影響力。
在2359個成功匹配的"AI想法——人類論文"對中,與AI想法最相似的人類論文平均獲得了50.4次引用,而同年同領域的平均引用量是54.9次。差距是4.47次,乍看不大,但統計檢驗表明這個差異不是偶然的(置信區間為負6.41到負2.53,p值小於0.001)。在四個AI框架中,有三個(零樣本生成、ResearchAgent、AgentLaboratory)都呈現出顯著的低於平均引用量的模式;只有AIScientist的差異沒有達到統計顯著性。
這個發現的含義是:AI傾向於聚集的那些知識區域,恰恰是科學影響力相對較低的地方。當然,這不是說AI選的方向毫無價值,但確實暗示了一個令人警醒的模式——AI在"安全地帶"里產出了大量想法,而這些安全地帶恰好不是科學突破最容易發生的地方。
五、AI改的是"怎麼做",而不是"做什麼"
研究團隊的第四個分析維度最為細膩:當AI生成的想法與種子文獻確實存在差異時,這種差異主要體現在哪裡——是提出了全新的研究問題,還是只是換了一種解決方案?
為了回答這個問題,研究團隊對每一個AI生成的想法和每一篇種子論文進行了結構化拆解:提取出"研究問題"(這項工作想解決什麼問題?)和"技術方法"(用什麼手段來解決?)兩個核心要素。然後,他們計算AI想法中的研究問題和技術方法,與種子文獻中的研究問題和技術方法的相似度——如果相似度超過0.87,就認為這個元素在種子文獻中已經存在;低於這個門檻,才認為它是真正新引入的。
結果呈現出一個非常清晰的不對稱性。在研究問題層面,85.1%的AI生成想法提出的研究問題在種子文獻中已經存在——AI幾乎沒有提出全新的"要研究什麼"。但在技術方法層面,情況好一些:只有62.6%的AI想法採用了種子文獻中已有的技術方法,也就是說,將近四成的AI想法在方法層面引入了一些新東西。
這意味著AI的"創新"主要發生在"換個方式做同一件事",而不是"換個問題來做"。借用地圖探索的比喻:AI更像是在說"我們去老地方,但這次換條路走",而不是"我們去一個從沒去過的地方"。
這個模式在所有四個框架中保持一致,只是程度略有差異。AIScientist在方法層面引入的新東西最多,而ResearchAgent最保守。但無論哪個框架,研究問題層面的創新都極為稀少——沒有新研究問題的比例從79%到88.4%不等。
六、為什麼AI會"原地打轉":背後的深層原因
把上面四個發現串聯起來,一幅完整的圖景浮現出來:當前的AI科研助手是極為出色的"局部延伸者",卻不是真正意義上的"方向開拓者"。
這並不是因為AI沒有被要求創新。恰恰相反,實驗中的每一個框架都明確要求AI提出"新穎的"、"不同於現有工作的"、"從未見過的"想法。AgentLaboratory的提示詞甚至直接說"你的想法應該非常創新,與任何以前見過的東西都不同"。但這些語言層面的鞭策,似乎並沒有真正改變AI輸出的知識分布。
原因可能在於AI系統的底層工作方式。大型語言模型是在海量文本上訓練出來的,它們擅長識別和復現已有文本中的模式,擅長把不同的已知概念組合在一起。這就像一個博覽群書的學者——他能把書里讀到的各種知識融會貫通,說出來頭頭是道,但真正"發現一個從來沒有人想到過的新問題",需要的是一種不同的能力:願意質疑現有框架本身,願意在沒有地圖的地方出發。目前的AI系統在這方面存在根本性的局限。
而且,這個局限不隨AI的規模和複雜度的增加而自動消失。從0.8億參數的小模型到350億參數的大模型,從簡單的單次生成到多輪自我反思、多智能體對話,探索的廣度並沒有隨之顯著擴大。更強大的AI並沒有帶來更廣闊的科學探索——它帶來的更多是更精緻、更連貫的"已知方向的延伸"。
歸根結底,這項研究提醒我們區分兩件不同的事情:**產生聽起來合理的科研想法**,和**拓展科學探索的邊界**。前者AI已經做得相當不錯,後者目前仍主要是人類科學家的專長——或者說,是人類科學家中那些敢於提出"為什麼我們從來不這樣問問題"的少數人的專長。
隨著AI科研助手越來越深地嵌入到科學研究的日常工作流中,這種區分變得越來越重要。如果我們只是用AI來高效產出大量"局部延伸"式的想法,我們很可能在不知不覺中讓科學界的集體注意力越來越集中於那些已經有人踩過的方向,而悄悄減少了對真正未知領域的關注。這不是說AI科研助手沒有價值——它們在提高研究效率、幫助科學家快速梳理文獻、產生初步假設等方面確實很有用。但如果把"產出了很多新想法"誤認為"拓展了科學邊界",那可能是一種危險的錯覺。
下一步真正的挑戰,不只是讓AI生成更多、更流暢的科研想法,而是探索如何設計出能夠幫助人類科學家**走向更陌生、更不確定、但可能更有價值的知識邊疆**的AI系統。這才是這項研究留給整個AI和科學社區的真正問題。
---
Q&A
Q1:AI科研助手和人類科學家在提研究想法時,最大的區別是什麼?
A:根據這項研究,AI科研助手生成的想法傾向於緊密圍繞已有文獻展開,彼此之間高度相似,主要通過重新組合已有技術方法來產生"新"想法,很少提出真正新穎的研究問題。人類科學家則更願意偏離已有方向,探索更分散、更邊緣的知識區域,並且更頻繁地重新定義研究問題本身。
Q2:用更大參數規模的語言模型或更複雜的多智能體框架,能讓AI科研助手產出更有創意的想法嗎?
A:根據這項研究的實驗結果,答案是否定的。研究團隊測試了從0.8億到350億參數的六種模型,以及從簡單單次生成到多輪自我反思、多角色對話的四種框架,發現在所有組合下,AI生成想法的集中程度和對已有文獻的依賴程度都非常相似。更大、更複雜的系統並沒有顯著拓寬探索範圍。
Q3:AI科研助手生成的想法與哪些真實發表的研究最為相似?
A:研究團隊將AI生成的想法與真實論文進行匹配,發現高度相似的例子包括:零樣本AI生成的關於"不平衡分類與最優傳輸"的想法,與一篇2022年發表的使用可學習代價矩陣進行長尾識別的論文相似度達0.954;ResearchAgent生成的關於"動態稀疏訓練用於時間序列分類"的想法,與一篇同年發表的動態稀疏網路論文相似度高達0.965。這些例子印證了AI想法更多是已有研究的局部變體,而非全新突破。






