這項由中國科學院深圳先進技術研究院、中國科學院大學、大連理工大學、新南威爾斯大學雪梨分校及深圳理工大學聯合開展的研究,以預印本形式發布於2026年5月,論文編號為arXiv:2605.03571v1,有興趣深入了解的讀者可以通過這一編號查詢完整論文。
專利審查,聽起來像是極其專業的法律事務,似乎離普通人很遙遠。但它其實與每個人都息息相關——當一項新藥被批准上市,當你手機里的某項創新功能得以實現,當工廠里的自動化設備讓產品價格變得更實惠,背後都有一道無形的審查關卡在把控著哪些"想法"值得被保護。
然而,這道關卡正在面臨巨大的壓力。以美國專利商標局為例,僅2025年一年,這家機構就收到了超過47.5萬件專利申請,積壓未審的案子多達83.8萬件,一件申請從提交到第一次得到回覆,平均要等超過20個月。與此同時,隨著AI技術的飛速發展,已經有工具能夠自動批量生成專利文件,這讓堆積如山的審查工作越來越難以為繼。
研究團隊由此產生了一個關鍵問題:人工智慧大語言模型,這些近年來名聲大噪的"萬能"文字處理器,究竟能不能承擔專利審查這項工作?它們能否像人類審查員一樣,讀懂複雜的技術描述,判斷一項發明是否真正新穎,並據此寫出合乎法律的審查意見?
為了回答這個問題,研究團隊創建了一個全新的測試平台,命名為PatRe,這是"專利(Patent)"和"駁斥/回應(Rebuttal)"兩個詞的縮寫。PatRe是目前全球第一個覆蓋專利審查全過程的基準測試,包含480個真實的專利審查案例,來源於美國專利商標局的公開資料庫,全部在2024年之後完成審查。這項工作的獨特之處,在於它並不是簡單地問AI"這個專利該批還是拒",而是要求AI模擬整個你來我往的審查對話——先扮演審查員寫出審查意見,再扮演申請人寫出駁斥回應,從而還原專利審查這場真實的法律"博弈"的全貌。
一、專利審查究竟是怎麼一回事
要理解這項研究,得先搞清楚專利審查到底是個什麼過程。可以用一個日常場景來理解:假設你發明了一種新式保溫杯,想要為它申請專利保護。你向專利局提交了一份文件,詳細描述了你的發明有多獨特、多實用。但專利局的審查員不會輕易點頭,他會去翻查歷史上所有已有的技術資料,尋找與你的發明相似的"前人成果"——這些在法律上被稱為"現有技術"或"先前技術"。
如果審查員認為你的發明與某些現有技術太過相似,他就會發出一份"審查意見通知書"(英文縮寫為OA,即Office Action),列出具體的法律依據,說明為什麼你的發明不夠新穎、或者顯而易見、或者描述不夠清晰。然後,你作為申請人可以提出反駁,用專業的法律和技術論據回擊審查員的意見,同時可以對你的專利申請文件進行修改。審查員看到你的回應後,可能維持原判,也可能部分接受你的意見,發出新一輪的審查意見。這個來回拉鋸的過程可能要進行好幾輪,直到最終批准或拒絕為止。
整個過程就像是一場精心設計的辯論賽:一方需要主動發現對方主張的漏洞,另一方則需要見招拆招、據理力爭。這對雙方都要求極高的法律知識儲備和技術理解能力。而以往的人工智慧研究,幾乎都只是盯著這場辯論的最終裁決結果——批還是不批——而完全忽略了中間這段"你來我往"的核心過程。PatRe正是為了填補這一空白而生的。
二、從"是/否"到"為什麼":以往研究錯在了哪裡
在PatRe出現之前,學術界對專利AI的研究走的都是一條相對簡單的路:給模型看一篇專利申請,讓它預測這份申請最終會被批准還是拒絕。這就好比你只看一部電影的最後五分鐘,然後評價這部電影的好壞——你可能猜到了結局,但對故事本身一無所知。
具體來說,哈佛大學發布的HUPD數據集最早採用了這種"接受/拒絕"二分類方式,使用BERT類模型來預測專利結果;IPBench則把同樣的分類問題延伸到了現代大語言模型上;PILOT-Bench嘗試用IRAC這套法律推理框架來分析專利委員會的決定;PANORAMA則向前邁了一步,試圖識別具體的拒絕理由,尤其關注35 USC §102(新穎性)和§103(非顯而易見性)這兩條法律條款;PEDANTIC專注於35 U.S.C. 112(b)這一條款,研究如何從審查意見中提取"說明不清楚"的判斷依據。
這些工作都有其價值,但都停留在靜態分析層面:它們都是在事情發生之後,回過頭來對結果進行分類標註。它們無法捕捉專利審查中最核心的動態過程——審查員如何主動發現問題、申請人如何構建反駁、雙方如何在來回拉鋸中逐漸逼近最終結論。
另外,在專利修訂方向上,PatentEdits和Patent-CR這兩個數據集研究了專利申請初稿到最終授權版本之間的變化,但它們聚焦的是版本對比,並沒有還原驅動這些變化的審查對話本身。
研究團隊將PatRe與上述所有已有工作進行了系統比較,結果發現,只有PatRe同時滿足四個關鍵維度:任務是生成式而非判別式、有明確的法律條款依據、追蹤申請文件的版本演變、並且包含多輪的對抗性交互——而其他所有數據集都在其中至少一個維度上有所欠缺。
三、PatRe的"棋局":如何設計這場測試
PatRe把專利審查過程設計成兩種角色的交替任務,就像象棋中雙方輪流落子一樣。
第一類任務是"審查員角色",要求AI寫出審查意見通知書。為了測試不同資訊條件下AI的表現,這個任務被細分成了三種難度設置。第一種叫"直接提示",完全不給AI提供任何現有技術資料,讓它完全依靠自己在訓練過程中學到的知識來判斷一項專利是否應該被拒絕,然後撰寫理由——這是最難的一種,相當於讓偵探在沒有任何線索的情況下破案。第二種叫"參考文獻已知",把審查員在真實案例中實際引用的現有技術文獻都給AI看,讓它從中挑選最相關的、做出元素對應分析,然後寫出審查意見——這是最理想的資訊條件,相當於給偵探看了所有的物證。第三種叫"檢索模擬",用BM25這一經典資訊檢索算法根據專利申請文本自動檢索出一批相關文獻,再隨機混入一些真正被審查員引用的文獻,形成一個"真假混雜"的候選池,讓AI自己甄別哪些文獻真正有價值——這最接近真實的審查工作環境,相當於給偵探看了一堆線索,但裡面混入了一些無關的干擾資訊,需要偵探自行判斷取捨。
第二類任務是"申請人角色",要求AI在拿到審查意見和相關現有技術之後,寫出正式的駁斥回應。這需要AI完成三件事同時進行:把法律論點錨定到審查意見中具體的拒絕理由上,把自己專利申請的技術特點與被引用的現有技術做詳細對比,同時保持整體論證的邏輯一致性,確保不偏離發明本身的保護範圍。
整個框架還支持多輪對話,即在同一個專利案例中,AI可以先扮演審查員發出第一輪意見,再扮演申請人回應,然後再回到審查員的立場處理申請人的修改,如此循環,直到最終裁決。數據集中的480件專利,每件都有完整的審查歷史,平均經過約2.24輪審查意見往來和1.24輪駁斥回應。最長的案例甚至經歷了15輪來回拉鋸。
四、如何評判AI寫出的審查意見好不好
寫出來只是第一步,更難的是如何評判寫得好不好。專利文件不像作文,沒有標準答案,不能靠簡單的字符匹配來評分。
研究團隊設計了一套兩層評估體系。第一層是客觀可量化的指標,包括三個方面:決策準確率,即AI判斷出的"批准/拒絕/非終局拒絕/終局拒絕"與真實結果是否一致;條款精確度,即AI在審查意見中引用的法律條款(如35 U.S.C. §102、§103等)與真實案例中的法律依據有多少重疊;以及ROUGE-L,這是一種衡量文字重疊程度的指標,可以粗略判斷生成文本與真實文本在詞彙層面的相似性。
第二層是更深度的語義和邏輯評估,採用"AI作為評審"的方式——用谷歌的Gemini-3.1-Flash-Lite模型扮演一位專利律師審計員,對生成的文件從五個維度評分,每個維度滿分10分。這五個維度分別是:邏輯健全性(技術和法律推理是否站得住腳)、表達清晰度(法律語言是否專業易讀、邏輯是否連貫)、可操作性(給申請人的建議是否具體、是否真的有指導作用)、完整性(是否覆蓋了所有相關的權利要求和拒絕理由)、以及語言風格(是否符合專利審查文件的書寫慣例)。
在駁斥回應的評估中,還額外加入了一個叫"逐點覆蓋率"的指標,專門衡量AI的回應有沒有對審查意見中每一個具體的拒絕理由都給出了回復——這就像檢查一份辯護詞有沒有對控方的每一項指控都予以應對,不能漏掉任何一條。
為了驗證這套AI評審體系的可靠性,研究團隊還邀請了三位智慧財產權領域的博士生做人工評估,同樣按照五個維度評分,然後計算AI評分與人工評分的一致性。結果顯示,三位人工評審之間的整體相關係數高達0.7285(Pearson相關),AI的評分與人工評分的相關性也達到了同等水平,證明這套評估體系是可靠的。
五、誰考了高分,誰又考砸了
研究團隊測試了10個不同的大語言模型,涵蓋了當前最主流的幾類系統。商業閉源模型包括OpenAI的GPT-5-mini和GPT-4o-mini、谷歌的Gemini-2.5-Flash,以及DeepSeek
的V3.2版本;開源模型則涵蓋了從80億參數到700億參數的多個規模,包括Meta的LLaMA系列、阿里巴巴的Qwen3.5系列和谷歌的Gemma3系列。
從審查意見生成任務來看,GPT-5-mini在綜合表現上最為突出,在"直接提示"設置下決策準確率達到51.4%,在"參考文獻已知"設置下達到50.0%,在"檢索模擬"設置下達到52.7%,同時在AI評審的平均分上也拿到了最高的5.39分(滿分10分)。Gemini-2.5-Flash和DeepSeek-V3.2緊隨其後,整體表現相近。開源模型中,Qwen3.5-27B表現最為穩健,在多個設置下都超過了規模更大的LLaMA3.3-70B。
但是,這裡出現了一個讓人印象深刻的異常現象:LLaMA3.3-70B這個擁有700億參數的龐大模型,雖然在法律條款精確度上還算表現正常(54.7%),但決策準確率卻低得驚人——在"參考文獻已知"設置下僅有9.7%。這意味著它幾乎把所有案例都判斷錯了。進一步分析發現,它錯誤地把大量非終局拒絕的案例判定為終局拒絕,而且對本應被批准的專利也傾向於拒絕。換句話說,這個模型表現出了極強的"挑剔偏見"——它仿佛認定,審查員的職責就是找毛病、拒申請,完全不考慮批准的可能性。
從駁斥回應任務來看,情況發生了戲劇性的反轉。GPT-5-mini的逐點覆蓋率高達90.5%,AI評審平均分更是飆升至9.18分——幾乎接近滿分!Gemini-2.5-Flash和DeepSeek-V3.2也分別拿到了8.34和8.37的高分。就連開源模型中的Qwen3.5-27B,在駁斥任務上也達到了8.29分,與頂級商業模型相差無幾。
這種"審查意見寫得很一般、駁斥回應寫得特別好"的巨大落差,揭示了當前AI系統一個深層的能力不對稱:它們更擅長做"應答者"而不是"主動發現者"。
六、五條讓人深思的發現
仔細分析實驗結果,研究團隊總結出了五條值得重點關注的規律性發現。
第一條,也是最核心的一條:AI在"防守"上遠勝於"進攻"。在駁斥任務中,幾乎所有模型的AI評審得分都在8分以上,而在審查意見任務中,得分普遍在4到5分左右。這個差距不是小差距,是翻倍的差距。背後的原因在於,寫駁斥回應時,審查員已經幫你把問題點出來了,你只需要見招拆招;而寫審查意見時,你需要主動在密密麻麻的技術描述中發現潛在的法律問題,這要求的是一種更主動、更主觀的判斷能力。當前的AI模型,在訓練過程中接觸了大量的"律師式論辯"內容,因此它們在"辯護"這件事上天然更熟練;但真正中立客觀的"法官式審查",需要一種不同的推理模式,而這恰恰是它們最欠缺的。
第二條,表面光鮮、內里空洞的問題普遍存在。所有模型在"語言風格"和"表達清晰度"這兩個維度上得分都相當不錯,但在"邏輯健全性"和"可操作性"上卻差距明顯。這說明這些模型非常善於模仿專業文件的語言外殼——用詞正式、結構規整、措辭得體——但內里的法律推理邏輯往往存在明顯漏洞。一份看起來像模像樣的審查意見,如果其中的技術對應分析是錯的,或者引用的法律邏輯是站不住腳的,對實際工作毫無價值。
第三條,給模型看現有技術文獻,並不一定能提高它的決策準確率。這一發現相當出人意料。在"參考文獻已知"設置下,模型引用法律條款的精確度確實提高了,但決策準確率並沒有隨之提升。以Gemini-2.5-Flash為例,它在獲得參考文獻後,法律條款引用精確度從46.6%提升到了56.3%,但決策準確率卻從50.0%下降到了46.4%。這說明,擁有更多的證據材料,並不等於能做出更正確的判斷——知道該用哪條法律引用哪篇文獻,和真正理解這項發明是否值得被保護,是兩件完全不同的事情。
第四條,模型在亂糟糟的文獻池裡找真正有用的東西,高度依賴文獻質量。研究團隊專門統計了一個叫"參考文獻引用準確率"的指標,衡量模型在生成審查意見時,它引用的文獻中有多少比例是真正有效的(即實際上和這個專利相關的文獻)。結果呈現出非常清晰的層級:在"參考文獻已知"設置下,這個準確率最高,GPT-5-mini達到74.3%;在"檢索模擬"設置下次之,為62.3%;而在"直接提示"設置下,僅有5.1%——也就是說,當沒有任何外部文獻可參考時,模型引用的內容幾乎全是"無中生有"編造出來的。這意味著,再強的推理能力也無法替代真實的外部證據。
第五條,傳統的文字匹配指標不足以衡量專利文件的質量。ROUGE-L這個常見的文本評估指標,與人工評審結果的相關性非常低(Kendall相關係數僅為0.0258),而AI評審分數與人工評審的相關性則高得多(Pearson相關係數0.6808)。這說明,一份與真實審查意見字面相似度高的AI輸出,不見得在法律推理上是正確的;反而是那些措辭不完全一樣但邏輯更嚴密、推理更準確的輸出,會得到更高的專業評分。
七、AI的"法律盲區":四種典型的犯錯模式
除了整體表現,研究團隊還深入分析了AI在具體法律推理上的錯誤模式,發現了幾類典型的"盲區"。
最嚴重的問題出現在對"應該批准"的專利的處理上。通過混淆矩陣分析,研究人員發現,對於真實案例中最終獲批的專利,大多數模型都傾向於錯誤地將其判定為應該被拒絕。以DeepSeek-V3.2為例,95%的應批准案例都被它判斷為需要拒絕;LLaMA3.3-70B的情況更為極端,93%的應批准案例遭到錯誤拒絕。這種"寧可錯殺,不能放過"的傾向,在專利領域是極具危害性的——它意味著AI系統會系統性地阻礙合法創新,讓真正有價值的發明被無端卡在審查關卡之外。
在具體法律條款的應用上,研究團隊繪製了一張"法律錯誤地圖",橫軸代表"虛假指控率"(把不存在的問題說成存在的頻率),縱軸代表"漏報率"(把真實存在的問題說成不存在的頻率)。結果發現,35 U.S.C. §101(專利客體適格性)是AI最難掌握的條款,同時存在最高的虛假指控率(72.8%)和較高的漏報率(48.8%)——也就是說,AI既會把明明沒有問題的發明貼上"不符合§101"的標籤,也會放過真正有問題的情況。§102(新穎性)也表現出類似的雙向不穩定性。相比之下,§103(非顯而易見性)和§112(說明書充分性)的問題更多表現為"過度執法"——漏報率較低,但虛假指控率依然很高,說明模型傾向於把這兩條規則用得太寬泛,對很多實際上沒有問題的專利也發出§103或§112的拒絕。
八、數據集本身告訴我們什麼
PatRe數據集本身的構成,也反映出專利審查實踐中的一些真實規律,值得單獨審視。
從審查意見類型分布來看,480件專利共產生了1075份審查意見,其中通知允許的占44.56%、非終局拒絕占40.47%、終局拒絕占14.14%、特殊程序(Ex Parte Quayle)占0.84%。這意味著,在真實的專利審查中,最終獲批是相當普遍的結果,而AI模型嚴重低估了這種可能性。
從拒絕理由的分布來看,§103(顯而易見性)是最常見的拒絕理由,占所有拒絕次數的40.53%;§112(說明書充分性)排第二,占22.46%;§102(新穎性)占19.73%;雙重專利(即與申請人自己已有專利過於相似)占11.91%;§101(客體適格性)占5.37%。一件專利可能被以多條理由同時拒絕,因此總數超過了總案例數。
從引用文獻的統計來看,平均每件專利案例被引用了8.6篇參考文獻,但被實際在審查意見中詳細討論的平均只有6.3篇,討論率約為73.78%。不同技術領域的差異相當大:化學與冶金領域(IPC-C類)的"討論率"高達200%,意味著申請人在駁斥中主動引用了比審查員更多的文獻;而機械工程領域(IPC-F類)的討論率僅為41.68%,大量被引用的文獻實際上沒有得到詳細分析。這種差異本身就說明,不同技術領域的專利審查邏輯差異很大,AI系統需要針對不同領域有不同的處理策略。
歸根結底,PatRe這項研究給我們呈現了一幅複雜而有趣的圖景:AI在模仿專業語言風格上已經相當成熟,但在真正的法律推理上仍然差距明顯;它在回應具體問題時表現出色,但在主動發現問題上還有很長的路要走;它掌握了大量的法律條款知識,卻常常在具體案例中應用失當。這不是說AI不能用於專利領域,而是說當前它更適合作為輔助工具,幫助人類審查員和申請人提高效率,而不是獨立承擔判斷責任。
研究團隊明確指出,開源模型在這項任務中雖然整體弱於頂級商業模型,但差距並不總是懸殊,考慮到專利數據的高度敏感性(涉及未公開的技術創新),開源模型在需要保護數據隱私的場景下可能反而是更合理的選擇。
未來,研究團隊計劃將PatRe擴展到更多國家的專利體系(如歐洲專利局、中國國家知識產權署),並加入多語言支持,使這個測試平台能夠評估AI在更廣泛的國際專利審查環境中的表現。
這項工作讓人好奇的是:當AI模型變得越來越強大,它們是否有一天能真正勝任"主動發現問題"這一更高級的推理任務?還是說,這種主動、中立、基於證據的判斷,永遠都是人類獨有的能力邊界?
---
Q&A
Q1:PatRe基準測試里的"審查意見生成"和"駁斥回應生成"有什麼區別?
A:審查意見生成要求AI扮演專利審查員,主動分析專利申請找出法律缺陷並寫出正式拒絕理由;駁斥回應生成則要求AI扮演申請人,針對已有的拒絕意見構建反駁論據。前者是主動發現問題,後者是被動應對問題,研究發現AI在後者上表現比前者好得多,平均得分幾乎翻倍。
Q2:為什麼大語言模型給專利評分時,ROUGE-L這個指標不好用?
A:ROUGE-L衡量的是生成文字與真實文字之間的字面重疊程度,但專利審查文件看重的是法律推理的準確性和技術論據的嚴密性,而不是用詞是否和原文相似。研究發現ROUGE-L與人工評審結果的相關性極低,而專門的AI評審評分與人工評審的一致性則高得多,說明傳統文字匹配指標並不適合評估這類需要深度法律理解的文本任務。
Q3:PatRe數據集是從哪裡來的,為什麼只選了480件專利?
A:數據集來自美國專利商標局的公開資料庫,選取的都是2024年之後完成審查並獲得批准通知的案例,以確保數據的時效性和真實性。480件專利覆蓋了國際專利分類系統的全部八個技術領域(A至H類),每件都附有完整的審查歷史、所有輪次的審查意見、駁斥回應、權利要求修改版本和引用文獻列表。規模控制在480件,是為了在保證覆蓋廣度的同時,完成高質量的人工審核和數據清洗,確保每一條數據都可靠可信。






