宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

剛剛,OpenAI 再出招反擊 DeepSeek!「深度研究」在這個終極測試超越 R1

2025年02月03日 首頁 » 熱門科技

DeepSeek 席捲的 AI 風暴尚未消停。

外媒消息稱美國國會議員已經提出新法案,旨在禁止中國 AI 技術在美國使用。其中包括下載 DeepSeek 定為犯罪行為,最高可判處 20 年監禁。

同時據美聯社報道,美國得州已發文禁止在政府設備上使用和 DeepSeek 和小紅書。

就在 DeepSeek 遭遇美國政策阻擊之際,老對手 OpenAI 也正如火如荼地舉辦著一場重要直播活動。

剛剛,OpenAI 再出招反擊 DeepSeek!「深度研究」在這個終極測試超越 R1

在軟銀 CEO 孫正義投資數百億美元之後,OpenAI 今天也選擇投桃報李,在東京的直播活動中正式宣布了一項名為 Deep Research(深度研究)功能。

顧名思義,與普通的 AI 搜索功能有所不同,Deep Research 的野心更足。

它號稱是下一代智能 Agent,能夠獨立為你完成任務。

你只需輸入你的問題,它就能查找、分析並整合數百個在線來源,生成一份媲美研究分析師水平的綜合報告。

剛剛,OpenAI 再出招反擊 DeepSeek!「深度研究」在這個終極測試超越 R1

更重要的是,該功能的底層模型是由尚未發布的 OpenAI o3 模型的特定版本驅動,專為網頁瀏覽和數據分析優化,能夠運用推理能力搜索、解讀並分析海量文本、圖片和 PDF 文件。

這也是專為「在金融、科學、政策和工程等領域從事大量知識工作的專業人士」設計的,這些人群通常需要進行「徹底、精準且可靠的研究」。

另外,這項功能還可化身選購搭子,在你挑選購買汽車、電器或家具時,使用它來仔細研究產品資訊或許會大有幫助。

 

OpenAI CEO Sam Altman 發文稱:

「今天,我們正式推出 Deep Research——我們的下一代智能 Agent。這就像一種超級能力,讓你隨時召喚專家!

它可以上網搜索,進行複雜的研究和推理,並為你生成報告。效果非常出色,能完成原本需要數小時甚至數天、花費數百美元的任務。」

目前,Deep Research 功能已向售價 200 美元的 ChatGPT Pro 用戶開放,每月最多可使用 100 次。

接下來,Plus 和 Team 用戶也將獲得該功能,隨後是企業版。

剛剛,OpenAI 再出招反擊 DeepSeek!「深度研究」在這個終極測試超越 R1

OpenAI 表示,Plus 版預計將在一個月內推出,並且付費用戶的查詢次數限制很快會「明顯提高」。

不過,該功能目前僅支持網頁版,移動端和桌面端應用程序的集成預計將在本月晚些時候推出。

使用這項功能,用戶只需在 ChatGPT 界面中選擇消息輸入框中的「Deep Research」模式,然後輸入需要查詢的問題即可。

另外,你還可以附加文件或電子表格作為問題的補充,任務開始後,側邊欄輸出都會附帶「完整的文檔、清晰的引用來源以及思維過程的摘要」。

剛剛,OpenAI 再出招反擊 DeepSeek!「深度研究」在這個終極測試超越 R1

術業有專攻,GPT-4o 同樣支持搜索功能,但對於涉及多個方面、需要深度和細節的專業研究,Deep Research 能夠進行廣泛探索,並為每個結論提供來源支持。

響應速度方面,該功能的執行過程可能需要 5 到 30 分鐘,完成後,用戶會收到通知。

該功能的輸出內容暫時僅限於文本。不過,OpenAI 計劃很快增加嵌入式圖片、數據可視化以及其他分析類輸出。同時,該公司還計劃擴展數據來源,包括「訂閱制」資訊服務和企業內部資源,預計將逐步提供 ToB 服務。

剛剛,OpenAI 再出招反擊 DeepSeek!「深度研究」在這個終極測試超越 R1

據悉,Deep Research 通過端到端強化學習訓練,專注於複雜的網頁瀏覽和推理任務,覆蓋多個領域。

通過這一訓練,它學會了規劃並執行多步搜索路徑,以找到所需數據,並能在必要時回溯調整,實時響應新資訊。

OpenAI 表示,他們使用了一項名為 Humanity’s Last Exam 的評測來測試該功能。

該測試涵蓋 100 多個學科,包含 3000 多道涵蓋多個學術領域的專家級問題,包括語言學、航天工程、古典學和生態學。

與 OpenAI o1 相比,Deep Research 在 化學、人文社會科學和數學領域的表現提升最為顯著。

Deep Research 所使用的模型在專家級問題上的準確率達到了 26.6%,創下新高。相比之下, Google 的 Gemini Thinking 僅獲得 6.2% 的準確率,Grok-2 為 3.8%,GPT-4o 只有 3.3%。

而 DeepSeek-R1 的準確率僅僅只有 9.4%,遠低於 Deep Research。

剛剛,OpenAI 再出招反擊 DeepSeek!「深度研究」在這個終極測試超越 R1

在 GAIA 這一公共基準測試中,Deep Research 所使用的模型達到了最新的業界領先水平(SOTA)。

GAIA 評測涵蓋三種不同難度級別的現實世界問題,成功完成這些任務需要推理、多模態理解、網頁瀏覽以及工具使用能力。

剛剛,OpenAI 再出招反擊 DeepSeek!「深度研究」在這個終極測試超越 R1

Deep Research (cons@64) 方法在所有等級上均優於 Previous SOTA 和 Deep Research (pass@1),特別是在 Level 3 取得了最大的提升,最終平均分 72.57 最高。

該結果表明,更高級的 Deep Research 方法(cons@64)可以顯著提高所有級別的性能,特別是在挑戰性更高的 Level 3 上。

不過,指望 Deep Research 能完全避免 AI 幻覺也並非易事,它在報告和引用格式上也可能出錯。

即便有著引用鏈接的參考驗證,也建議在使用過程認真核查 AI 提供的資訊,而非僅僅直接複製粘貼。

值得一提的是,這項 AI 功能的負責人之一 Zhiqing Sun(孫之清),本科就讀於北京大學電腦科學與技術系。

剛剛,OpenAI 再出招反擊 DeepSeek!「深度研究」在這個終極測試超越 R1

2019 年起,Zhiqing Sun 在美國卡內基梅隆大學(CMU)語言技術研究所攻讀博士學位,2024 年起,開始擔任 OpenAI 的研究員。

Zhiqing Sun 的實習經歷也相當豐富,曾在 Google Brain、微軟亞洲研究院、MIT-IBM Watson AI Lab 等知名 AI 公司機構實習。

對於這項功能,OpenAI 官方表示,今天發布的版本僅僅是個開始。未來,它還能連接到定製化的數據環境,甚至企業級的海量數據存儲系統。

AI Agent 可以花更長時間思考,以更高的自主性,解決極其複雜的任務。

「Deep Research 的推出標誌著我們向更宏偉目標邁出了重要一步——即開發能夠進行原創科學研究的通用人工智慧(AGI)。這一直是我們長期以來的願景。」

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新