OpenAI的超長發布會還沒結束,谷歌便火速推出Gemini 2.0系列的第一個版本——Gemini 2.0 Flash測試版。
在介紹中,Gemini 2.0 Flash的一些關鍵性能優於Gemini 1.5 Pro,同時,Gemini 2.0 Flash還加入多模態推理、原生調用Google搜索、複雜的指令跟蹤和規劃等功能。最令人期待的一定是Deep Research,它實現的功能就是作為「AI代理人」來做規劃,重點在於,它將突破次元壁,向通用AI更近一步。
在谷歌介紹中,新發布的Gemini 2.0將首次涉足「AI代理時代」,換句話說,我們可以將一部分網路和現實的控制權移交給AI處理,它會代替我們處理許多「現實問題」。比如,你想買新手機,可能會進行很多對比,還需要考慮促銷、是否缺貨等因素,這些繁瑣的步驟可以全部交由Gemini來處理。
結合前段時間泄露的消息,2025年穀歌可能發布的Jarvis AI能夠訪問網站,甚至可以在用戶許可下完成在線購物,以及填寫表格等操作。換句話說,如果得到用戶允許,它甚至可以幫你下單,你在家等待新手機即可。
Gemini團隊的高級產品經理解釋說:「當Gemini Deep Research瀏覽網頁時,它會對發現的內容進行推理,以弄清楚下一步要尋找什麼。從本質上講,這是一種通過內容進行探索和學習的全新方向。」
在功能上看,Gemini Deep Research是一個推理模型,最大的不同是,它可以跟網際網路有完整交互。
在Deep Research上線後,Gemini可以像人類一樣瀏覽網路,通過搜索、找到有趣的內容,然後根據它所學到的資訊再進行新的搜索。它可以多次執行此操作,直到確定它有足夠的資訊來根據用戶的提示生成最終結論。
谷歌把Gemini Deep Research描述成「代理人」,這會讓AI助理突破次元壁,不免讓人擔心這將打開「潘多拉的魔盒」。
針對這些擔憂,谷歌現階段的限制原則是,它不適用於付費專區的研究論文或網站,也不適用於需要登錄才能訪問的網站,未來是否開放這些限制還不得而知。
現實是,谷歌的Gemini正在悄悄更新,AI代理的想法讓人擔憂。試想,當谷歌正式解禁Deep Research全部功能後,我們也許會看到「AI代理人」逐漸成為網路社會的主流,寫代碼、預訂機票和酒店,甚至連玩遊戲都不用親力親為。對人類來說,這樣的未來是更封閉,還是更開放?