宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

過河拆橋?為防「爬蟲」爬取數據訓練AI,百度百科隱藏了谷歌等友商

2024年08月22日 首頁 » 熱門科技

近日有報道稱,為了防止未經允許的「爬蟲」爬取數據用於訓練AI過河拆橋?為防「爬蟲」爬取數據訓練AI,百度百科隱藏了谷歌等友商,百度百科已經隱藏了谷歌過河拆橋?為防「爬蟲」爬取數據訓練AI,百度百科隱藏了谷歌等友商、必應等大多數搜尋引擎。百度過河拆橋?為防「爬蟲」爬取數據訓練AI,百度百科隱藏了谷歌等友商啊百度,你也學會過河拆橋了?

過河拆橋?為防「爬蟲」爬取數據訓練AI,百度百科隱藏了谷歌等友商

有網友扒出了百度百科的robots.txt文件,發現允許放行的白名單中,只有百度搜索、搜狗搜索、中國搜索(Chinaso)、YYSpider和宜搜搜索(EasouSpider)幾個搜尋引擎,而谷歌、必應、微軟過河拆橋?為防「爬蟲」爬取數據訓練AI,百度百科隱藏了谷歌等友商MSN、UC的Yisouspider以及其他搜尋引擎的爬蟲已被列入了禁止名單。

過河拆橋?為防「爬蟲」爬取數據訓練AI,百度百科隱藏了谷歌等友商

眾所周知,搜尋引擎的工作原理,就是依靠「爬蟲」到不同的網站上爬取數據,然後展示在自己的搜索結果中。

百度曾經能搜到很多內容,但百度的「爬蟲」過於高頻地訪問網站爬取數據,會對網站的伺服器產生巨大壓力,影響到了正常運轉,會主動選擇禁止百度爬取數據。此外,一些網站為了占據用戶心智、避免影響廣告收入等原因,也會主動選擇隱藏百度的爬蟲,這就導致百度越來越難搜到想要東西了。

過河拆橋?為防「爬蟲」爬取數據訓練AI,百度百科隱藏了谷歌等友商

近幾年,AI大模型的快速發展,需要不少用戶真實數據進行支撐,而包含百度用戶自發編輯的百科內容,絕對是一個不小的數據訓練寶庫,「人均碩博學歷、頻繁剛下飛機」的知乎也是同理。但據爆料,知乎已經先百度一步禁止了其他搜尋引擎的爬蟲,把白名單中的谷歌和必應踢掉,只留下了百度和搜狗。

曾經,百度起家靠的就是爬遍全網的「爬蟲」們,把自己爬到了「國服第一」的位置。但現在,想在文心一言上發力的百度卻反手禁了其他友商的爬蟲,把車門給焊死了,誰都別想上來。

對此,我們也只能感嘆到,網際網路越來越不互聯了。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新