宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

OpenAI的爬蟲被設計癱瘓,卡在「最無聊的內容農場」上無法脫身

2024年04月15日 首頁 » 熱門科技

OpenAI的爬蟲被設計癱瘓,卡在「最無聊的內容農場」上無法脫身


OpenAI的數據爬蟲最近發現自己卡在一個獨特的網站上,這個網站被稱為「世界上最無聊的內容農場」,導致活動急劇增加。這個網站是由《網路入門》(Internet for Dummies)一書的作者約翰·萊文(John Levine)所創建,是一個實驗性質的網站。

該網站包含數十億個單頁的網站,所有網站相互鏈接。每個頁面看起來幾乎相同,但每當有人點擊連接,網站的內容就會稍微改變一下。萊文使用一個簡單的程序創建了一個系統,每次點擊都會從存儲在資料庫中的一組名字中產生一個新的頁面名稱。

萊文的網站設計很容易誘捕網頁爬蟲,這些爬蟲是設計用來掃描網際網路的程序。例如,OpenAI的機器人就因此陷入這個循環其中,甚至於在一天內幾乎每秒訪問該網站150次。

萊文對此感到很有趣,並在一個面向網路開發者和IT專家的專業郵件列表上分享了這個問題,尋找OpenAI的聯繫窗口,要向他報告他們爬蟲的行為。

這一事件凸顯了一個更廣泛的問題,即AI模型是如何通過無分別地從網路收集數據進行訓練,有時會捕獲無意義或無關的消息。這個問題足以引起萊文對未來AI版本可能使用的訓練數據性質的評論。

他幽默地建議,如果有人對訓練下一代AI模型的數據感到好奇,他們現在有了一個範例了。

當萊文發文後,機器人停止訪問該網站,問題得到了解決。他的網站有些不尋常。與其說是擁有數十億頁面,不如說是數十億個擁有單一頁面的小型網站。

這種設置讓許多網路爬蟲感到困惑,不僅僅是OpenAI的爬蟲。過去,來自Bing和Amazon的機器人也曾發生過類似問題。

萊文網站也有一些較輕鬆的目的。它放了兩本萊文的書和一盒假雞蛋的廣告,萊文形容這些商品「蠻可愛的」。

儘管有商業方面考量,但他提到他書籍的銷售量已不如從前,幽默地補充說,不像他那本暢銷書早期問世的時候,現在每個人都知道如何使用網際網路了。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新