Meta為其AI模型找到了一個新的訓練數據來源:自己的員工。該公司計劃利用從員工滑鼠移動和鍵盤輸入中採集的數據,以構建更強大、更高效的人工智慧系統。
這一消息由路透社率先報道,揭示了科技公司為尋找新訓練數據來源所付出的努力。訓練數據是AI模型的核心驅動力,幫助程序更有效地執行任務並響應用戶查詢。
Meta發言人在接受TechCrunch採訪時發表了以下聲明:
"如果我們要構建幫助人們通過電腦完成日常任務的智能體,我們的模型就需要真實的示例來了解人們實際上是如何使用電腦的——比如滑鼠移動、點擊按鈕和操作下拉菜單等。為此,我們正在推出一款內部工具,用於在特定應用程序中捕獲此類輸入,以幫助我們訓練模型。我們已建立相應的保障措施來保護敏感內容,且這些數據不會用於任何其他用途。"
這一趨勢似乎揭示了AI行業令人擔憂的隱私問題。昔日的企業內部通信正日益成為新型企業供應鏈的原材料。就在上周,有報道指出,一些老牌初創公司的企業通信內容——包括Slack存檔、Jira工單及其他內部通信平台的記錄——正遭到挖掘,並被轉化為AI訓練素材。
Q&A
Q1:Meta為什麼要記錄員工的滑鼠移動和鍵盤輸入?
A:Meta希望構建能幫助人們通過電腦完成日常任務的智能體,因此模型需要真實的人機交互示例,例如滑鼠移動、按鈕點擊和下拉菜單操作等。通過內部工具採集員工的實際操作行為,可以為AI模型提供更貼近真實使用場景的訓練數據。
Q2:Meta採集員工數據是否會涉及隱私泄露風險?
A:Meta表示已建立相應保障措施以保護敏感內容,且所採集數據僅用於訓練模型,不會用於其他用途。不過,此舉也反映出AI行業在訓練數據來源方面日益凸顯的隱隱私患,員工的操作行為數據正逐漸成為企業AI研發的重要原材料。
Q3:科技公司目前還在通過哪些途徑獲取AI訓練數據?
A:除採集員工操作數據外,據報道部分科技公司還在挖掘老牌初創公司的企業內部通信內容,包括Slack存檔、Jira工單及其他內部消息平台的記錄,並將這些內容轉化為AI模型的訓練素材。






