Elon Musk最近提到,人工智慧公司現正面臨一個日益嚴峻的挑戰:人類知識數據逐漸枯竭。這種情況在去年已經顯現。他建議,科技公司應採用由AI模型生成的「合成」數據,以填補數據不足,進一步強化系統。然而Elon Musk也警告,依賴合成數據可能導致「模型崩潰」,即AI系統性能下降的風險。
惟Elon Musk在接受廣告集團Stagwell董事長Mark Penn的直播採訪時表示,依賴合成數據可能導致AI出現幻覺,因為屆時已經無從稽考到底數據來源純屬幻覺或是真實答案。
Watch Stagwell's CEO Mark Penn interview Elon Musk at CES!https://t.co/BO3Z7bbHOZ
— Live (@Live)January 9, 2025
目前OpenAI的GPT-4等AI模型主要依賴從網際網路收集的龐大數據進行訓練,通過分析語言模式來預測句子中的下一個詞語。隨著數據日漸枯竭,Elon Musk認為,解決之道在於運用AI自行生成的合成數據(Synthetic data)。Elon Musk指AI可以撰寫文章或提出論點,並為自己評分,通過自我檢討學習完善模型,從而緩解數據來源不足的困境。
Microsoft、Facebook母公司Meta、OpenAI和Anthropic等多家科技巨頭,早已開始嘗試利用合成數據訓練AI模型。根據科技市場調查調機構Gartner估算,2024年約60%的AI和數據分析項目已開始使用合成數據作為核心資源。例如1月8日Microsoft開源的AI模型「Phi-4」就採用了結合合成數據與現實世界數據訓練。Google的「Gemma」模型也採用了類似策略,而Anthropic則通過部分合成數據,開發出「Claude 3.5 Sonnet」。至於Meta則運用AI生成數據微調其最新推出的Llama系列模型。
儘管如此,專家對這一趨勢持審慎態度。他們指出,倘若過度依賴合成數據,可能會放大既有偏差與錯誤,進而影響AI的生成結果準確性,甚至削弱模型的實際應用效果。因此如何在有限的數據資源中平衡創新與可靠性,已成為AI發展道路上亟待破解的重要課題。
圖片來源:Scientific American
數據源:The Guardian、Fortune、Live@X