OpenAI本周稍早在第一屆開發者大會上宣布定製化ChatGPT、GPT-4 Turbo等服務後,昨(9)日發布了數據合作夥伴方案(OpenAI Data Partnerships),除了幫企業整理或數字化數據,同時取得網絡上找不到的開源與私有數據集來訓練其AI模型。
要訓練出有用且安全的AI,需要其數據集能涵蓋多種主題、產業、文化及語言,因此OpenAI之前曾和多個組織合作,以將其數據納入其訓練數據集,包括冰島政府及一家軟體企業提供冰島語數據,法律非營利組織自由法律項目(Free Law Project)則提供大量法律文件。OpenAI指出,數據合作夥伴方案的目的在將企業組織的數據加入OpenAI的數據集,以便其模型能產出更正確、符合其產業或文化需求的回應。
OpenAI需要不易在公開網際網絡上取得的,且能反映人類社會的大量數據。該公司能處理多種模態的數據,包括文本、圖片、影片及聲音,他們對能表達人類意圖的數據尤其感興趣,像是很長的文本或對話,而非不連續的片段,且不論文本、主題或格式都歡迎。
OpenAI強調,除了取得合作夥伴數據,他們也會用其自行開發的AI科技,協助企業合作夥伴數字化及結構化數據資產。例如他們有光學字符識別(optical character recognition,OCR)技術可將PDF數字化,或使用自動語音識別將口語數據錄寫下來。如果數據需要清洗,像是自動產生的符號或轉錄錯誤,OpenAI也能協助處理。OpenAI謝絕包含敏感或個人數據,或是非企業自有的第三方數據,但如果企業數據中包含這些元素,OpenAI也能幫忙去除。
以數據源區分,OpenAI通過合作夥伴取得開源數據存儲庫,以及組織自有的數據集。OpenAI計劃利用前者訓練開源模型。利用組織自有數據集,他們將訓練自己的基礎AI模型,或是微調及定製化模型。如果合作組織希望保有數據,又希望OpenAI模型能更了解其領域,甚至合作組織自己想開發模型,OpenAI表示會提供合作夥伴屬意的安全防護,以及數據控制權,有興趣的企業組織可以填寫表格以加入合作計劃。
這項合作除了幫助OpenAI取得更多樣數據訓練其GPT、DALL-E等模型,以提升生成結果的品質,也能避免侵害版權或隱私的爭議。OpenAI過去利用爬蟲技術在網際網絡上截取文本及影音數據,已引來作家及出版商的控訴官司。