OpenAI啟動合作夥伴計劃，以擴大取得模型訓練數據集

OpenAI本周稍早在第一屆開發者大會上宣布定製化ChatGPT、GPT-4 Turbo等服務後，昨（9）日發布了數據合作夥伴方案（OpenAI Data Partnerships），除了幫企業整理或數位化數據，同時取得網路上找不到的開源與私有數據集來訓練其AI模型。

贊助商廣告

要訓練出有用且安全的AI，需要其數據集能涵蓋多種主題、產業、文化及語言，因此OpenAI之前曾和多個組織合作，以將其數據納入其訓練數據集，包括冰島政府及一家軟體企業提供冰島語數據，法律非營利組織自由法律項目（Free Law Project）則提供大量法律文件。OpenAI指出，數據合作夥伴方案的目的在將企業組織的數據加入OpenAI的數據集，以便其模型能產出更正確、符合其產業或文化需求的回應。

OpenAI需要不易在公開網際網路上取得的，且能反映人類社會的大量數據。該公司能處理多種模態的數據，包括文本、圖片、影片及聲音，他們對能表達人類意圖的數據尤其感興趣，像是很長的文本或對話，而非不連續的片段，且不論文本、主題或格式都歡迎。

OpenAI強調，除了取得合作夥伴數據，他們也會用其自行開發的AI科技，協助企業合作夥伴數位化及結構化數據資產。例如他們有光學字符識別（optical character recognition，OCR）技術可將PDF數位化，或使用自動語音識別將口語數據錄寫下來。如果數據需要清洗，像是自動產生的符號或轉錄錯誤，OpenAI也能協助處理。OpenAI謝絕包含敏感或個人數據，或是非企業自有的第三方數據，但如果企業數據中包含這些元素，OpenAI也能幫忙去除。

以數據源區分，OpenAI通過合作夥伴取得開源數據儲存庫，以及組織自有的數據集。OpenAI計劃利用前者訓練開源模型。利用組織自有數據集，他們將訓練自己的基礎AI模型，或是微調及定製化模型。如果合作組織希望保有數據，又希望OpenAI模型能更了解其領域，甚至合作組織自己想開發模型，OpenAI表示會提供合作夥伴屬意的安全防護，以及數據控制權，有興趣的企業組織可以填寫表格以加入合作計劃。

贊助商廣告

這項合作除了幫助OpenAI取得更多樣數據訓練其GPT、DALL-E等模型，以提升生成結果的品質，也能避免侵害版權或隱私的爭議。OpenAI過去利用爬蟲技術在網際網路上截取文本及影音數據，已引來作家及出版商的控訴官司。