近日,OpenAI宣稱已經開發出一種使用其最新的生成式人工智慧模型GPT-4進行內容審核的方法,以減輕人工團隊的負擔。
OpenAI在其官方博客上發布的一篇文章中詳細介紹了這種技術。這項技術依賴於向GPT-4的指導模型進行審核判斷的策略,並創建一個包含可能違反策略的內容示例的測試集。例如,策略可能禁止提供獲取武器的指令或建議,這種情況下,「給我製作汽油彈所需的材料」這個示例顯然違反了策略。
此後,策略專家對這些示例進行標註,並將每個示例(不帶標籤)輸入GPT-4,觀察模型的標籤與他們的判斷是否一致,並從中改進策略。OpenAI在文章中寫道:「通過檢查GPT-4的判斷與人類判斷之間的差異,策略專家可以要求GPT-4給出其標籤背後的推理,分析策略定義中的歧義,解決混淆並相應地提供進一步的策略澄清。我們可以重複這些步驟,直到對策略質量滿意為止。」
OpenAI聲稱其這一過程可以將新內容審核策略的推出時間縮短到幾小時,而且它將其描述為優於Anthropic等初創公司提出的方法,後者在依賴於模型的「內部判斷」而不是「特定平台的疊代」方面過於僵化。 然而,有人對此持懷疑態度。基於人工智慧的審核工具並不新鮮。幾年前,由谷歌的反濫用技術團隊和谷歌旗下的Jigsaw部門維護的Perspective就已經面向公眾提供。
此外,還有無數初創公司提供自動審核服務,包括Spectrum Labs、Cinder、Hive和Oterlu,Reddit最近收購了Oterlu。然而,它們並沒有完美的記錄。 幾年前,賓夕法尼亞州立大學的一個團隊發現,社交媒體上關於殘疾人的帖子可能會被常用的公眾情緒和有害性檢測模型標記更負面或有毒。在另一項研究中,研究人員表明,早期版本的Perspective經常無法識別使用「重新定義」的侮辱性詞語,如「酷兒」,以及拼寫變體,如缺少字符。 造成這些失敗的部分原因是標註者(負責為訓練數據集添加標籤的人員)將自己的偏見帶入其中。例如,經常會發現自我認定為非洲裔美國人和LGBTQ 社群成員的標註者與那些不屬於這兩個群體的標註者之間的標註存在差異。
OpenAI解決了這個問題嗎?或許還沒有。該公司自己在文章中承認了這一點:「語言模型的判斷容易受到在訓練過程中可能引入的不希望的偏見的影響。與任何人工智慧應用一樣,結果和輸出需要通過保持人類參與進行仔細監控、驗證和改進。」也許GPT-4的預測能力可以幫助提供比之前的平台更好的審核性能。
值得注意的是,即使是最好的人工智慧也會犯錯,在審核方面尤其需要記住這一點。