美國普渡大學的研究發現,OpenAI開發的人工智慧聊天機器人ChatGPT在回答軟體程序問題時,錯誤率超過一半,且能騙過三分之一的提問者。
該研究團隊分析了ChatGPT對517個Stack Overflow網站上的問題的回答,評估了其正確性、一致性、全面性和簡潔性。他們還對回答進行了語言和情感分析,並對12名志願參與者進行了問卷調查。
這份研究報告的結論是:ChatGPT的回答雖然語言風格良好,但其實有52%的回答是錯誤的,77%是太過於冗長的。參與者只有在回答中的錯誤很明顯時,才能識別出來。否則,他們會被ChatGPT的友好、權威和細緻的語言風格所誤導。
他們的論文指出:「在我們的研究過程中,我們觀察到,只有當ChatGPT答案中的錯誤很明顯時,用戶才能識別出錯誤。但是,當錯誤不易驗證或需要用到外部IDE時,用戶往往沒有能力去發現錯誤,或低估答案中的錯誤程度。」
不過,論文中也指出,即使答案存在明顯錯誤,12名參與者中仍有兩人仍然會選擇採用ChatGPT的答案。論文認為,這是因為ChatGPT具有令人愉快、權威的風格。
該論文解釋說:「從半結構化訪談中可以明顯看出,禮貌的語言、清晰的教科書風格的答案、全面性和答案的關聯性,將使得就算是完全錯誤的答案也能看起來是正確的。」
該論文的作者之一Samia Kabir表示:參與實現的人更喜歡不正確且冗長的ChatGPT答案,而不是Stack Overflow的答案,這是由於多種原因造成的。
「主要原因之一是ChatGPT的答案非常詳細。在很多情況下,如果參與者從冗長而詳細的答案中獲得有用的資訊,他們並不介意回答的長度。此外,積極的情緒和答案的禮貌是另外兩個原因。」
「當參與者發現ChatGPT的答案很有洞察力時,他們就會忽略了答案中實際存在的錯誤。ChatGPT自信地傳達有洞察力的資訊(即使資訊不正確)的方式贏得了用戶的信任,這使他們更喜歡錯誤的答案。」
Stack Overflow是一個專門為程序設計師提供問答服務的網站,被認為是開發者獲取程序代碼片段和解決問題的重要來源。然而,該網站近年來也面臨著流量下降、內容品質下降和用戶信任下降等問題。據SimilarWeb在4月份的一份報告顯示,自2022年1月以來,該網站每月流量下降了6%,3月份下降了13.9%,而ChatGPT可能是導致其流量下降的原因之一。Stack Overflow則否認了SimilarWeb的評估,並表示其流量受到搜索算法和ChatGPT興趣激增的影響。
作者觀察到,ChatGPT的答案還更有煽動性——暗示成就或成就的語言——。「在很多情況下,我們觀察到ChatGPT插入了諸如『當然我可以幫助你'、『這肯定會解決它'等單詞和短語。」
在其他發現中,作者發現ChatGPT更容易犯概念錯誤,而不是事實錯誤。該論文發現:「由於ChatGPT無法理解所提出問題的潛在背景,許多答案都是不正確的。」
作者對ChatGPT答案和Stack Overflow答案的語言分析表明,機器人的反應「更正式,表達更多分析思維,展示更多實現目標的努力,並表現出更少的負面情緒。」他們的情緒分析得出的結論是:ChatGPT的答案比Stack Overflow的答案表達了「更積極的情緒」。
OpenAI在其ChatGPT網站上承認其軟體「可能會產生關於人、地點或事實的不精準資訊。」該公司暫未對普渡大學的研究作出回應。