
儘管 OpenAI 首席執行官山姆・奧爾特曼(Sam Altman)堅稱,到今年年底,人工智慧模型將能夠超越「低級別」軟體工程師,但該公司研究人員的最新研究卻表明,即使是目前最先進的 AI 模型,仍無法與人類程式設計師相媲美。
研究人員在一篇新論文中指出,即使是前沿模型 —— 即那些最具創新性和突破性的 AI 系統 ——「仍然無法解決大多數」編程任務。為此,研究人員開發了一個名為 SWE-Lancer 的新基準測試工具,該工具基於自由職業者網站 Upwork 上的 1400 多個軟體工程任務。通過這一基準測試,OpenAI 對三款大型語言模型(LLMs)進行了測試,分別是其自身的 o1 推理模型、旗艦產品 GPT-4o,以及 Anthropic 公司的 Claude 3.5 Sonnet。

具體而言,這一新基準測試評估了這些 LLMs 在處理 Upwork 上的兩類任務時的表現:一類是個體任務,涉及修復漏洞並實施修復措施;另一類是管理任務,要求模型從更宏觀的角度做出更高層次的決策。值得注意的是,在測試過程中,這些模型被禁止訪問網際網路,因此它們無法直接抄襲網上已有的類似答案。
這些模型所承擔的任務在 Upwork 上的價值累計可達數十萬美元,但它們僅能解決一些表面的軟體問題,卻無法在大型項目中真正找到漏洞及其根源。這種「半成品」的解決方案,對於與 AI 有過合作經驗的人來說並不陌生 ——AI 擅長輸出聽起來自信滿滿的資訊,但在仔細審查時往往漏洞百出。
儘管論文指出,這三款 LLMs 通常能夠「遠快於人類」地完成任務,但它們卻無法理解漏洞的廣泛性及其背景,從而導致解決方案「錯誤或不夠全面」。
研究人員解釋稱,Claude 3.5 Sonnet 的表現優於另外兩款 OpenAI 模型,並且在測試中「賺取」的金額也超過了 o1 和 GPT-4o。然而,其大多數答案仍然是錯誤的。研究人員指出,任何模型若想被真正用於實際編程任務,都需要具備「更高的可靠性」。
簡而言之,該論文似乎表明,儘管這些前沿模型能夠快速地處理一些細節任務,但它們在處理這些任務時的技能水平,仍遠遠不及人類工程師。
儘管近年來這些大型語言模型取得了快速的發展,並且未來還會繼續進步,但它們目前在軟體工程領域的技能水平仍不足以取代人類。然而我們也注意到,這似乎並未阻止一些首席執行官解僱人類程式設計師,轉而使用這些尚未成熟的 AI 模型。