宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

號稱「首個 AI 軟體工程師」的工具被測試者認為表現不佳

2025年01月24日 首頁 » 熱門科技

 

號稱「首個 AI 軟體工程師」的工具被測試者認為表現不佳

 

根據最近的評估,一個被稱為"首個 AI 軟體工程師"的服務似乎在工作表現上相當糟糕。

這個自動編碼工具名為 "Devin",於 2024 年 3 月推出。其創造者 Cognition AI 聲稱 "Devin 可以端到端地構建和部署應用程序",並且"能夠自主發現和修復代碼庫中的 bug"。該工具於 2024 年 12 月正式發布,起價為每月 500 美元。

根據 Cognition 的文檔描述:"Devin 是一個自主的 AI 軟體工程師,能夠編寫、運行和測試代碼,幫助軟體工程師處理個人任務或團隊項目。" 它"可以審查 PR、支持代碼遷移、響應隨叫隨到的問題、構建網路應用程序,甚至可以執行個人助理任務,比如通過 DoorDash 幫你訂午餐,讓你專注於代碼開發。"

該服務主要通過 Slack 接收命令,這些命令會被發送到其計算環境中 - 一個包含終端、瀏覽器、代碼編輯器和規劃器的 Docker 容器。這個 AI 代理支持與外部服務的 API 集成,例如,它可以通過 SendGrid 代表用戶發送電子郵件。

Devin 是一個"複合 AI 系統",這意味著它依賴於多個底層 AI 模型,包括 OpenAI 的 GPT-4,且這些模型可能會隨時間演變。

理論上,你應該能夠要求它執行諸如將代碼遷移到 nbdev(一個 Jupyter Notebook 開發平台)之類的任務,並期望它成功完成。但這可能要求過高了。

Devin 的早期評估發現了一些問題。Cognition AI 發布了一段宣傳影片,聲稱展示了 AI 編碼器在自由職業者平台 Upwork 上自主完成項目的過程。軟體開發者 Carl Brown 在他的 Internet of Bugs YouTube 頻道上分析並揭露了該影片的問題。

該軟體代理還被另一位 YouTube 代碼評論員指出據稱存在嚴重的安全問題。

現在,三位隸屬於 Answer.AI(由 Jeremy Howard 和 Eric Ries 創立的 AI 研究和開發實驗室)的數據科學家對 Devin 進行了測試,發現它在 20 個任務中僅成功完成了 3 個。

Hamel Husain、Isaac Flath 和 Johno Whitaker 在本月早些時候進行的分析中發現,Devin 開始表現不錯,成功地將數據從 Notion 資料庫導入到 Google Sheets。這個 AI 代理還成功創建了一個用於檢查木星和土星歷史位置的行星追蹤器。

但隨著三位研究人員繼續測試,他們遇到了問題。

研究人員在報告中解釋道:"看似簡單的任務往往需要花費數天而不是數小時,Devin 要麼陷入技術死胡同,要麼產生過於複雜、無法使用的解決方案。更令人擔憂的是,Devin 傾向於繼續推進實際上不可能完成的任務。"

例如,當要求 Devin 在基礎設施部署平台 Railway 上部署多個應用程序時,它沒有意識到這是不支持的功能,花費了超過一天的時間嘗試無效的方法,並臆想出不存在的功能。

在提供給 Devin 的 20 個任務中,這個 AI 軟體工程師只令人滿意地完成了 3 個 - 上面提到的兩個以及第三個用 Python 研究如何構建 Discord 機器人的任務。另外 3 個任務結果不確定,14 個項目徹底失敗。

研究人員表示,Devin 提供了一個精緻的用戶體驗,在正常工作時令人印象深刻。

"但問題在於 - 它很少能正常工作,"他們寫道。

"更令人擔憂的是我們無法預測哪些任務會成功。即使是與早期成功案例類似的任務,也會以複雜且耗時的方式失敗。最初看似有前途的自主性反而成了一個負擔 - Devin 會花費數天時間追求不可能的解決方案,而不是認識到根本性的障礙。"

Cognition AI 沒有回應置評請求。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新