宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

微軟發布Fara-7B:一個會自己操作網頁的AI助手,成本只有大模型的1/10

2026年01月14日 首頁 » 熱門科技

這項由微軟研究院Ahmed Awadallah領導的研究團隊完成的突破性工作,發表於2025年1月,論文編號為arXiv:2511.19663。有興趣深入了解技術細節的讀者可以通過該編號查詢完整論文。這個名為Fara-7B的AI模型,就像是一個真正懂得如何使用電腦的數字助手,能夠像人類一樣瀏覽網頁、點擊按鈕、填寫表單,完成各種複雜的網上任務。

想像一下,如果你有一個永遠不會疲倦的助手,能夠幫你在網上訂酒店、買機票、查找資訊,甚至幫你完成複雜的網上購物任務。這聽起來像科幻電影裡的情節,但微軟的研究團隊已經讓這個夢想成為現實。更令人驚訝的是,這個AI助手的"大腦"只有70億個參數,相比那些動輒千億參數的大型AI模型,它就像是一台高效的小型跑車,不僅性能出色,而且"油耗"極低。

傳統的AI助手在操作網頁時就像一個需要特殊眼鏡才能看清世界的人。它們依賴複雜的網頁結構分析,需要讀取網頁的"源代碼"才能理解頁面內容。這種方式不僅複雜,而且經常出錯,因為很多網頁的結構並不規範。而Fara-7B就像是擁有了正常視力的人,它直接"看"網頁截圖,就能理解頁面上的所有內容,然後像人類一樣點擊、滾動、輸入文字。

這項研究的核心創新在於解決了AI領域一個長期存在的難題:如何讓AI真正學會操作電腦。以往的研究就像是想要教一個從未見過汽車的人開車,但只給他看汽車手冊。而微軟的研究團隊創造了一個全新的"駕駛學校"——他們開發了一套名為FaraGen的系統,能夠自動生成大量的網頁操作示例,就像是為AI創造了無數個練習場景。

FaraGen系統的工作方式令人著迷。它就像一個永不停歇的任務工廠,能夠自動提出各種現實的網頁任務,比如"在亞馬遜上找一件藍色的恐龍毛絨玩具,要求有超過300條評論",然後讓AI代理去嘗試完成這些任務。更巧妙的是,系統還配備了多重驗證機制,確保每個完成的任務都是正確的。這個過程就像是一個嚴格的質量檢驗流水線,只有真正成功完成任務的操作記錄才會被保留下來,用於訓練Fara-7B。

研究團隊發現,要訓練一個真正有用的網頁操作AI,需要三個關鍵要素,就像烹飪一道複雜菜品需要優質食材、精確配方和嫻熟技藝一樣。第一個要素是任務提案系統,負責生成各種真實的、有意義的網頁任務。第二個要素是任務解決系統,使用多個AI代理協作來嘗試完成這些任務。第三個要素是軌跡驗證系統,確保只有真正成功的操作被記錄下來。

任務提案系統的設計特別巧妙。研究人員發現,不同來源的網站有著截然不同的特點。他們比較了兩個主要的網站數據源:Tranco和ClueWeb22。就像選擇不同的菜市場購買食材一樣,Tranco主要包含企業主頁,這些頁面通常只有展示功能,能執行的操作有限。而ClueWeb22則更像一個豐富多彩的綜合市場,包含了更多實用性網站,比如教育網站、電商平台、論壇等,能夠執行的操作更加豐富多樣。

在任務提案的過程中,系統採用了三種不同的策略,就像一個經驗豐富的導演從不同角度構思劇本。第一種是針對性URL任務提案,專門針對特定類型的網站生成相應的任務。比如,對於電影訂票網站,系統會生成"預訂兩張《魔法壞女巫》在紐約AMC聯合廣場的電影票"這樣的具體任務。第二種是代理式URL探索,讓AI代理隨機訪問網站,然後根據所見內容生成相應的任務。第三種是示例任務提案,基於現有的任務模板創造變化,就像根據一個經典菜譜創造新的口味變化。

任務解決系統採用了多代理協作的方式,就像一個高效的團隊合作。系統中有一個協調者(Orchestrator)負責制定計劃和監督進度,還有一個網路衝浪者(WebSurfer)負責實際執行操作。協調者就像一個經驗豐富的項目經理,能夠識別任務執行中的各種狀態:是否成功、是否遇到關鍵點(比如需要輸入個人資訊的時候)、是否陷入了重複循環等。這種設計確保了AI在執行任務時既高效又安全。

特別值得一提的是系統對"關鍵點"的處理。就像一個負責任的助手在涉及重要決定時會先徵求主人同意一樣,Fara-7B被訓練成在遇到敏感操作時會停下來等待用戶確認。比如,當需要輸入信用卡資訊、個人地址或進行實際購買時,AI會主動暫停並告知用戶,而不是貿然繼續。這種設計大大降低了AI誤操作造成損失的風險。

軌跡驗證系統使用了三種不同的驗證器,就像三重安全檢查確保產品質量。對齊驗證器檢查操作是否符合任務要求;評分驗證器根據詳細標準對任務完成情況評分;多模態驗證器則通過分析截圖來驗證操作結果的真實性。這個三重驗證機制確保了訓練數據的高質量,避免了AI學習錯誤的操作模式。

通過這套完整的數據生成系統,研究團隊創造了一個包含14.5萬個成功任務軌跡的龐大數據集,總共包含超過100萬個操作步驟,覆蓋了7萬多個不同的網站域名。更重要的是,每個成功的任務軌跡的生成成本大約只要1美元,這使得大規模數據生成在經濟上變得可行。

Fara-7B的訓練過程就像培養一個多才多藝的學徒。除了學習完整的任務操作軌跡,它還需要掌握一系列基礎技能。研究團隊為它準備了豐富的輔助訓練材料,包括定位訓練(學會準確點擊頁面元素)、拒絕訓練(學會拒絕有害請求)、以及界面理解訓練(學會描述和理解網頁內容)。這種綜合性訓練確保了Fara-7B不僅能執行複雜任務,還具備了良好的安全意識和基礎技能。

為了全面評估Fara-7B的能力,研究團隊不僅在現有的基準測試上進行了評估,還創建了一個全新的測試套件WebTailBench。這個測試套件就像是為AI助手設計的綜合能力考試,包含了11個不同類別的真實網頁任務,從購物、訂票到求職申請,涵蓋了普通人在網上可能遇到的各種場景。特別重要的是,這些測試都在真實的、實時更新的網站上進行,而不是靜態的測試環境。

測試結果令人印象深刻。在WebVoyager基準測試中,Fara-7B達到了73.5%的成功率,超過了同等規模的其他模型,甚至能與一些參數規模大得多的模型競爭。在成本效益方面,Fara-7B的表現更加突出。每個任務的平均成本只有2.5美分,而基於GPT-4o的系統需要30美分,基於更先進模型的系統成本更是高達1美元以上。這意味著在實際部署時,Fara-7B能夠以極低的成本提供高質量的服務。

在新發布的WebTailBench測試中,Fara-7B表現尤其出色,達到了38.4%的成功率,幾乎是其他同等規模模型的兩倍。這個測試套件專門包含了一些在其他基準測試中很少涉及的任務類型,比如房地產搜索、工作申請、多商品購物清單和價格比較等。這些都是普通人在日常生活中經常需要完成的任務,Fara-7B在這些實用場景中的出色表現證明了其真正的實用價值。

安全性是Fara-7B設計中的重要考量。研究團隊為其配備了完善的安全機制,就像為汽車安裝了多重安全系統。Fara-7B能夠識別和拒絕有害請求,比如黑客攻擊、欺詐活動或其他違法行為。在安全性測試中,它能夠正確拒絕94.2%的有害任務請求,這個表現遠超其他同類模型。同時,它還具備識別關鍵操作點的能力,在涉及敏感資訊或不可逆操作時會主動停止並尋求用戶確認。

從技術角度來看,Fara-7B的設計理念代表了AI發展的一個重要方向。與那些依賴複雜輔助系統的大型模型不同,Fara-7B採用了"像素輸入,操作輸出"的簡潔設計。它只需要看到網頁截圖就能直接預測應該在哪裡點擊、輸入什麼內容,不需要分析複雜的網頁結構代碼。這種設計不僅更加穩定可靠,也更容易在各種設備上部署。

模型的緊湊設計使其具備了獨特的部署優勢。70億參數的規模意味著它可以在普通的高端個人電腦或單個伺服器上運行,而不需要昂貴的大型計算集群。這為本地部署提供了可能性,用戶可以在自己的設備上運行這個AI助手,而不需要將敏感資訊發送到雲端伺服器。對於注重隱私保護的用戶和企業來說,這是一個重要的優勢。

研究團隊進行的擴展性分析也很有啟發性。他們發現,隨著訓練數據量的增加,Fara-7B的性能持續提升,從使用1%數據時的較低性能,到使用完整數據集時的優異表現。這表明,如果有更多高質量的訓練數據,模型性能還有進一步提升的空間。同時,他們也發現增加推理時的最大步數限制能夠提升任務完成率,這說明給AI更多的"思考時間"確實有助於解決複雜問題。

值得關注的是,研究還揭示了不同類型任務的難度差異。簡單的單步操作,如在購物網站找到特定商品,Fara-7B能夠輕鬆完成。而複雜的多步驟任務,如制定旅行計劃或完成跨網站的資訊比較,則更具挑戰性。這反映了當前AI技術的局限性,也為未來的改進指明了方向。

從更廣闊的視角來看,這項研究對AI發展具有重要意義。它證明了通過精心設計的數據生成系統,可以讓相對小型的AI模型獲得令人印象深刻的能力。這挑戰了"越大越好"的傳統觀念,顯示了效率和智能設計的重要性。對於資源有限的研究團隊和企業來說,這提供了一條更可行的AI發展路徑。

研究團隊對未來發展也有清晰的規劃。他們認為Fara-7B還有很大的改進空間,特別是在處理更複雜的多步驟任務和改善人機交互方面。他們正在探索如何讓AI更好地理解用戶意圖,如何在執行長期任務時保持一致性,以及如何與人類更自然地協作完成複雜任務。

這項研究的開放性也值得稱讚。微軟團隊將Fara-7B模型開源發布,並在HuggingFace和Azure Foundry平台上提供訪問。他們還釋出了WebTailBench基準測試,供其他研究團隊使用。這種開放態度有助於整個AI社區的發展,讓更多研究者能夠在這個基礎上進行改進和創新。

當然,Fara-7B目前還存在一些局限性。它無法處理需要拖拽操作的任務,不能觀看或收聽多媒體內容,也不適合需要極低延遲的實時任務(如遊戲操作)。在面對複雜任務時,它有時會出現理解錯誤或執行失誤。這些局限性提醒我們,雖然AI技術已經取得了重大進展,但要真正達到人類水平的電腦操作能力,還需要繼續努力。

研究團隊強調了負責任使用AI的重要性。他們建議用戶在使用Fara-7B時應該保持人工監督,不要與其分享敏感資訊,並在沙盒環境中運行以防止意外風險。他們還明確表示,目前的版本不適用於高風險或嚴格監管的場景,如醫療診斷、法律諮詢或金融決策。

總的來說,Fara-7B代表了AI助手發展的一個重要里程碑。它不僅展示了小型高效模型的潛力,也為AI技術的普及應用開闢了新路徑。隨著技術的不斷改進,我們可能很快就會看到這樣的AI助手成為我們日常生活的一部分,幫助我們更高效地完成各種網上任務。這項研究讓我們離"每個人都有一個AI助手"的未來又近了一步。

Q&A

Q1:Fara-7B能完成哪些具體的網頁操作任務?

A:Fara-7B能夠完成多種日常網頁任務,包括在購物網站搜索和購買商品、預訂酒店和機票、查找餐廳並預訂、搜索工作職位、比較不同網站的商品價格、填寫在線表單等。它就像一個真正懂得使用電腦的助手,能夠像人類一樣瀏覽網頁、點擊按鈕、輸入資訊。

Q2:為什麼Fara-7B比大型AI模型更有優勢?

A:Fara-7B的主要優勢在於成本效益和部署靈活性。每個任務的平均成本只有2.5美分,而基於GPT-4o的系統需要30美分,成本降低了90%。同時,70億參數的規模使其能在普通設備上運行,實現本地部署,保護用戶隱私,而不需要昂貴的大型計算集群。

Q3:FaraGen數據生成系統是如何工作的?

A:FaraGen就像一個自動化的任務工廠,包含三個核心組件:任務提案系統負責生成各種現實的網頁任務,任務解決系統使用多個AI代理協作完成這些任務,軌跡驗證系統確保只有真正成功的操作被記錄。整個系統能以大約每個任務1美元的成本生成高質量的訓練數據。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新