這項由中國科學院深圳先進技術研究院、中國科學院大學、大連理工大學以及澳大利亞新南威爾斯大學共同完成的研究,以預印本形式發布於2026年4月30日,論文編號為arXiv:2604.27419v1,分類於電腦人工智慧領域。感興趣的讀者可通過該編號在arXiv平台檢索完整論文。
一、從"說一聲就能建網站"的美好願景,到現實的尷尬
有沒有這樣一個場景:你對著電腦說,"幫我做一個能賣二手書的網站,要有點復古的感覺,最好是那種泛黃的暖色調",然後AI真的就給你做好了?這個願景正在快速變為現實。隨著多模態大語言模型和智能編程助手的飛速發展,網站開發正從需要專業程序員逐步走向普通人用自然語言就能驅動的新時代。
然而,現實並不像宣傳片裡那麼順滑。研究團隊注意到了一個普遍存在卻鮮少被正視的問題:當普通用戶——也就是那些不懂CSS、不知道什麼是前端框架的人——用含糊不清或前後矛盾的話描述需求時,AI系統往往會陷入一種"閉眼乾活"的狀態。它不去詢問、不去確認,直接就開始寫代碼,結果交出來的東西看起來挺像那麼回事,但根本不是你想要的。
研究團隊把這種現象命名為"盲執行"(Blind Execution)。這個詞精準地描述了問題所在:AI就像一個收到一張模糊菜單的廚師,既不回廚房問清楚客人到底想要辣還是不辣、有沒有忌口,就直接開炒,端出來的菜品賣相不錯,卻可能完全不合口味。這篇論文的核心任務,就是系統地測量這種"閉眼乾活"現象到底有多普遍、多嚴重,並為改善它提供一個可靠的測試平台。
二、現有測試平台有什麼問題?為什麼需要新的評測框架
在弄清楚研究團隊做了什麼之前,有必要了解他們為什麼要重新建一套評測體系。此前已經有一些專門測試AI網站生成能力的基準測試,比如把一張網頁截圖交給AI、讓它還原出對應代碼的Design2Code,或者給出完整的文字說明讓AI從零搭建網站的WebGen-Bench。
但這些測試有一個共同的"理想化假設":用戶提供的需求是完整的、清晰的、邏輯自洽的。這就好比評估一位廚師的能力,只給他提供最標準的食譜,從不測試他在面對"我想要一道既清淡又重口味、既甜又不能放糖"這類矛盾需求時該怎麼辦。
真實世界的用戶根本不是這樣描述需求的。他們可能極度簡短,只說"給我做個購物網站",把所有細節都省略掉;也可能極度囉嗦,在說完真正需求之前先聊了半天天氣;還可能在同一段話里前後矛盾,要求頁面"簡潔乾淨"的同時又想要"資訊豐富、功能齊全"。面對這類不完美的真實輸入,現有的測試體系幾乎無從評估。
研究團隊認為,這個空白必須被填補。於是他們設計了InteractWeb-Bench,一個專門針對"非專業用戶、模糊需求"場景下網站生成的交互式評測框架,也是目前該領域第一個這樣做的系統性基準測試。
三、四類"搗亂用戶":把真實的混亂系統化
InteractWeb-Bench的核心創新之一,在於它引入了四種類型的模擬用戶,每一種都對應著真實生活中某類人提需求的方式。設計這四種角色時,研究團隊並非憑感覺拍腦袋,而是基於軟體工程領域中被廣泛認可的"需求工程缺陷分類學"——一套經過學術驗證的、用於描述用戶需求中常見問題類型的理論框架,同時參照了語言學中的"格萊斯會話準則",即人們在正常對話中應遵守的數量、關聯、方式和質量四項原則。
第一種用戶叫做"極簡派",在論文中標記為P-MIN。這類用戶代表著"需求不完整"的情況。他們極度惜字如金,只說核心功能,把所有細節統統省略。比如上面提到的"給我做個購物網站",顏色、布局、功能細節一概不提。AI面對這樣的需求,要麼老老實實去問,要麼憑自己的理解去補全——這正是測試AI主動澄清能力的絕佳場景。
第二種用戶叫做"話癆派",標記為P-RAM。他們代表"低信噪比"的情況,說了一大堆,但真正有用的資訊被淹沒在大量無關內容里。設想一個用戶說:"你知道嗎,最近天氣真的好烇,昨天還下了雨,說起來我們公司最近在搞環保活動,順帶說一下,能不能幫我做個收集垃圾分類資訊的網站,要有地圖功能,就像我鄰居家那個會議記錄軟體那種感覺,他們家的貓特別可愛……"在這種場景下,AI需要具備強大的資訊提取和過濾能力。
第三種用戶叫做"直覺派",標記為P-INT。他們代表"需求模糊且非技術化"的情況。這類用戶通常不懂技術術語,習慣用感官描述和情緒形容詞來表達想法。他們不會說"用#F5DEB3作為容器背景色、#DC143C作為主要交互元素顏色",而是說"我希望這個網站有種夏日海灘的感覺,容器要像沙子一樣溫柔,按鈕要像落日餘暉那樣熱情"。AI需要把這種詩意的描述翻譯成具體的技術實現。
第四種用戶叫做"矛盾派",標記為P-CON。他們代表"需求自相矛盾"的情況,在同一段需求里提出了邏輯上互相排斥的要求。比如"我要一個完全基於文字、沒有任何視覺元素的網站,同時要有豐富的卡通插畫;背景用深色,但要亮黃色背景;所有組件要透明,但要用深紅色"。這些要求根本無法同時滿足,AI應當識別出這些矛盾,然後主動去問用戶他的真實意圖是什麼,而不是硬著頭皮去實現一個本質上不可能的東西。
這四類用戶並非憑空捏造,而是經過系統化的"指令變異"處理生成的。研究團隊從一批寫得規範完整的"黃金指令"出發,通過不同的算子對原始需求進行變換——刪除細節、注入噪聲、替換技術詞彙、引入邏輯矛盾——從而生成對應四種角色的變體版本。這樣就確保了測試樣本既貼近真實,又有可控的、可量化的"難度梯度"。
四、不只是問答:AI在這個框架里能做什麼
為了讓被測試的AI不僅能"接收需求",還能真正"處理需求",研究團隊為測試框架設計了一個包含四種行動的操作空間,就像給廚師配備了不同的工具。
第一種行動是"澄清"(Clarify):當AI發現用戶說的東西不夠清楚或有疑問時,可以向模擬用戶提一個具體問題,獲取缺失的資訊。第二種行動是"實現"(Implement):AI動手寫代碼,安裝依賴包,運行命令,把網站一步步搭起來。第三種行動是"驗證"(Verify):AI打開已經運行的網站,用截圖的方式檢查界面,看看做出來的東西是不是和要求一致,有沒有視覺上的錯誤。第四種行動是"提交"(Submit):AI認為任務完成,宣告結束。
這四種行動的關鍵之處在於,AI可以以任何順序、任意次數地使用它們。沒有固定的流程,沒有強制的先後順序。AI需要根據當前的狀態,自主判斷下一步該做什麼。有時候先問再做,有時候先做再驗證,有時候驗證後發現問題再回去問——這種靈活的非線性操作方式,更接近真實的軟體開發過程。
"驗證"這個行動尤其值得細說,因為它是這個框架的技術亮點之一。當AI觸發驗證時,系統會給AI一張當前網站界面的截圖,並告訴它之前和用戶的所有對話記錄、代碼的當前狀態,以及之前的驗證歷史。AI需要制定一個測試清單,然後像真人測試員一樣去操作網站——點擊按鈕、填寫表單、滾動頁面——來確認每個功能是否正常。一旦發現問題,系統會返回詳細的失敗報告,包括出錯那一刻的截圖、瀏覽器控制台的錯誤資訊,以及AI自己對失敗原因的分析。這些反饋會幫助AI在回去修代碼時有的放矢。
為了防止AI陷入無限循環(比如反覆修同一個bug卻始終修不好),系統還設計了雙重邊界限制:每個任務根據難度設定了總步數上限(15步、20步或25步),同時對連續的驗證失敗次數也有限制(6次、8次或10次),超出任何一個邊界就強制終止任務。
五、怎麼評分:用"槽位"來衡量任務完成度
評測一個AI生成的網站夠不夠好,並不是件容易的事。研究團隊為此設計了一套叫做"約束槽位"(Oracle Slots)的評分機制。簡單來說,每個任務都被分解成若干個具體的、可驗證的小要求,每個小要求就是一個"槽位"。
每個槽位包含三個要素:目標組件(比如"篩選按鈕")、預期結果(比如"點擊後列表內容發生變化")、驗證類型(是靜態檢查還是需要交互才能確認)。整個任務下來有7到12個這樣的槽位,最終得分就是通過驗證的槽位權重之和除以全部槽位權重之和,這個比值被稱為"任務完成率"(TCR)。
槽位的權重並非平均分配,而是根據實現難度來設定的。純粹的CSS樣式這類靜態元素權重最低,基礎JavaScript交互居中,涉及異步數據請求、複雜狀態管理的高級功能權重最高。此外,如果同一個組件下有多個槽位,權重會適當縮減,避免簡單但數量多的槽位把評分撐起來。
除了任務完成率,研究團隊還額外引入了一個"幻覺率"指標,專門用來檢測AI是否生成了用戶根本沒要求的東西——比如沒人要求卻自作主張加上的登錄系統、隨意添加的廣告橫幅。這類"好心辦壞事"的情況在實際產品中會帶來維護負擔和用戶困惑,因此單獨計量很有必要。
擔任最終"閱卷官"角色的,是一個基於WebVoyager技術構建的視覺評測智能體,它能像真人一樣操作瀏覽器、查看頁面、點擊元素,逐一核對每個槽位是否達標。這個評測過程是獨立進行的,與被測試的AI完全分離,保證評分的客觀性。
六、101個種子網站,404個測試案例
整個測試數據集最初來源於WebGen-Bench這個先前的研究成果,研究團隊從中精選了101個高質量的網站設計任務作為"種子",每個任務的原始約束槽位數量在7到12個之間。
隨後,研究團隊對每個種子任務的約束複雜度進行量化評分,用K-均值聚類算法把101個任務分成了三個難度層級。"簡單"級別有21個種子任務,"中等"級別有54個,"困難"級別有26個。簡單任務的平均槽位數約為6個,困難任務平均接近9個,對應的權重分值範圍也有顯著差異。
然後,對每個種子任務分別應用上述四種用戶角色的變異算子,生成四個對應的變體版本。最終,101個種子任務乘以4種用戶角色,擴充為404個動態測試案例,形成一個覆蓋全面、難度分層的完整評測套件。
七、實驗結果:AI們集體被困在盲執行陷阱里
研究團隊在這套框架上測試了九個當前主流的多模態大語言模型,包括Qwen3.6-Plus、Kimi-K2.5、GPT-4.1、GPT-4.1-mini、Gemini-3.1-Flash-Lite等,覆蓋了不同規模、不同來源的主流系統。
結果令人警醒。在所有被測試的模型中,表現最好的Qwen3.6-Plus,其任務完成率也只有38.78%。換句話說,即使是當前最強的系統,在面對真實用戶的模糊需求時,也只能大約完成不到四成的要求。其餘模型的表現從24%到37%不等,有的甚至只能完成四分之一左右的任務要求。
任務難度越高,表現越差。這個趨勢相當一致:所有模型在"簡單"級別的表現都顯著高於"中等"和"困難"級別。在困難任務上,即便是最強模型的得分也從簡單任務的43分左右跌至38分,而較弱的模型則跌至22到23分的區間。
不同用戶角色對AI表現的影響也相當顯著,而且規律出乎意料。幾乎所有模型在面對"話癆派"(P-RAM)用戶時表現反而相對最好,在面對"極簡派"(P-MIN)用戶時表現最差。這說明這些AI模型對資訊噪聲的處理能力要強於對資訊缺失的處理能力——它們更善於從一堆廢話里找出有用資訊,卻不善於意識到資訊根本就不夠用、需要主動去問。
八、六個關鍵發現,解剖盲執行的根源
研究團隊深入分析了各模型的行為軌跡,歸納出六個具體發現,每一個都指向了盲執行問題的不同維度。
第一個發現涉及意圖對齊與主動澄清之間的落差。研究團隊用兩個指標來衡量用戶與AI交互的質量:一是"意圖對齊分數",衡量AI的理解是否符合用戶的真實需求;二是"澄清命中率",衡量AI在主動提問時是否問到了關鍵缺失資訊。結果顯示,所有模型的意圖對齊分數都在3.90到4.00之間(滿分5分),看起來不錯;但澄清命中率卻全部低於40%,也就是說即使AI開口提問,也有超過六成的概率沒有問到點子上。兩個指標之間的剪刀差,揭示了一個深層問題:AI能夠大概感知用戶想要什麼,但無法精準識別哪些地方還有缺口、需要補充確認。這正是盲執行的本質——對資訊漏洞的感知能力不足。
第二個發現涉及代碼量與幻覺率的正相關。研究團隊統計了各模型最終生成代碼的行數。表現較強的Qwen3.6-Plus平均生成超過1400行代碼,Kimi-K2.5平均超過1900行,而這兩個模型的幻覺率都超過60%。相比之下,GPT-4.1平均只生成440行代碼,幻覺率僅31.7%;GPT-4.1-mini生成473行,幻覺率最低,只有23.5%。這個規律揭示了一種"過度補償"策略:當需求不清晰時,一些模型傾向於多寫代碼來"覆蓋"各種可能性,但這種策略不但沒有提高任務完成率,反而引入了大量沒有被要求的功能和元素,拉高了幻覺率。強模型編碼能力強,但更容易走上這條"多寫不如多問"的彎路。
第三個發現涉及視覺驗證的利用效率。"驗證"這個行動本來是讓AI通過看截圖發現問題、改進實現的。但數據顯示,各模型的驗證強度(以驗證行動次數與實現行動次數的比值衡量)差異很大——有的模型比值高達1.51,有的只有0.35——但這種差異並沒有帶來任務完成率的明顯改善。也就是說,驗證做得多並不代表驗證做得好。深究行為軌跡可以發現,模型往往只是針對驗證中發現的具體小問題打補丁,而不會因此重新審視整體需求是不是理解正確。它們會修復"按鈕顏色不對",但不會因此反思"我對整個頁面的理解會不會從一開始就跑偏了"。
第四個發現進一步剖析了四種用戶角色對性能的差異化影響。研究團隊在比較了極簡派與話癆派對各模型表現的影響後發現,模型對"噪聲"(話癆派那種廢話連篇但資訊完整的輸入)的抵抗力,要明顯強於對"缺失"(極簡派那種資訊不完整的輸入)的應對能力。這個發現有其現實意義:在真實世界裡,用戶說廢話其實很常見,說得太少也很常見,但AI系統顯然在這兩種情況下的準備程度是不對等的。研究團隊還專門用"黃金指令"(原始完整需求)跑了一組對比實驗,結果發現即使是在最理想的輸入條件下,模型的任務完成率也只能提升約十個百分點左右,幻覺率也有所下降,但同樣遠未達到令人滿意的水平。
第五個發現揭示了不同模型在"探索"與"承諾"之間的取捨策略上的根本差異。GPT-4.1-mini的平均澄清次數接近1次,主動提交率只有56.4%,它傾向於反覆確認、謹慎試探,但缺乏果斷拍板的能力;而Qwen3.6-Plus平均澄清次數僅0.01次,卻有95%的主動提交率,走的是"大膽決策、快速出貨"的路線。這兩種極端策略各有代價:前者容易在循環中迷失,後者容易早早提交一個雖然運行沒問題但根本不對題的網站。
第六個發現關注視覺呈現質量的"天花板效應"。研究團隊單獨評估了各模型生成網站的美觀程度,包括視覺布局和創意對齊兩個維度。結果顯示,各模型在這兩個維度上的分數相當集中,差距不大,大多數模型能夠產出結構完整、沒有嚴重渲染錯誤的頁面,但幾乎所有模型都在某些細節上存在輕微的視覺缺陷,比如元素錯位或配色不夠協調。幻覺率方面差異較大,最高的Gemma-4-26B-A4B-it達到72.3%,最低的GPT-4.1-mini只有23.5%。視覺缺陷率(嚴重渲染失敗的比例)普遍在10%以下,說明當前模型在基礎的"做出來能看"這個層面已經相當穩定,但在"做得對"這個層面仍有很大差距。
九、人類評審與AI評審:一致,但不完全一樣
研究團隊請了三位電腦科學專業的博士生對生成網站的美觀度進行人工評分,採用與AI評審相同的兩個維度(視覺布局和創意對齊)和相同的5分量表。對比結果顯示,人工評審與AI評審之間存在中等程度的一致性(肯德爾相關係數約為0.45),三位人類評審員彼此之間的一致性略高。
在兩種評審方式下,Kimi-K2.5都獲得了最高的美觀度評分,這說明該模型在視覺呈現方面確實有其獨特優勢——它更善於營造和諧的配色搭配。Qwen3.6-Plus則在內容豐富性上更突出,而GPT-4.1更傾向於生成有紋理感的背景設計,Gemma-4-31B-it則在元素布局的整體結構性上表現較好。
歸根結底,這項研究最核心的資訊並不複雜:當前最先進的AI系統,在面對真實用戶那些不完美的需求表達時,仍然大量地陷入"不問清楚就動手"的盲執行陷阱。它們在處理冗餘資訊方面做得還不錯,但在識別資訊缺口並主動追問方面表現欠佳;它們會用多寫代碼來掩蓋理解不足,會做驗證但不會因驗證結果重新反思大局;不同模型在"謹慎探索"和"果斷提交"之間的策略差異很大,卻都無法找到那個最優的平衡點。
InteractWeb-Bench的意義在於,它提供了一個可復現、可量化的測試環境,讓研究人員能夠系統地測量和改進這些問題。研究團隊希望這個框架能成為推動AI編程助手從"被動執行指令"向"主動理解用戶意圖"進化的基石——畢竟,一個真正好用的AI開發助手,不只是要會寫代碼,還要知道什麼時候該停下來問一句"你說的到底是什麼意思"。對這個研究感興趣的讀者,可以通過arXiv編號2604.27419查閱完整論文。
Q&A
Q1:InteractWeb-Bench是什麼類型的評測框架,和以前的網站生成測試有什麼區別?
A:InteractWeb-Bench是專門針對非專業用戶模糊需求場景的網站生成交互式評測框架。與之前的WebGen-Bench等框架不同,它不假設用戶提供完整清晰的需求,而是通過四種模擬用戶角色(極簡派、話癆派、直覺派、矛盾派)來製造接近真實情況的模糊輸入,同時允許AI主動提問、編寫代碼、視覺驗證和提交結果,評估的是AI在面對"不完美輸入"時的全程應對能力。
Q2:盲執行問題在實際使用AI建網站時會造成什麼影響?
A:盲執行意味著AI在需求不清楚的情況下直接開始寫代碼,結果往往是生成的網站表面上運行正常,但根本不符合用戶的實際需求。在實驗中,最強模型的任務完成率也只有約39%,說明超過六成的需求沒被滿足。同時AI還會自作主張加入用戶沒要求的功能(幻覺率最高超過72%),增加維護負擔,用戶可能還要從頭溝通返工,效率反而降低。
Q3:為什麼AI對資訊缺失比對資訊冗餘更難處理?
A:實驗結果顯示,AI在面對"話癆派"那種廢話多但資訊完整的輸入時,表現反而比面對"極簡派"那種資訊不完整的輸入更好。這是因為當資訊完整時,AI只需要過濾噪聲,本質上還是在已有資訊中提取,這是語言模型擅長的任務;而當資訊缺失時,AI需要意識到"有些東西我不知道"並主動去問,這涉及對自身理解邊界的元認知能力,目前的模型在這方面訓練還不充分,傾向於用"補腦"(多寫代碼覆蓋各種可能)替代"追問"。






