宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

微軟研究院讓AI擁有「私人電腦」,然後讓它在上面工作一個月——這項實驗顛覆了我們對AI訓練的認知

2026年05月07日 首頁 » 熱門科技

這項由微軟研究院主導的研究以技術報告形式發布於2026年4月30日,編號為arXiv:2604.28181v1,研究成果已開源並託管於微軟的HuggingFace數據集倉庫(microsoft/synthetic-computers-at-scale)。感興趣的讀者可以通過上述編號查詢完整報告。

每個人的工作方式都有自己的"味道"。財務顧問的電腦里塞滿了客戶報告、Excel模型和行業白皮書;軟體工程師的機器上則是代碼倉庫、測試日誌和技術文檔。這些文件不只是數據,它們是這個人工作記憶的物理延伸,承載著數年積累的上下文資訊。當你請一位顧問幫你分析投資方案時,他首先會打開自己之前做的模板,翻出過往客戶的類似案例,然後再開始工作——而不是憑空創造一切。

這個細節,恰恰是當前AI助手訓練中最被忽視的一環。微軟研究院的研究團隊注意到:現實中的專業工作,永遠是在一個特定的個人環境中進行的,而這個環境裡充滿了歷史、文件和關係。要讓AI真正學會做"生產力工作",僅僅給它一個任務描述是遠遠不夠的,必須給它一台"真實的電腦"。

於是,他們開始了一個頗為大膽的實驗:為AI量身定製一千台虛擬電腦,然後讓AI在上面工作整整一個月。

一、為什麼AI需要一台"屬於自己的電腦"

現有的AI訓練方法面臨一個根本性的困境。要訓練AI完成真實的辦公室工作,最好的素材當然是真實用戶的工作軌跡——他們如何搜索文件、如何修改報告、如何與同事溝通。但這些數據幾乎不可能獲得,因為它們深藏在私人電腦里,包含著敏感的個人資訊和商業機密。

另一條路是合成數據,也就是讓AI自己生成訓練用的例子。但傳統的合成數據有一個致命缺陷:它生成的任務往往是"懸空的",就像出一道數學題,題目本身包含了所有需要的資訊,解題者不需要去翻箱倒櫃找舊資料。真實的工作不是這樣的。真實的工作是:你需要打開三年前做的預算表,參考上周收到的客戶郵件,再結合今天下載的行業報告,綜合這些來自不同地方的資訊才能完成今天的任務。

研究團隊將這個核心洞察歸納為三條原則:專業工作在本質上是重度依賴上下文的,成功完成工作的關鍵不在於解決孤立任務,而在於跨越較長時間段有效利用文件、歷史和不斷演化的工作狀態,因此合成數據必須同時合成"環境"本身,而不僅僅是任務。

正因為此,他們提出了"合成電腦"這一概念——不只是生成一個任務,而是生成一整台虛擬電腦,包括文件夾結構、各類文檔、表格、演示文稿,以及這些文件之間錯綜複雜的依賴關係。

二、如何從一個陌生人的描述出發,建造一台完整的虛擬電腦

建造一台虛擬電腦的起點,是一段人物簡介。

研究團隊使用了他們此前開發的大規模人物簡介生成方法(曾生成十億級別的角色描述),從中抽取一千個不同職業的角色,作為每台虛擬電腦的"主人"。這些簡介類似於:一位專注於資產配置和投資組合分析的財務顧問,熟悉先鋒集團的資本市場模型,致力於將預測數據轉化為具體的投資建議。

僅憑這段描述,無法確定這台電腦上應該有什麼文件。因此,第一步是把這段簡介擴展成一份詳盡的用戶檔案。這份檔案會補全幾乎所有現實細節:這個人叫什麼名字(比如瑪格麗特·福賽斯),在哪家公司工作(比如梅里迪安財富合伙人),有多少年工作經驗,負責哪些項目,與誰協作,慣用哪些軟體工具,如何命名文件,文件整理風格是整潔還是凌亂,喜不喜歡保留多個版本的草稿。

檔案建立之後,第二步是為這台虛擬電腦規劃文件系統。就像建房子先畫圖紙一樣,這一步會確定驅動器布局(比如C盤存系統,D盤存工作數據),決定哪些文件夾放什麼類型的內容,確立命名規則(比如這位財務顧問傾向於用"IPS草稿v1.docx"這類描述性且帶版本號的文件名),並且規劃各文件夾之間的關聯方式。

規劃完成後,第三步是列出所有需要存在的具體文件,並建立一張"依賴關係圖"。這張圖至關重要:它記錄了哪個文件是從哪個文件派生出來的。比如,先鋒集團的回報預測摘要PDF(從網上下載的原始資料)派生出了一份結構化的Excel工作簿(手動整理的數據),這個工作簿又進一步派生出了多個投資組合的分配模型,最終匯總成一份2026年資本市場展望報告。這個派生鏈模擬了真實工作中文件逐步演化的過程,避免了每個文件都是"獨立生成"的孤島感。

第四步才是真正創建這些文件的內容。文件按照依賴關係圖的拓撲順序生成:沒有前置依賴的文件先生成,然後依次生成依賴它們的文件,後期文件生成時可以參考並引用它們"派生自"的早期文件。如果某個文件被標記為可以從真實網際網路獲取的公開資料(比如真實的行業報告PDF),系統會先嘗試直接下載,下載失敗時才用AI生成替代內容。

經過這四步流程,一台虛擬電腦就誕生了。平均來看,每台虛擬電腦在模擬開始前包含約112個文件,目錄層級約五層深,文件類型以Word文檔(34.8%)、Excel表格(15.8%)、PDF(13.9%)和Python代碼(8.5%)為主,還有少量演示文稿和圖片。這些數字不是隨機填充,而是每個文件都有實際內容、合理的文件大小和與人物檔案相符的命名風格。

三、給AI布置"一個月的工作任務"

電腦建好了,接下來要讓AI在上面真正工作。

研究團隊設計了一個由兩個"智能體"(也就是兩個各司其職的AI模組)組成的模擬系統。第一個叫做"設置智能體",它的職責是根據這台電腦的具體內容和用戶檔案,生成一套切實可行的工作目標。這些目標必須與電腦主人的實際情況高度吻合,而不是憑空捏造的通用任務。

以那位財務顧問瑪格麗特為例,設置智能體為她設定了五項跨越20個工作日的主要交付物。第一項是根據先鋒集團最新發布的資本市場模型數據,刷新公司三種投資組合(保守型、平衡型、成長型)的配置方案,並撰寫2026年資本市場展望報告,提交投資委員會審議。第二項是完成一位名叫勞勃·卡斯特利亞諾的高淨值新客戶的入職工作包,該客戶有720萬美元的可投資資產,正處於退休規劃階段。第三項是在同事桑德拉完成同行評審後,最終確定一套量化再平衡觸發框架。第四項是將一份替代性投資研究報告升級為可以提交投資委員會表決的最終建議。第五項是完成一份ESG股票覆蓋層的合規建議,並獲得合規官員的簽署認可。

這五項任務相互關聯,比如客戶的配置方案需要引用刷新後的投資組合模型數據,這個依賴關係反映了真實工作中項目之間的串聯邏輯。

設置智能體還會為瑪格麗特創造一批"虛擬同事"。每位同事都有具體的背景、溝通風格,以及在工作中的特定作用。她的直屬上司大衛·哈特利是一位數字優先的風格、對冗長敘述沒有耐心的董事總經理,會發郵件標題為"VCMM刷新——3件事"這樣簡短的資訊,要求下屬在48小時內回復,且偏愛用要點列出問題。同事桑德拉是固定收益專家,審查態度嚴格,不會在沒有親自覆核數據之前簽字確認,而且偏好有實際公式而非僅顯示結果的Excel附件。客戶卡斯特利亞諾是退休的科技高管,會仔細閱讀投資政策說明書的每一行並提出技術性問題。合規官員詹姆士·惠特菲爾德是前證監會審查員,要求一切記錄在案。更有趣的是,初級助理凱文會故意在數據中埋入錯誤——比如將費率從百分比誤寫成基點,或者缺少數據截止日期——測試瑪格麗特能否發現並糾正這些問題。

每位虛擬同事還持有"私密參考文件",只有在協作互動中才會分享給工作智能體。比如大衛·哈特利持有一份投資委員會評審清單,桑德拉持有她2025年同行評審的具體問題記錄,客戶卡斯特利亞諾持有含有1.7%數據差異的年末賬戶報表——這些都是瑪格麗特必須通過主動溝通才能獲取的關鍵資訊。

四、AI如何每天"上班":周計劃與日常執行的細節

第二個智能體叫做"工作智能體",它將扮演瑪格麗特的角色,在這台虛擬電腦上實際工作整整一個月。

每周初,工作智能體會根據整體目標、剩餘工作量、當前電腦狀態和預期的協作需求,制定一份本周工作計劃。這份計劃會把一周拆分成具體的每日活動,明確每天要創建或修改哪些文件、需要參考哪些已有資料、要聯繫哪些同事。比如第一周的計劃會安排周一發郵件給先鋒顧問服務部門的帕特里夏·黃,請她提供2026年的資本市場模型數據;安排周二閱讀客戶卡斯特利亞諾的參考文件,為周三的深度發現電話做準備;安排周三舉行投資委員會簡短協調會,確認1月28日議程;安排周四構建一份對比2026年與2025年預測數據差異的五標籤Excel分析工作簿;安排周五起草一份向大衛·哈特利匯報的備忘錄,附上第一周的主要發現,並附帶三個需要他做方向性決策的問題。

然後,每個工作日作為一個獨立的智能體會話來執行。每天開始時,工作智能體會重新讀取活動日誌,檢查當前電腦狀態,以及查閱虛擬同事在過去幾天裡回復的任何新消息或共享的文件。接著按照計劃推進當天的工作:閱讀相關現有文件,創建或修改所需的輸出文件,向虛擬同事發送消息或共享文件。每天結束時,系統記錄新增文件、修改的內容、協作往來和活動歷史,以便下一個日常會話從更新後的電腦狀態繼續推進。

模擬日誌中有一段對1月7日(周三)的記錄,展示了工作智能體當天完成的主要事項:上午11點召開了一次45分鐘的投資委員會協調會,確認了1月28日的議程,明確了再平衡框架第三版的開發範圍(包含四個需要解決的技術問題),討論了客戶卡斯特利亞諾的時間表,以及ESG合規框架的參與安排。下午2點進行了與卡斯特利亞諾的60分鐘深度發現電話,核實了他在施瓦布、先鋒等四個賬戶的總資產結構,發現並記錄了施瓦布賬戶中的國際配置差異(賬戶匯總顯示18%,但逐項核算只有16.3%),確認了他在亞斯本購置第二套房產的流動性需求,討論了思科股票的集中持倉處置方案和羅斯轉換的稅務時機,記錄了他妻子伊蓮的風險偏好(更保守,拒絕非流動性投資)。下午5點則是整理桑德拉發來的第四版同行評審文件,針對四個待解決問題逐一制定解決方案,並規劃第二周的原型交付時間表。

這個周計劃與日常執行的循環持續四周,直到模擬期結束。整個過程中,虛擬電腦被工作智能體的工作不斷改變:新文件被添加,已有文件被修訂,協作往來被記錄,文件依賴圖隨著新產出而更新。

五、實驗跑完之後,數字說明了什麼

一千次模擬完成之後,研究團隊統計了大量數字,這些數字共同描繪出這套方法的規模和深度。

從工作量來看,每次模擬平均需要工作智能體執行2272次操作步驟,耗費約8.59小時實際運行時間,其中絕大部分時間消耗在日常執行環節,而非周計劃制定。每台虛擬電腦在模擬結束後平均包含約197個文件,比模擬開始前增加了約85個,而目錄層級基本保持穩定——這說明工作智能體主要是在已有框架內創建和修改文件,而不是隨意建立新目錄。

從協作來看,每次模擬平均涉及5.5位虛擬同事,整個模擬期間共交換約31次通訊往來。這些數字說明模擬的確不是孤立完成任務,而是需要持續的規劃、執行和反覆的協調。

從產出文件的質量來看,生成的文件並不是敷衍了事的占位符。演示文稿的平均文件大小超過500KB,PDF平均超過80KB。這些文件尺寸說明它們有真實的內容,而非空殼。

研究團隊還對100台虛擬電腦的最終交付成果進行了評分。評分方法是:針對每台電腦運行同一套模擬五次,每次由評審模組根據實際產出內容起草一份評分細則,再將五份草稿合併成一份更全面的最終評分細則。這樣做是為了避免評分標準只反映某一次運行的特定解題路徑,而是儘可能覆蓋這類任務的全部合理要求。評分細則涵蓋規範符合度、與虛擬同事互動中提出的要求、領域專業性和工作質量四個維度,每個方面都有具體的評分點和分值。

最終得分分布大致集中在60%到80%之間。以那位財務顧問的案例為例,總分846分中得到了605分,折合71.5%,其中客戶入職工作包得了88.2%的高分,而ESG覆蓋層建議只得了54.8%。

六、從模擬經歷中提煉"工作經驗",然後用經驗幫助AI進步

得到模擬軌跡之後,研究團隊進行了一個關鍵步驟:從軌跡中提煉可復用的"經驗"。

他們將900台虛擬電腦的模擬分析報告拆解成一條條"經驗條目",包括有用的工作模式、常見教訓和典型失敗原因。然後,這些條目按照電腦主人的職業類型分組,同一職業群體內的條目會被合併歸類,並統計每類問題出現的頻次。頻次越高,說明這是這類職業工作中越普遍的問題。

接著,按頻次排序的經驗條目被交給一個"技能創建器",它會為每個職業群體寫出一份結構化的工作技能文檔。以金融與投資分析師這個職業群體為例,生成的技能文檔包含四個主要模組。第一個模組關於數據完整性與單一真相來源,核心規則包括:所有文件共享的數字必須來自同一個權威來源(Excel模型或數據註冊表),備忘錄、演示文稿和PDF只是"只讀消費者",在起草任何引用某個數字的段落前都應重新打開源模型,因為"我知道加權平均資本成本是9.2%"和"粘貼了實際鏈接值"之間的差距,正是過時數據得以存活的地方。此外,對於同一指標的季度數字和年度數字不可互換,即使數值接近也不行。還需要注意:如果某位合作方提供的預測數字是收入還是EBITDA必須明確確認,並展示完整推導鏈,把兩者混淆會導致估值相差5到10倍。

第二個模組關於模型構建和驗證,強調要在敏感性分析表中核實邏輯方向(更不利的情景應產生更差的結果),要明確區分毛回報率和淨回報率並同時呈現,要構建數學上封閉的估值體系(所有輸入值應能機械地復現輸出結果,審查者無需任何未披露的橋接調整)。

第三個模組關於文檔層級和工作流程把關,規定版本號一旦分享出去就成為該審閱周期的正式記錄,修訂應產生新版本號而非重用舊版本號,並要求在起草過程中使用可搜索的標記(如"[待核實]")而非用貌似合理但實際有誤的數字占位。

第四個模組關於監管、合規和認證標準,指出展示毛業績的文件必須同等突出展示費後淨業績——這是證監會相關規則的強制要求,不是風格選擇,適用範圍涵蓋募資材料、季度報告和投資者信函。

這些技能文檔隨後被加載給工作智能體,測試它在面對100台此前未見過的全新虛擬電腦時,能否比沒有這些技能的基準版本表現更好。結果相當明確:平均評分從61.6%提升到了68.6%,提升了7個百分點。在逐台比較中,帶技能的版本在100台電腦中贏了83台。

研究團隊還測試了訓練規模的影響:用10台電腦的經驗生成技能時,帶技能的版本和基準版本幾乎打平(48%對52%,帶技能版本略輸);用100台電腦的經驗時,勝率升至64%;用500台時達到75%;用900台時達到83%。這個趨勢說明,訓練樣本越多,技能覆蓋的職業越廣,頻次統計也越可靠,提煉出的經驗質量自然越高。

七、超出"自家考場"的測試:用外部基準驗證

一項研究方法好不好,光在自己設計的情境裡跑高分是不夠的,還需要放到完全不同的場景中驗證。

研究團隊選取了一個公開的生產力任務基準測試集,包含220個真實的辦公工作任務。這個基準測試集與研究團隊的虛擬電腦模擬有著非常顯著的區別:基準測試任務平均只有1.18個參考文件,沒有任何額外的"電腦背景文件"可以瀏覽,平均只需要31步操作和17分鐘就能完成;而團隊的虛擬電腦模擬平均有13.8個參考文件加上112個背景文件,需要2272步操作和8.59小時。兩者之間的規模差距,大約相當於騎自行車走社區和開長途卡車跨省運貨的區別。

測試方式是:對每個基準任務,同時運行帶技能版本和不帶技能的基準版本,然後讓一個評審模組(使用更強的Claude Opus模型)根據任務自帶的評分標準選出哪個版本的輸出更好。

結果是:在以Claude Sonnet為底層模型的主要測試中,帶技能版本贏了105個任務,輸了67個,打平48個,單側檢驗的p值為0.002,雙側檢驗為0.005——按學術慣例,p值小於0.01就意味著這個差異極不可能是隨機偶然造成的。也就是說,從處理數千步長工作中提煉出的經驗,對僅需幾十步的短任務也有明顯幫助。

在使用較弱的Claude Haiku模型時,同樣的技能帶來了104勝80負的成績,達到顯著性邊界;在使用更強的Claude Opus模型時,得到99勝71負的結果,也具有統計顯著性。Opus本身已經很強,許多在Sonnet上出現的錯誤它能自行避免,所以技能帶來的邊際增益相對小一些;而Haiku指令遵循能力較弱,技能文檔對它的幫助稍打折扣。

八、這套方法指向一個怎樣的未來

把以上所有環節串聯起來,研究團隊描繪了一個令人感興趣的自我疊代循環。

第一步,從大規模人物簡介出發,生成多樣化的虛擬電腦,覆蓋不同職業、不同工作風格、不同文件組織習慣。第二步,在每台虛擬電腦上運行長周期模擬,讓工作智能體在真實感更強的環境中積累大量操作軌跡。第三步,從這些軌跡中提煉經驗,識別成功模式和失敗原因。第四步,把提煉出的經驗轉化為職業專屬技能文檔,讓工作智能體攜帶這些技能去處理新的任務,表現更好。第五步,當技能文檔積累到一定規模,可以將其中的知識蒸餾進模型權重,讓有益的行為模式真正內化,而不需要每次都靠外掛技能文檔提示。第六步,技能庫清空,用能力更強的新模型開啟下一輪模擬,生成質量更高的軌跡,提煉更精準的經驗。如此循環。

這個循環在三個維度上都具有向上的擴展動力。模擬數量增加意味著環境更豐富:同一台虛擬電腦在一次模擬結束後,更新後的狀態可以作為下一次模擬的起點,隨著反覆模擬,每台電腦的工作歷史越來越具體,越來越有"個人特色"。模型能力增強意味著模擬質量提升:更強的AI能創作出內容更充實的文件,規劃更連貫的工作流程,與虛擬同事協作時的表達也更自然。更強的分析模型還能從軌跡中挖掘出更細膩的經驗:發現更隱蔽的失敗模式,把有用的工作習慣總結得更精確。

研究團隊指出,由於人物簡介可以在極大規模上生成和採樣,這套方法在原則上可以擴展到數百萬乃至數十億台虛擬電腦,覆蓋幾乎所有可以想像的職業類型、工作場景和生產力需求,只要有足夠的計算資源。

研究團隊也坦率地指出了當前方法的不足之處。目前生成的文件內容已經能根據用戶職業做到相當程度的定製,但視覺風格和排版格式在不同電腦之間仍然過於統一,未能反映不同組織或個人的設計偏好差異。真實的電腦還會有很多"生活痕跡":臨時下載的文件、多次修改卻沒有統一歸檔的草稿、截圖、已經過期的舊資料,以及和主要項目完全無關的雜文件。當前的虛擬電腦比真實電腦整潔太多,這可能導致模擬與現實之間存在差距。另外,當前的虛擬同事大多處於被動響應狀態,而現實中的同事有自己的工作節奏、私人議程、臨時變化和情緒起伏,讓協作更接近真實的多智能體組織環境,是下一階段需要解決的挑戰。

歸根結底,這項研究做的事情可以用一句話概括:與其讓AI在空白紙上學做作業,不如給它一間真實的辦公室,讓它在裡面真實地工作,然後從這段經歷中學習。這個思路看起來樸素,但它所要求的工程複雜度和計算投入都相當可觀,而研究團隊的實驗證明這個方向是有效的。至於這套方法最終能把AI的專業工作能力帶到什麼高度,還需要時間和更多實驗來回答。有興趣深入了解的讀者可以通過arXiv編號2604.28181查閱完整技術報告,也可以訪問研究團隊在HuggingFace上發布的開源數據集,直接查看100台公開虛擬電腦及500份模擬分析報告。

Q&A

Q1:合成電腦方法與傳統AI訓練數據有什麼本質區別?

A:傳統合成數據通常直接生成"任務描述+參考答案",就像給AI出一道含所有已知條件的數學題。合成電腦方法則先構建完整的用戶工作環境,包括文件夾結構、歷史文檔和跨文件依賴關係,再在這個環境中生成任務。這意味著AI必須像真實用戶一樣主動翻閱文件、整合歷史資訊,而不是在一個資訊已經"備好"的情境中解題,訓練出的能力更接近真實辦公場景中所需的工作方式。

Q2:合成電腦模擬產生的技能文檔如何幫助AI提升表現?

A:模擬結束後,系統分析AI在執行任務時的失敗模式和成功經驗,按職業類型歸類並統計頻次,再把最常見的教訓寫成結構化的職業專屬技能文檔。這些文檔會明確告知AI哪些錯誤最容易犯、哪些工作步驟最關鍵,比如"在任何多文檔交付物打包前,必須創建一張數字一致性核對矩陣"。AI攜帶這些文檔處理新任務時,相當於有了一份針對該職業的"經驗提示卡",實測可將評分從61.6%提升至68.6%。

Q3:為什麼用900台電腦訓練出的技能比用10台的效果好那麼多?

A:用10台電腦生成技能時,覆蓋的職業類型太少,很多測試場景找不到對口的技能,AI只能使用相關性較弱的技能,有時反而幫倒忙。隨著訓練規模增加,一方面職業覆蓋更廣(每個測試場景都能找到適配技能),另一方面頻次統計更可靠(出現次數越多的問題越能被正確識別為普遍性而非偶發性),技能內容的針對性因此大幅提升。10台、100台、500台和900台對應的勝率分別約為48%、64%、75%和83%,顯示出清晰的規模效應。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新