為現實世界設計合成數據集：機制設計與第一性原理推理

當前，專用AI所需的數據嚴重匱乏，為解決這一問題，谷歌研究團隊推出了Simula框架。該框架將合成數據生成重新定義為數據集層面的機制設計問題，通過基於推理的第一性原理方法構建數據集，實現了對覆蓋範圍、複雜度與數據質量的精細化控制，為隱私敏感或數據稀缺領域提供了可擴展的數據生成方案。

贊助商廣告

通用AI模型的快速發展，離不開海量網際網路數據的支撐。然而，隨著AI在各垂直領域的深度滲透，模型必須針對全新的、非常規的以及隱私敏感型應用進行專業化訓練，而這些場景中的數據天然稀缺或難以獲取。

為了彌補這一缺口，單純依賴真實世界數據面臨諸多制約：數據採集成本高昂、隱私合規風險突出、標註工作繁重，這些問題在醫療、法律、網路安全等專業領域尤為突出。

合成數據是一種頗具潛力的替代方案，但現有的生成方法往往缺乏生產級部署所需的嚴謹性。許多現有方法依賴人工提示詞、進化算法或來自目標分布的大量種子數據，這導致了可擴展性受限（依賴種子數據或人工投入）、可解釋性不足（黑盒式進化步驟）以及控制粒度粗糙（生成參數相互耦合）等問題。最關鍵的是，這些方法通常以單個樣本為優化單位，而非從整體上設計數據集。

為此，必須將合成數據生成重新定義為機制設計問題。生產級應用不僅追求"更多數據"，更需要精細化的資源分配，使覆蓋範圍、複雜度和質量成為可獨立調控的變量。

Simula框架的核心方法

在發表於《機器學習研究彙刊》的論文《基於推理的合成數據生成與評估》中，研究團隊正式介紹了Simula框架。與依賴不透明流程的方法不同，Simula採用"推理優先"方法論，從第一性原理出發構建完整數據集。該方法無需種子數據且具備智能體特性，使生成能力能夠隨底層模型推理能力的提升而自然增強。

Simula將數據生成過程分解為四個相互獨立、可精細控制的步驟：

贊助商廣告

全局多樣化

為了在不依賴人工種子數據的前提下完整映射目標領域的概念空間，Simula採用了一種基於推理的遞歸擴展機制。在每一深度層級，系統會生成多個候選子類別（提案），隨後由評判模型對這些提案進行評估、合併與過濾。這種疊代式"提案-精煉"循環能夠動態構建出密集的層次化分類體系，例如網路威脅情報知識樹，作為保障全局數據集多樣性的基礎框架。

局部多樣化

在具體概念內部確保變異性，Simula引入了局部多樣化機制。系統先從分類體系節點生成"元提示詞"（即場景描述），再針對同一場景生成多個不同實例化版本，從而防止模式坍塌，確保"SQL注入"等概念以多種視角呈現，而非重複輸出相同內容。

複雜度控制

複雜度被視為正交於語義覆蓋的獨立軸。通過"複雜化"步驟，系統對可配置比例的元提示詞進行精煉，使其更加複雜或更具挑戰性。這使研究人員能夠在不改變語義覆蓋範圍的前提下，調整數據集的難度分布。

質量驗證

為了在無需人工干預的情況下確保數據正確性，Simula採用"雙評判"循環機制，由兩個獨立模型分別對答案的正確性進行評估。這種雙重驗證有助於緩解模型奉承傾向（即模型傾向於認可聽起來合理的輸出），從而保障標註質量。

評估方法的創新

合成數據的評估本身極具挑戰性，因為其核心目標存在模糊性，且標準指標與實際效用之間往往存在脫節。基於嵌入的餘弦距離等常規指標只能提供粗粒度信號，難以提供有價值的可操作資訊。

為此，Simula同樣引入了推理優先的評估方法，具體包括：分類覆蓋率指標和校準複雜度評分。後者利用大語言模型驅動的批量比較，為每個數據點分配類似西洋棋等級分制的"Elo評分"，以更精準地衡量數據多樣性與難度分布。

實驗驗證

研究團隊以Gemini 2.5 Flash作為教師模型、Gemma-3 4B作為學生模型，在五個不同領域對Simula進行了評估：網路安全（CTIBench中的CTI-MCQ、CTI-RCM）、法律推理（LEXam）、小學數學（GSM8k）以及多語言學術知識（Global MMLU）。每個領域的數據集規模最大可達51.2萬條。

贊助商廣告

實驗結果揭示了一個關鍵現實：不存在單一"最優"的數據生成方式，"優質數據"與下游任務性能之間的關係高度依賴具體場景。儘管此次採用的是知識蒸餾評估框架（以保證評估的可復現性和系統性），但所獲得的核心規律同樣適用於更廣泛的應用場景。

在谷歌內部的實際部署

Simula不僅僅是一個用於優化基準分數的工具，它是谷歌內部諸多業務關鍵型應用的基礎數據引擎。

在前沿AI領域，Simula是Gemma生態系統的重要支撐，包括ShieldGemma、FunctionGemma和MedGemma等專用模型，同時為端側和伺服器端Gemini安全分類器提供了核心合成數據支撐。

在用戶保護領域，Simula助力了多項實用功能的落地，包括Android通話AI詐騙檢測和Google Messages垃圾資訊過濾。

在應用研究層面，Simula正在推動企業安全領域的ML民主化（通過合成真實攻擊場景），以及AI地圖識別等創新能力的突破。

結語

AI發展正站在新的十字路口。推動下一波突破——涵蓋科學、安全和法律等領域——所需的專業化數據，不太可能由人類在必要的規模上完成生產。合成數據將在這些飛躍中扮演核心角色，但前提是以嚴謹的方式加以運用。

Simula的核心價值在於證明：機制設計能夠將數據生成轉變為一門可控的科學。這一方案為構建下一個AI時代所需的高保真數據集提供了清晰路徑——無論是向邊緣設備進行知識蒸餾、通過強化學習訓練智能體，還是系統化地探索複雜邊界情況。

本研究由Tim R. Davidson、Benoit Seguin、Enrico Bacis、Cesar Ilharco和Hamza Harkous共同撰寫。Simula框架由Hamza和Benoit創立並主導，Tim在學生研究員任期內作出了重要貢獻。研究團隊還感謝Jan Keller的項目管理支持、Coran Corbett與Ninny Wan的技術與產品合作，以及Nina Taft、Amanda Walker和Pankaj Rohatgi的資助與支持。

Q&A

Q1：Simula框架和傳統合成數據生成方法有什麼區別？

A：傳統方法通常依賴人工提示詞、進化算法或種子數據，每次只優化單個數據樣本，存在可擴展性差、可解釋性不足、參數控制粒度粗糙等問題。Simula則從第一性原理出發，將數據集整體作為設計對象，通過全局多樣化、局部多樣化、複雜度控制、質量驗證四個獨立可控步驟生成數據，無需種子數據，且生成能力能隨底層模型推理能力的提升而自然增強。

贊助商廣告

Q2：Simula框架的"雙評判"循環機制是如何保證數據質量的？

A：Simula的"雙評判"循環由兩個獨立模型分別對生成數據的答案正確性進行評估，兩者獨立作出判斷後再進行比對。這種雙重驗證機制的核心目的是緩解單一模型的"奉承傾向"——即模型容易認可聽起來合理但實際錯誤的輸出。通過引入獨立的第二視角，可以有效過濾掉低質量或錯誤標註的數據，從而在無需人工干預的情況下保障大規模合成數據集的整體質量。

Q3：Simula框架目前在谷歌哪些實際產品中得到了應用？

A：Simula已在谷歌多個業務場景中落地。在AI模型層面，它為Gemma生態中的ShieldGemma（安全模型）、FunctionGemma（函數調用模型）和MedGemma（醫療模型）提供訓練數據，同時也是端側和伺服器端Gemini安全分類器的核心數據來源。在用戶保護層面，它支撐了Android通話AI詐騙檢測和Google Messages垃圾資訊過濾功能。此外，Simula還應用於企業安全研究和AI地圖識別等前沿探索方向。