近期火爆的ChatGPT讓公眾對於人工智慧有了更加直觀的認識,雖然ChatGPT能夠依靠強化學習實現自我監督式訓練,從而具備更強的智能,但是數據標註依然是提升AI訓練效率和準確度的重要手段。
與此同時,數據標註行業也面臨一系列挑戰:標註難度和標註質量要求提升,多場景和複雜化的需求對標註平台和工具要求越來越高;數據量爆發,人力標註無法實現規模化,給標註產能帶來挑戰。
作為一家專注於全場景AI數據標註能力的企業,星塵數據近日推出了Rosetta 3.0平台,解決標註行業的痛點。
星塵數據創始人、CEO章磊告訴記者,星塵數據從創立之初就確立了三個目標:首先,通過自動化標註提高標註效率;其次,通過提供數據策略專家服務,為客戶創造更多的價值;最後,通過數據閉環讓客模型訓練效果更好,數據標註量更少,提高標註性價比。
讓數據標註行業「脫胎換骨」
傳統的數據標註流程中,算法人員制定數據標註規則,標註公司消化後再提供給標註團隊。然而,執行過程中,算法的思路並不能一次性達到最優化;其次,數據標註人員僅僅是一個「幹活兒的」角色,並不能幫助更好地疊代算法效果。
章磊表示,傳統數據標註人力外包隨意性高,數據量大的時候容易出錯,返工率非常高,不能保證工時。而且他們沒有相應的管理工具,存在數據批次多、髒數據多、清洗後有效數據少、同類型數據重複標註的問題。
針對這些問題,星塵數據提供自主專業的標註工具,依託專業的算法和訓練模型加速標註過程,而且完善了客戶數據生產力,保證服務的體驗。
「我們的目的不是要解決100%的數據標註,而是解決行業前沿的大規模數據標註,這也是那些具有付費能力的大客戶最大的痛點。」章磊說。
一個典型的例子是,客戶在感知算法中因為沒有做運動補償,需要對相機信號和雷達信號逐一進行人工確認。星塵數據的數據策略專家在和算法溝通後,提出通過2DOD算法和3D映射聯合計算,通過IoU篩選候選樣本的方案,並將多個算法直接以人機交互的方式嵌入標註流程中,節省了50%以上的標註時間。
在章磊看來,星塵數據現在所作的工作就是讓大家數據標註的印象會從一個「門外漢就能夠做這件事情」能夠變成「非常專業的人在做這個事情」。因為回到本質上來說,AI就是不斷地在學習人的經驗和知識。
數據閉環,Autolabeling讓標註更AI
Rosetta平台是星塵數據打造的行業內自動化水平最高的標註平台,其在算法種類、算法效率、算法接入能力、算法交互能力等方面均具領先優勢。
最新的Rosetta 3.0的通用性和專業性更強,處理能力、算法的接入接出和反饋能力更強,數據也更安全。比如Rosetta 3.0新增20+自研算法,增強數據閉環支持能力,打通DataOps和MLOps鏈路。
章磊表示,全流程閉環式AI數據系統將成為主流。星塵數據要做的是幫助客戶在前沿算法研究方面進行大規模、快速生產結構化數據。
在一個完整的數據閉環訓練中,客戶可使用星塵提供的離線數據包進行基礎版模型訓練,星塵數據標註系統通過API與客戶算法系統進行交互,動態感知客戶模型效果,基於模型各版本疊代的效果,動態檢索不確定性最大、資訊量最大、損失最大、稀疏場景等有效數據。幾次疊代後,不僅沉澱了有效數據,還節省了數據成本。同時,星塵數據還可以在海量數據中找到真正有價值的數據幫助客戶訓練模型,並利用自有數據集評測模型效果。
以ChatGPT語言模型為例,通過星塵數據的Rosetta 3.0數據標註系統,客戶可以將模型快速接入系統,通過API實時將結果顯示在標註平台上,星塵專屬基地的NLP標註員可以快速給出反饋。同時,獎勵強化模型實時接收到反饋並進行訓練,可以實現模型的高效訓練並及時發現難例和缺陷。該解決方案目前已進入與某深度客戶的POC測試環節。
據悉,Rosetta 3.0既可以通過標準化SaaS服務進行獲取,也可以實現離線私有部署。未來,星塵數據會將產品進行開源。「AI是一個生態問題,而藉助開源,它可以定製化,集思廣益,這會激發出更強的生命力。」章磊解釋說。
定位「數據策略專家」
星塵數據開發了上百種輔助標註算法,為預標註、標註、質檢環節提供多樣化的算法輔助。以雷射雷達點雲標註為例,平台在渲染、自動貼合、自動映射、連續補間等功能上具備行業領先的性能,具備無延時切幀特點。
算法的加入讓平台自動化水平逐年提升,目前平台自動化率達到60%。高自動化率讓標註效率和標註產能顯著提升,相比其他平台,標註員在Rosetta平台能標得更快,獲得更多收入。
算法也讓複雜標註需求得以解決。星塵算法團隊密切關注前沿技術動向,提前做好技術儲備和產品沉澱。目前平台可支持BEV、3D重建、4D融合等自動駕駛前沿算法的數據標註。
除Rosetta數據標註平台外,星塵數據還為客戶提供Rosetta標註軟體基礎版、Rosetta標註軟體高級版、Rosetta標註軟體旗艦版、Rosetta App、Rosetta獨立標註工具、開放平台Open API等眾多產品形態,支持私有化部署和定製化軟體,滿足客戶多樣性需求。
章磊表示,未來星塵數據將專注AI數據服務,通過Autolabeling技術、數據策略專家服務和數據閉環系統服務,為全球人工智慧企業特別是自動駕駛行業提供「燃料」,最終實現AI的平民化。