打破標注產(chǎn)業(yè)“人力工廠”認知,星塵數(shù)據(jù)Rosetta3.0平臺上線
2023-03-01 16:22 星塵數(shù)據(jù)

i黑馬訊 3月1日,星塵數(shù)據(jù)在京舉辦春季媒體開放日暨Rosetta3.0平臺上線發(fā)布會。星塵數(shù)據(jù)創(chuàng)始人、CEO章磊宣布Rosetta3.0平臺正式上線。

發(fā)布會上,章磊提出了標注行業(yè)認知天梯,即初級認知是標注行業(yè)是“人力工廠”,服務商用相對初級的標注工具、項目管理和海量人力就能干活,招標時低價者中標,存在交付風險;中級認知是,對項目管理的難度和標注工具的復雜度有一定認知,投入工具研發(fā)和項目管理成本,研發(fā)周期長,管理難度大,數(shù)據(jù)迭代效率低;高級認知是,重視平臺的技術(shù)實力,使用高度自動化的標注平臺,且與數(shù)據(jù)服務商一起迭代數(shù)據(jù)閉環(huán)和數(shù)據(jù)策略。

Rosetta平臺全面升級

星塵數(shù)據(jù)擁有行業(yè)內(nèi)自動化水平最高的標注平臺Rosetta平臺,在算法種類、算法效率、算法接入能力、算法交互能力等方面均具領先優(yōu)勢,其數(shù)據(jù)閉環(huán)系統(tǒng)打通數(shù)據(jù)采集標注、數(shù)據(jù)預處理、自動化質(zhì)檢、人工質(zhì)檢、多輪質(zhì)檢、客戶驗收系統(tǒng)、數(shù)據(jù)管理、數(shù)據(jù)檢索、數(shù)據(jù)可視化、場景挖掘等全鏈路,同時為客戶提供數(shù)據(jù)策略專家服務,能夠支持人機交互、主動學習、強化學習等主流數(shù)據(jù)策略。

Rosetta3.0 提升了算法加持能力,新增 20+ 自研算法,點云標注效率較純?nèi)斯俗⑻嵘?5倍+,支持機器人標注及質(zhì)檢,支持交互式標注以及算法實時反饋;增強了自動駕駛數(shù)據(jù)標注能力,3D 渲染 50幀/秒以上,支持超長連續(xù)幀 2000+ 流暢標注,支持 2000W 點點云平滑標注,支持 BEV標注、3D 重建標注、4D 標注、毫米波標注;增強數(shù)據(jù)閉環(huán)支持能力,打通 DataOps 和 MLOps 鏈路,通過 API 對接實時發(fā)現(xiàn)難例,幫助客戶實現(xiàn)主動學習和強化學習;通過架構(gòu)模式全面升級提升平臺能力,采用微服務架構(gòu)模式,系統(tǒng)具備更高擴展性和可用性,可支持數(shù)萬人同時作業(yè),并引入流式計算等大數(shù)據(jù)技術(shù),提升平臺數(shù)據(jù)實時處理能力;提供面向第三方的開放服務能力,通過 OpenAPI 方式,和客戶建立靈活的數(shù)據(jù)通路和算法服務通路,加速客戶算法迭代速度;構(gòu)建 5A 數(shù)據(jù)安全保障體系,從產(chǎn)品、技術(shù)雙層面落地 5A 數(shù)據(jù)安全架構(gòu),實現(xiàn)端到端存儲傳輸使用安全、信息隱私保護、數(shù)據(jù)隔離等;持續(xù)增強全方位、精細化質(zhì)檢能力,提供上百個行業(yè)通用質(zhì)檢規(guī)則服務和自研質(zhì)檢算法,為數(shù)據(jù)質(zhì)量保駕護航,標注準確率可達 99.9%;強化數(shù)據(jù)管理能力,支持多源異構(gòu)數(shù)據(jù)管理、版本管理、標簽管理、場景管理,支持數(shù)據(jù)可視化、數(shù)據(jù)場景挖掘、多模態(tài)檢索等。

除Rosseta 數(shù)據(jù)標注平臺外,星塵數(shù)據(jù)還為客戶提供Rosseta標注軟件基礎版、Rosseta標注軟件高級版、Rosseta標注軟件旗艦版、Rosseta App、Rosseta獨立標注工具、開放平臺Open API等眾多產(chǎn)品形態(tài),支持私有化部署和定制化軟件,滿足客戶多樣性需求。

百億美金標注市場規(guī)模

近年來,隨著人工智能技術(shù)的發(fā)展,數(shù)據(jù)標注行業(yè)成為一個新興產(chǎn)業(yè),在短短數(shù)年間迎來了爆發(fā)式的發(fā)展。根據(jù)Grand View Research的數(shù)據(jù),全球數(shù)據(jù)標注市場未來十年將以年復合增長率約25%的速度增長,市場規(guī)模將達百億美金。此外,隨著AI+垂直場景相結(jié)合的趨勢以及垂直行業(yè)自身的蓬勃發(fā)展,數(shù)據(jù)標注行業(yè)將迎來更大的增量市場空間。2021年國務院印發(fā)的《“十四五”數(shù)字經(jīng)濟發(fā)展規(guī)劃》明確指出,支持市場主體依法合規(guī)開展數(shù)據(jù)采集,聚焦數(shù)據(jù)的標注、清洗、脫敏、脫密、聚合、分析等環(huán)節(jié),提升數(shù)據(jù)資源處理能力,培育壯大數(shù)據(jù)服務產(chǎn)業(yè)。

與此同時,數(shù)據(jù)標注行業(yè)也面臨一系列挑戰(zhàn):標注難度和標注質(zhì)量要求提升,多場景和復雜化的需求對標注平臺和工具要求越來越高;數(shù)據(jù)量爆發(fā),人力標注無法實現(xiàn)規(guī)?;?,給標注產(chǎn)能帶來挑戰(zhàn);行業(yè)從一般性數(shù)據(jù)標注走向難例發(fā)現(xiàn)、數(shù)據(jù)挖掘,需要從海量數(shù)據(jù)中識別真正有價值的數(shù)據(jù);MLOps、DataOps對平臺的端到端閉環(huán)能力提出挑戰(zhàn);4D融合等前沿標注對大規(guī)模標注基礎設施建設提出挑戰(zhàn);智能汽車數(shù)據(jù)安全引發(fā)公眾擔憂。

2022年Tesla AI Day讓更多人知道了自動化標注的存在,也讓星塵數(shù)據(jù)這類“數(shù)據(jù)標注行業(yè)的技術(shù)專家”走到臺前。星塵數(shù)據(jù)成立于2017年,總部位于北京,2022年底公布A輪融資5000萬人民幣。星塵橫向服務全場景AI數(shù)據(jù)標注能力,縱向深耕自動駕駛行業(yè),目前覆蓋90%頭部自動駕駛客戶,此外還服務智能家居、智慧城市、智能機器人、智慧醫(yī)療、智慧教育、智能零售、智能遙感、智慧金融等眾多數(shù)據(jù)場景。

Autolabeling讓標注更簡單

星塵數(shù)據(jù)從創(chuàng)立之初就確立了三個目標:首先,通過自動化標注提高標注效率;其次,通過提供數(shù)據(jù)策略專家服務,為客戶創(chuàng)造更多的價值;最后,通過數(shù)據(jù)閉環(huán)讓客模型訓練效果更好,數(shù)據(jù)標注量更少,提高標注性價比。

基于戰(zhàn)略目標和企業(yè)定位,星塵數(shù)據(jù)推出國內(nèi)首個自動化標注平臺Rosetta平臺,平臺提供數(shù)百個標注功能,可支持圖像、點云、文本、語音、采集等在內(nèi)的 100+ 種主流標注場景。

Rosetta命名來源于埃及金字塔旁發(fā)現(xiàn)的石碑Rosetta Stone。這塊石碑刻有古埃及法老托勒密五世詔書的三種不同語言版本,讓近代的考古學家得以有機會對照各語言版本的內(nèi)容后,解讀出已經(jīng)失傳千余年的埃及象形文之意義與結(jié)構(gòu)。星塵數(shù)據(jù)Rosetta平臺解決了人類語言和機器語言之間的轉(zhuǎn)譯鴻溝,讓大規(guī)模訓練數(shù)據(jù)的機器學習成為可能。

星塵數(shù)據(jù)開發(fā)了上百種輔助標注算法,為預標注、標注、質(zhì)檢環(huán)節(jié)提供多樣化的算法輔助。以激光雷達點云標注為例,平臺在渲染、自動貼合、自動映射、連續(xù)補間等功能上具備行業(yè)領先的性能,具備無延時切幀特點。

算法的加入讓平臺自動化水平逐年提升,目前平臺自動化率達到60%。高自動化率讓標注效率和標注產(chǎn)能顯著提升,相比其他平臺,標注員在Rosetta平臺能標得更快,獲得更多收入。

算法也讓復雜標注需求得以解決。星塵算法團隊密切關注前沿技術(shù)動向,會提前做好技術(shù)儲備和產(chǎn)品沉淀。目前平臺可支持BEV、3D重建、4D融合等自動駕駛前沿算法的數(shù)據(jù)標注。

定位“數(shù)據(jù)策略專家”

傳統(tǒng)的數(shù)據(jù)標注流程中,算法人員制定數(shù)據(jù)標注規(guī)則,標注公司消化后再提供給標注團隊。然而,執(zhí)行過程中,算法的思路并不能一次性達到最優(yōu)化;其次,數(shù)據(jù)標注人員僅僅是一個“干活兒的”角色,并不能幫助更好地迭代算法效果。因此,算法側(cè)時常會有一些不合理的規(guī)則導致成本飆升或難度大增導致難以執(zhí)行。有些企業(yè)提出了不合理的標注規(guī)則,例如要求1/20的遮擋比例或在沒有基礎模型的前提下提出“一個點起標”。

數(shù)據(jù)管理也是企業(yè)頭痛的問題。例如,數(shù)據(jù)通過硬盤傳輸,效率低且無法管理。此外,還存在數(shù)據(jù)批次多、臟數(shù)據(jù)多、清洗后有效數(shù)據(jù)少、同類型數(shù)據(jù)重復標注的問題。同一批數(shù)據(jù),雖然L2和L4模型訓練都用得上,但企業(yè)缺乏數(shù)據(jù)策略意識,數(shù)據(jù)復用性低,無形中增加了成本。

在服務90%頭部自動駕駛客戶、經(jīng)歷上千個項目打磨后,星塵不僅沉淀出了行業(yè)領先的標注平臺和工具,還培養(yǎng)出了經(jīng)驗豐富的數(shù)據(jù)策略專家。星塵一些資深員工在談到自家工具時十分自信,更讓他們自豪的是,他們能夠基于豐富的項目經(jīng)驗為客戶提供更好的建議。

章磊表示,數(shù)據(jù)策略中涉及大量前沿技術(shù),既包括算法中和數(shù)據(jù)相關的技術(shù),如領域遷移、時空融合、數(shù)據(jù)增強、弱監(jiān)督學習等等,也包括以數(shù)據(jù)為中心的反饋迭代技術(shù),如主動學習、強化學習、數(shù)據(jù)檢索、Human-in-the-loop、數(shù)據(jù)安全、場景化數(shù)據(jù)生成、模型測試等。數(shù)據(jù)策略專家既要了解相關技術(shù)也要熟悉產(chǎn)品,以專業(yè)性來服務客戶。一個典型的例子是,客戶在感知算法中因為沒有做運動補償,需要對相機信號和雷達信號逐一進行人工確認。星塵的數(shù)據(jù)策略專家在和算法溝通后,提出通過2DOD算法和3D映射聯(lián)合計算,通過IoU篩選候選樣本的方案,并將多個算法直接以人機交互的方式嵌入標注流程中,節(jié)省了50%以上的標注時間。

全流程閉環(huán)式AI數(shù)據(jù)系統(tǒng)將成主流

在發(fā)布會上,章磊介紹了星塵數(shù)據(jù)的數(shù)據(jù)閉環(huán)解決方案,這是Rosetta3.0平臺的一大亮點。章磊表示,全流程閉環(huán)式AI數(shù)據(jù)系統(tǒng)將成為主流,星塵數(shù)據(jù)為此提早進行研發(fā)布局。

在一個完整的數(shù)據(jù)閉環(huán)訓練中,客戶可使用星塵提供的離線數(shù)據(jù)包進行基礎版模型訓練,星塵標注系統(tǒng)通過API與客戶算法系統(tǒng)進行交互,動態(tài)感知客戶模型效果,基于模型各版本迭代的效果,動態(tài)檢索不確定性最大、信息量最大、損失最大、稀疏場景等有效數(shù)據(jù)。幾次迭代后,不僅沉淀了有效數(shù)據(jù),還節(jié)省了數(shù)據(jù)成本。同時,星塵還可以在海量數(shù)據(jù)中找到真正有價值的數(shù)據(jù)幫助客戶訓練模型,并利用自有數(shù)據(jù)集評測模型效果。模型上線后,行車數(shù)據(jù)可用于模型迭代,形成數(shù)據(jù)閉環(huán)。

以ChatGPT語言模型為例,通過星塵的Rosetta3.0數(shù)據(jù)標注系統(tǒng),客戶可以將模型快速接入系統(tǒng),通過API實時將結(jié)果顯示在標注平臺上,星塵專屬基地的NLP標注員可以快速給出反饋。同時,獎勵強化模型實時接收到反饋并進行訓練,可以實現(xiàn)模型的高效訓練并及時發(fā)現(xiàn)難例和缺陷。該解決方案目前已進入與某深度客戶的POC測試環(huán)節(jié)。

章磊表示,未來星塵數(shù)據(jù)將專注AI數(shù)據(jù)服務,通過Autolabeling 技術(shù)、數(shù)據(jù)策略專家服務和數(shù)據(jù)閉環(huán)系統(tǒng)服務,為全球人工智能企業(yè)特別是自動駕駛行業(yè)提供“燃料”,最終實現(xiàn)AI的平民化。