人工智能的興起帶火了一系列與其相關的產業(yè),數(shù)據標注作為其基礎產業(yè)之一,也在人工智能的加持之下短短幾年內迎來了飛速的發(fā)展。然而對于不少人來說,數(shù)據標注仍具是一個“盲區(qū)”。那么什么是數(shù)據標注,他又是如何助力人工智能發(fā)展的呢?
要想了解數(shù)據標注,首先需要了解人工智能的學習方法。監(jiān)督學習是目前應用最廣泛的機器學習算法,該方法強依賴標注數(shù)據,它通過學習大量標注的訓練樣本來構建預測模型。深度學習也需要大量數(shù)據的“投喂”,以深度學習為代表的機器學習框架都需要在大型的監(jiān)督數(shù)據集上進行訓練,百分點首席算法科學家蘇海波曾表示,深度學習只有在擁有充足標注數(shù)據的場景下才能發(fā)揮它的威力,但在很多實際的應用中卻沒有足夠的標注數(shù)據。
《2019年中國人工智能基礎數(shù)據服務行業(yè)白皮書》分析指出,2010-2016年為數(shù)據服務行業(yè)的“初生期”,早期數(shù)據標注需求激增,加之入行門檻低,涌入了大量玩家,魚龍混雜。
自2017年以來,伴隨著AI深入落地到各個應用場景中,數(shù)據標注行業(yè)了進入成長期,上層應用端的廠商對數(shù)據標注質的要求不斷提高,如自動駕駛、運動圖像、計算機視覺等領域的數(shù)據標注難度很高。
行業(yè)格局漸漸清晰,馬太效應明顯。據了解,國內從事數(shù)據標注業(yè)務團隊約有幾百家,其中獨立做整個數(shù)據質量服務的約百余家,能夠提供數(shù)據采標服務一體化的有幾十家,能夠提供高標準基礎數(shù)據服務的僅有十幾家。
這些意味這目前,數(shù)據標注行業(yè)仍舊處于一個快速發(fā)展的階段,整體在朝著個性化、專業(yè)化的方向發(fā)展,從早期較簡單的、通用的數(shù)據過渡到更復雜的個性化的、場景化的數(shù)據,對于很多細分領域,需要大量真實的模型進行標注去迭代模型。
行業(yè)的發(fā)展核心內驅力是人才。在數(shù)據標注行業(yè)飛速發(fā)展的背景之下,如何加強人才的培養(yǎng)和輸出,為行業(yè)提供更多人才成為了目前亟待解決的問題。AI優(yōu)評結合相關部門,對于數(shù)據標注人才的培養(yǎng)建立起了一整套科學專業(yè)的評價體系,并直接對接到用人單位,為行業(yè)輸送人才,保障行業(yè)的發(fā)展。相信在努力之下,未來,數(shù)據標注將會以一個全新的面貌展現(xiàn)在所有人的面前。