“大數(shù)據(jù)本身處于一個原始狀態(tài),那些還沒有經(jīng)過清洗和整理的非結(jié)構(gòu)化數(shù)據(jù)是價值極低的,只有經(jīng)過結(jié)構(gòu)化處理,數(shù)據(jù)才能夠被真正用起來。”愛數(shù)智慧創(chuàng)始人兼CEO張晴晴表示。
圖 | 愛數(shù)智慧創(chuàng)始人兼CEO張晴晴
眾所周知,AI的發(fā)展需要滿足三個基本(必要)條件:算法、算力和數(shù)據(jù)。數(shù)據(jù)作為其中重要的一環(huán),隨著5G時代到來,重要性愈加凸顯。促進(jìn)AI行業(yè)的發(fā)展,用好數(shù)據(jù)很重要。但是在這之前還有一個環(huán)節(jié)不可忽視,即數(shù)據(jù)采集和標(biāo)注,目的是讓數(shù)據(jù)變得“能用”。
增速快,數(shù)據(jù)采集與標(biāo)注市場未來可期
什么是數(shù)據(jù)采集與標(biāo)注?簡單來講,就是收集包括文本、圖像、視頻、、語音等在內(nèi)的數(shù)據(jù),繼而對這些數(shù)據(jù)進(jìn)行清洗和標(biāo)注。
數(shù)據(jù)顯示,2018年我國數(shù)據(jù)標(biāo)注行業(yè)的市場規(guī)模已達(dá)到60億元。對于數(shù)據(jù)采標(biāo)的市場規(guī)模,張晴晴表示,短期來看,數(shù)據(jù)采集標(biāo)注市場可能只是百億量級,但從長遠(yuǎn)角度來看,讓數(shù)據(jù)從非結(jié)構(gòu)化進(jìn)化到結(jié)構(gòu)化的精加工過程是一個非常龐大的市場,預(yù)計將達(dá)到千億。
“現(xiàn)如今,大家對智能化、信息化、標(biāo)準(zhǔn)化需求的滲透率還沒有那么高,隨著滲透率的逐步擴(kuò)大,數(shù)據(jù)采標(biāo)的市場也會越來越大。”
落實到具體的需求,客戶究竟想得到怎樣的服務(wù)、達(dá)到什么樣的目的?對于這個問題,張晴晴也給出了答案。她表示客戶的核心需求主要有兩個,一個是搭建系統(tǒng)用的基礎(chǔ)數(shù)據(jù)庫,另一個則是數(shù)據(jù)的精加工。“公司會從我們這里購買一些標(biāo)準(zhǔn)化的數(shù)據(jù)產(chǎn)品,來搭建基礎(chǔ)系統(tǒng)。隨著系統(tǒng)搭建完成,源源不斷的新數(shù)據(jù)開始產(chǎn)生,這些數(shù)據(jù)是非結(jié)構(gòu)化的,而企業(yè)需要收集它們并進(jìn)行精加工,去做結(jié)構(gòu)化的標(biāo)注,公司這時候也會需要我們的服務(wù)。”
充分利用人機(jī)協(xié)作優(yōu)勢,為智能世界提供數(shù)據(jù)生產(chǎn)力
張晴晴介紹,她本人之前所從事的是聲學(xué)研究,而團(tuán)隊的背景也多在語音語義領(lǐng)域,因此在業(yè)務(wù)層面,愛數(shù)智慧主要集中在語音方面,包括智能客服、智能家居、智能教育等等。另外在圖像、文本等領(lǐng)域,他們在主營業(yè)務(wù)之外也有所涉獵。
按照屬性來劃分,愛數(shù)智慧應(yīng)該歸類于專門做數(shù)據(jù)采標(biāo)的第三方公司,而一些公司往往還會選擇在內(nèi)部設(shè)立標(biāo)注部門。對此,張晴晴認(rèn)為從公司角度出發(fā),出于數(shù)據(jù)安全考慮,這種做法是合理的。但是“公司自己來做的話,往往在數(shù)據(jù)結(jié)構(gòu)化的專業(yè)度等方面會有所損失。”她指出,現(xiàn)在的企業(yè)自己做數(shù)據(jù)大多是利用純?nèi)斯さ姆绞綄?shù)據(jù)進(jìn)行采集和標(biāo)注,這樣處理數(shù)據(jù)具有四個特點,就是少(處理數(shù)據(jù)少)、慢(速度慢)、貴(成本高)、差(質(zhì)量差)。
鎂客網(wǎng)采訪過程中,張晴晴強(qiáng)調(diào)“愛數(shù)智慧是一家專業(yè)數(shù)據(jù)服務(wù)商,能充分利用人機(jī)協(xié)作的優(yōu)勢,將人在數(shù)據(jù)處理上舉一反三的能力與機(jī)器良好的記憶能力相結(jié)合,讓數(shù)據(jù)處理的過程更快且處理效果更好“。“人機(jī)協(xié)作”是愛數(shù)智慧的最大優(yōu)勢,而這一模式能夠節(jié)省數(shù)據(jù)處理的時間和成本,并提高數(shù)據(jù)處理的精度。
“數(shù)據(jù)采標(biāo)過程中有很多環(huán)節(jié)是可以由機(jī)器來完成的,但是在精度方面會存在一些問題,尤其是當(dāng)數(shù)據(jù)存在異常的情況下,機(jī)器的精度是完全不能夠保證的。”張晴晴表示。當(dāng)機(jī)器不能解決問題時,就需要人工進(jìn)行介入。“總體來看,人工介入的比例還是比較少的,可以這樣理解,人工更多承擔(dān)的是‘質(zhì)檢工作’,是對機(jī)器的結(jié)果進(jìn)行質(zhì)檢,而不是從零開始對數(shù)據(jù)進(jìn)行標(biāo)注。”
目前,愛數(shù)智慧的智能化數(shù)據(jù)處理平臺包括智能采集判斷、標(biāo)注效率優(yōu)化、智能質(zhì)檢、智能任務(wù)拆解技術(shù)、智能畫像技術(shù)等。人工方面,這一平臺在全世界各地?fù)碛?0萬C端數(shù)據(jù)處理員,基于用戶畫像技術(shù),平臺能夠“知悉”每位數(shù)據(jù)處理員的長處,繼而通過智能任務(wù)拆解技術(shù)將項目分拆,并分發(fā)給最適合某子項目的數(shù)據(jù)處理員,做到人員的配置最優(yōu)化。
“我們的定位是為智能世界提供充足的數(shù)據(jù)生產(chǎn)力。”張晴晴表示。
最后
在張晴晴看來,要想能夠很好地站立在數(shù)據(jù)采標(biāo)市場,除了做到“多快好省”,還需要做到“足夠?qū)I(yè)”。“做到多快好省中的一兩點還不能夠獲得一個明確的勝利,如果同時做到四點,那是非常不容易的。另外作為一家數(shù)據(jù)服務(wù)公司,還需要在數(shù)據(jù)處理維度上體現(xiàn)自己的專業(yè)度,做到給客戶提供更加專業(yè)的方案建議。”
目前,愛數(shù)智慧已經(jīng)與微軟、阿里、騰訊、滴滴等簽署了長期戰(zhàn)略合作計劃,也曾為中國移動、聯(lián)想、百度等八大行業(yè)的近百家客戶提供過數(shù)據(jù)服務(wù)。
可以看到,愛數(shù)智慧過往所服務(wù)的公司多是行業(yè)內(nèi)頭部企業(yè),而在接下來,“我們將會為發(fā)展中的AI企業(yè)及其他布局AI的傳統(tǒng)企業(yè)客戶提供數(shù)據(jù)服務(wù),為智能世界提供充足的數(shù)據(jù)生產(chǎn)力,為國內(nèi)外AI企業(yè)發(fā)展助力,為傳統(tǒng)企業(yè)智能化賦能”。