人類創(chuàng)造了AI,但AI也同時改變了人類。從AlphaGo 初出茅廬大殺四方,到Zero絕跡江湖卻攪起圍棋行業(yè)的腥風血雨開始,人們對于這個聚光燈下的行業(yè)所抱有的期望就一直在不斷上升。
而將目光轉移到聚光燈外,作為AI技術的底層支撐,數據采集與標注相較算法研究、數據挖掘等AI領域的其他工種,似乎一直以來都是被邊緣化乃至低視的一個存在。
盡管,在通常情況下,人工投喂數據的質量往往直接影響著智能的精度。
而摘掉廉價勞動力的帽子,我們會發(fā)現,在被忽視的角落之中,AI數據服務行業(yè)也在進行著日新月異的變化。
小到用數據爬蟲抓取互聯(lián)網現存數據,并進行拉框,大到根據用戶定制化的硬件以及場景需求,去完成數據的采集與多維度數據標注。這個行業(yè),如今正朝著專業(yè)化、細分化、場景化的方向不斷演進。而在這一過程中,一批諸如百度數據眾包、云測數據等更加專業(yè)、更具備實踐經驗的團隊與企業(yè)也正應運而出成為行業(yè)中的佼佼者。
他們的誕生一方面是這個行業(yè)前行的見證者,同時也是開拓者。
那么他們是如何成長起來的?
這個一直被忽略、被邊緣化的行業(yè)究竟又發(fā)展到了哪個階段?
最后,從他們的角度出發(fā),AI又經歷了怎樣的發(fā)展與變遷?
通過深度走訪AI數據服務行業(yè)的頭部玩家云測數據以及多位AI數據服務行業(yè)從業(yè)者,了解他們的故事與對這個行業(yè)的看法,我們得以看到數據行業(yè)最真實的一面,也進一步從另一個角度看到了AI發(fā)展過程之中最隱秘的變化與成長。
1、爆發(fā)初始:最基礎的數據服務,被忽視的數據服務
作為谷歌首席架構師、谷歌人工智能團隊谷歌大腦(Google Brain)的負責人,Jeff Dean曾在公開場合這樣強調數據對于人工智能算法的重要性:
以上橫軸為數據量,縱軸為準確率,藍色以及綠色線條分別代表深度學習以及傳統(tǒng)算法。根據Jeff Dean的預判,隨著數據規(guī)模的不斷擴大,未來深度學習算法的精度也將不斷提升。
也就是說,處在技術大爆發(fā)與數字洪水階段,誰掌握了更多的數據、更精準的數據,那么誰的算法精度也就會更領先一步。
但一直以來,在AI的發(fā)展中,數據的采集與標注卻始終在有意或者無意的被忽視著,乃至被邊緣化。
但是在云測數據的總經理賈宇航看來,對于算法落地來說,“數據不僅充當飼料,同時也在逐漸充當嬰兒的奶粉,運動員的優(yōu)質蛋白一樣,擁有了就可以更好的成長具備競爭力”而想要為算法提供足夠優(yōu)質的嬰兒奶粉,并沒有那么容易。
舉個簡單的例子,如果只是人臉檢測,那么開源數據集或平臺眾包就可以很快滿足需求。但隨著技術要求的提升,AI不僅僅是做人臉檢測,而是視線追蹤、或是微表情檢測。很顯然,這類需求很難通過互聯(lián)網或者眾包用戶采集完成。
那么如何解決這個問題?或許只有更專業(yè)的數據采集與標注團隊才能完成這一任務。
也正是基于這樣的市場需求,2017年,云測旗下AI數據服務品牌云測數據成立?;诖饲皩τ赥o B行業(yè)的深刻理解以及專業(yè)化的團隊搭建,云測數據成立不久就躋身國內一流的AI數據服務解決方案提供商。
那么云測數據如何解決上面所說的問題?
賈宇航表示,云測數據的辦法是自建數據采集基地,搭建專門的場景實驗室。目前,云測數據已經有了200多人的研發(fā)與產品經理,以及近千人的數據標注團隊,在規(guī)模以及質量上都處在行業(yè)前列。
以多角度多姿態(tài)的動作采集為例,賈宇航表示,云測數據專門在橫店建了一個數據采集基地,根據客戶訂單需求,進行特定動作、表情和表情的捕捉。
當然,這些不僅是有趣或者單一客戶需求所驅動的成果,而是整個AI數據服務行業(yè)從粗放的勞動密集型時代走向精耕細作所必須的過程。
走到如今,AI數據服務行業(yè)已經邁向場景化與復雜化,而以眾包用戶進行數據采集的服務形態(tài),已經不能滿足AI企業(yè)往下一個階段進化的需求。
賈宇航解釋,現如今,一個完整的數據服務工作流程是由可行性評估到執(zhí)行,到審核,再到交付四個環(huán)節(jié)組成。這中間,如何分工,審核與執(zhí)行之間又該如何形成反饋閉環(huán),怎樣能夠提升工作效率都是需要經驗摸索以及成本投入的。
以云測數據為例,在進行數據服務時,云測會有專門的研發(fā)投入以及不少于350個小時的團隊培訓流程。
通過研發(fā)團隊搭建的協(xié)同分工流程平臺以及諸如快速框選、快速選點等小工具的開發(fā),可以將數據采集以及標注的速度與效率成倍的提升。以法令紋的采集標注為例,有時候客戶不僅需要將其準確的框選出來,還需要將其進行均勻的四點等分,如果單純的通過手工作業(yè),那么無論效率還是精確度都將受到極大的影響。但是通過工具的開發(fā),就可以在框選之后,快速的進行自動等分標注。
而針對特定的用戶需求,云測還搭建了專門的場景實驗室,可以基于客戶算法模型定制化搭建采集場景,以達到覆蓋盡可能多的實際場景及邊際場景的目的,保證采集數據契合算法模型,為客戶提供高精度的采集數據。
2、從網絡爬取到場景化采集,數據服務行業(yè)的三場戰(zhàn)事
在AI的落地中,數據服務行業(yè)也在不斷自我演進,同時也見證與反哺著下游AI企業(yè)的成長與變化。
如果回顧數據服務行業(yè)這二十年來的發(fā)展,我們會發(fā)現在這個行業(yè)一定經歷了三大階段的戰(zhàn)事,每一場中都有其代表性的玩家出現,每一階段,也都印證著AI行業(yè)發(fā)展的腳步。
第一階段,可以簡單概括為免費階段。
這一時期,AI也基本還停留在初步的實驗室階段,對于數據本身的精確度要求并不算高。比如有企業(yè)需要人臉數據,只要把來自社交網絡或者對搜索引擎圖片進行簡單的爬取就能夠滿足基本的需求。
進一步演化出,以ImageNet等開源數據集為代表,企業(yè)不再需要自己爬取網絡數據,而是直接使用網上開源的現成數據,進而可以減少很多時間以及精力成本。但是這種數據偏通用,無法滿足定制化需求。AI的發(fā)展也在這一時期進入一個小高潮,但是距離產業(yè)化應用卻還有一定距離。
第二階段,數據服務行業(yè)開始有了初步的商業(yè)化,眾包成為了這一階段行業(yè)的代表性服務形態(tài)。
但是相應的,專業(yè)性也成為這一時期行業(yè)的代表性問題。首先,是眾包用戶無法滿足客戶對于諸如疲勞駕駛檢測、情緒捕捉等方面的復雜需求;其次,對于客戶需求的理解方面,眾包用戶由于沒有經受專業(yè)的訓練,可能會出現質量參差不齊或者理解不到位的情況。因此整體所能做的事情相對簡單,無法滿足AI企業(yè)往下一個階段進化時的數據需求。
發(fā)展至如今,數據服務已經走入第三階段。這一時期,AI落地已經成為行業(yè)發(fā)展的一大重要階段,AI+5G+IoT催化了數據大爆炸,帶來了廣闊的行業(yè)機遇,相應的數據服務也走入了場景化以及精細化時代。
相對應的,云測數據對自身的定位也進一步明確,針對數據的安全性、定制化和精細化提出了更高要求。
針對高安全性,賈宇航總結,云測數據針對客戶“可復用的只有經驗,但絕不包括數據。”對此,云測數據建立了一套數據隔離機制:可以將數據封閉在標注平臺之內,全程采取專業(yè)化設備,以保證數據的采集、標注者只有數據的操作權,但是沒有拷貝、轉移的權利。
而針對場景化,云測數據目前在華東、華北、華南都設有數據交付中心和數據采集基地,可以滿足方言采集,特定目標采集等定制化客戶需求。
最后是精細化,據賈宇航表示,在數據采集環(huán)節(jié),云測數據可以通過定制化場景搭建、專業(yè)人員實戰(zhàn)來滿足用戶特定需求;而在數據標注環(huán)節(jié),則會通過對員工培訓以及專門開發(fā)例如法令紋標注等專業(yè)化工具,以使得框選、標注的精度進一步提升。
而隨著場景化、細分化的不斷發(fā)展,對客戶進行專家式服務也成了當前行業(yè)發(fā)展的一大特色。
賈宇航向我們講述了一個案例,曾經有一家自動駕駛企業(yè)前來云測數據,表示想要針對自動駕駛場景,對激光雷達以及攝像頭數據進行采集標注??蛻粢髮z像頭拍到的車輛,在激光雷達的捕捉的數據中全部標記出來。
但實際上,對于激光雷達捕捉到的數據中,10個點以下的內容,實際上在標注的時候可以直接忽略,否則反而會影響最終算法的識別精度。這也就是專業(yè)化的數據標注團隊,對于客戶需求的進一步增益。
3、換一個角度看人工智能,細分、多模態(tài)、專業(yè)化
我們不難發(fā)現,作為AI的基石,AI數據服務的發(fā)展其實也正從一個獨特的角度,對AI的發(fā)展形成側寫。
從云測數據的角度來看,賈宇航發(fā)現當前的AI發(fā)展出現了三大特征:細分化、多模態(tài)以及專業(yè)化,相應的,對于AI數據服務行業(yè)也形成了一定的影響與方向指引。
首先是細分化,當前AI已經進入技術落地階段,行業(yè)發(fā)展的主力已經由此前的技術流AI專家主導變成了由行業(yè)專家與技術流AI專家共同合作完成技術落地。他們一方面擁有著豐富的細分領域行業(yè)經驗,另一方面又具備著深厚的技術研發(fā)實力,兩相結合將AI從象牙塔帶進了安防、金融、家居、交通等各大行業(yè)。
進一步影響到數據服務行業(yè),賈宇航發(fā)現,在進行數據標注時,通常有駕駛經驗的工作人員在標注自動駕駛的時候也會有很好的工作效率。而未來,在數據標注行業(yè),玩家們也將隨著AI行業(yè)而一同進入定位與細分市場追逐階段。以云測數據為例,目前,他們集中于智能安防、智能駕駛、智慧金融、智慧家居,并在這幾個領域中建立了較高的行業(yè)壁壘。
其次是多模態(tài),所謂多模態(tài),即是對多維時間、空間、環(huán)境數據的感知與融合。比如當前的自動駕駛需要雷達+攝像頭才能跑的更穩(wěn),安防行業(yè)需要攝像頭+雷達\紅外\RFID才能感知的更精準、更真實。相應的,在數據服務的時候,企業(yè)也要跟上客戶需求,掌握好對多維傳感器融合的數據采集與標注。
最后則是專業(yè)化,盡管當前AI技術已經進入落地階段,但是頭部AI企業(yè)相較傳統(tǒng)行業(yè)的AI落地,在技術上會有前沿性的領跑。而這些算法企業(yè)的一些先進技術研究也很有可能成為未來數據服務行業(yè)的一大發(fā)展方向,相應的數據服務企業(yè)也要有前瞻性,才能在行業(yè)競爭中建立長期的壁壘。
4、結語:脫離刀耕火種,數據服務進入精細化運營時代
從貴陽、河南農村走向北京城里,理念更先進、技術更硬核、服務更專業(yè)的AI數據服務企業(yè)正將數據采集與標注帶入精細化運營時代。
一方面,AI落地,讓技術脫離實驗室刷榜走向實際場景,也讓數據服務行業(yè)從幕后走到臺前,成為這一過程之中最隱秘的見證者。
另一方面,5G+AI+IoT時代來臨,為市場帶來新的爆發(fā)機遇,臺前是百花齊放的AI產品,背后則是默默無聞的數據服務產業(yè),正是他們托起了AI發(fā)展的基石。
在這片藍海市場中,未來機遇廣闊,但是淘汰也在持續(xù)進行,可以肯定的是專業(yè)化、場景化、定制化將成為行業(yè)趨勢。