国产精品动漫无码1区2区3区,亚洲国产精品一级无码中文字,人妻视频一区二区三区免费

揭秘人工智能背后鮮為人知的人工力量——數(shù)據(jù)標注

2021-03-31 09:07

今日頭條

每日安全資訊

所謂“得數(shù)據(jù)者，得人工智能”，如今人工智能早已在我們的生活中屢見不鮮，像“指紋解鎖”、“人臉識別”等等都屬于人工智能的范疇，然而人工智能的上游基礎產(chǎn)業(yè)，數(shù)據(jù)標注卻鮮為人知。

盡管隨著AI的普及，我們在生活中越來越依賴于人工智能，但“人工智障”的相關調(diào)侃也從來沒有消失過。

相信大家都知道，如果我們想要讓AI準確識別出圖中的鳥，我們需要在數(shù)據(jù)集中手動將這些照片標記為鳥，然后讓算法和圖像之間產(chǎn)生關聯(lián)性的判斷識別。

要是小規(guī)模的實驗性數(shù)據(jù)還好，一旦遇到那種規(guī)模多達數(shù)百萬個的標記需求，個中消耗的時間真是難以想象。

什么是數(shù)據(jù)標注？

在了解數(shù)據(jù)標注之前，先來了解人工智能。

人工智能（Artificial Intelligence），英文縮寫為AI。它是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統(tǒng)的一門新的技術科學。它企圖了解智能的實質(zhì)，并生產(chǎn)出一種新的能以人類智能相似的方式做出反應的智能機器，該領域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統(tǒng)等。人工智能從誕生以來，理論和技術日益成熟，應用領域也不斷擴大，可以設想，未來人工智能帶來的科技產(chǎn)品，將會是人類智慧的“容器”。

人工智能，其實是部分替代人的認知功能。人工智能算法是數(shù)據(jù)驅(qū)動型算法，也就是說，如果想實現(xiàn)人工智能，首先需要把人類理解和判斷事物的能力教給計算機，讓計算機學習到這種識別能力。

類比機器學習，我們要教它認識一只貓，直接給它一張貓的圖片，它是完全不知道這是什么。

我們得先有貓的圖片，上面標注著“貓”這個字，然后機器通過學習了大量的圖片中的特征，這時候再給機器任意一張貓的圖片，它就能認出來這是貓了。

訓練集和測試集都是標注過的數(shù)據(jù)，以貓為例，假設我們有1000張標注著“貓”的圖片，那么我們可以拿800張作為訓練集，200張作為測試集。機器從800張貓的圖片中學習得到一個模型，然后將剩下的200張機器沒有見過的圖片去給它識別，然后我們就能夠得到這個模型的準確率了。

所以目前人工智能需要標注大量數(shù)據(jù)，即對原始信息進行數(shù)據(jù)標注。

數(shù)據(jù)標注為通過分類、畫框、標注、注釋等，對圖片、語音、文本等數(shù)據(jù)進行處理，標記對象的特征，以作為機器學習基礎素材的過程。

數(shù)據(jù)標注是大部分人工智能算法得以有效運行的關鍵環(huán)節(jié)。數(shù)據(jù)標注是把需要機器識別和分辨的數(shù)據(jù)貼上標簽，然后讓計算機不斷地學習這些數(shù)據(jù)的特征，最終實現(xiàn)計算機能夠自主識別。

數(shù)據(jù)標注的應用場景

智能安防

智能安防是人工智能與信息技術結合的關鍵領域，對于城市與民生發(fā)展有重要的意義。通過生物識別、行為監(jiān)測等技術手段，廣泛地應用于城市道路監(jiān)控、車輛人流監(jiān)測、公共安全防范等領域。

人臉標注在智能安防中主要應用于人臉識別與身份識別。

人臉識別也稱人像識別、面部識別，是基于人的臉部特征信息進行多年齡段、多角度、多表情、多光線的人臉圖像采集，從而完成身份識別的一種生物識別技術。人臉識別涉及的技術主要包括計算機視覺、圖像處理等。

人臉識別（視覺識別技術的一種應用）在國內(nèi)的應用大致經(jīng)歷從公共安全領域擴展到商業(yè)領域的過程。最初，機場、高鐵站以及酒店等場景使用這項技術對個人身份進行驗證，隨后商業(yè)銀行也開始采用人臉識別實現(xiàn)遠程開戶。再之后，刷臉支付、刷臉門禁也相繼出現(xiàn)，人臉識別逐漸從少數(shù)有限場景滲透到人們的日常生活之中，目前，人臉識別技術已廣泛應用于多個領域，除了智能安防之外，還應用于金融、司法、公安、邊檢、航天、電力、教育、醫(yī)療等眾多領域。

此外，物品標注在智能安防應用中，物品標注需要和行為標注結合。

智能交通

近年來，隨著人工智能浪潮的興起，無人駕駛、智能交通安全系統(tǒng)一度走進我們的生活，國內(nèi)許多公司紛紛投入到自動駕駛和無人駕駛的研究，例如百度啟動的“百度無人駕駛汽車”計劃，其自主研發(fā)的無人駕駛汽車Apollo還曾亮相2018年央視春晚。

在汽車自動駕駛的過程中，想要讓汽車本身的算法做到處理更多、更復雜的場景，背后就需要有海量的真實道路數(shù)據(jù)做支撐。而這就需要依靠數(shù)據(jù)標注。

此外還有智慧停車，這些也都要依賴于人工智能數(shù)據(jù)標注的介入，對于行車視頻進行采集，路況進行提取，停車點進行標注，包括D點云障礙物、紅綠燈、車道燈及高精地圖。為行人識別、車輛識別、紅綠燈識別、車道線識別等技術提供精確訓練數(shù)據(jù)，為智能交通保駕護航。

智能醫(yī)療

智能醫(yī)療是通過打造健康檔案區(qū)域醫(yī)療信息平臺，利用最先進的物聯(lián)網(wǎng)技術，實現(xiàn)患者與醫(yī)務人員、醫(yī)療機構、醫(yī)療設備之間的互動，逐步達到信息化。AI與醫(yī)療行業(yè)的結合將有望迎來跨越式發(fā)展。

醫(yī)療影像標注是對醫(yī)療影像進行區(qū)域標注及分類標注，多應用于輔助臨床診斷。人工智能通過學習大量的醫(yī)療影像標注數(shù)據(jù)集，將會很好的輔助醫(yī)生進行臨床診斷以及提出治療方案。

得數(shù)據(jù)者，得人工智能

人工智能主要算法應用領域集中在計算機視覺、語音識別/語音合成，以及自然語言處理三個方面。

圖像方面：一個新研發(fā)的計算機視覺算法需要上萬張到數(shù)十萬張不等的標注圖片訓練，新功能的開發(fā)需要近萬張圖片訓練，而定期優(yōu)化算法也有上千張圖片的需求，一個用于智慧城市的算法應用，每年都有數(shù)十萬張圖片的穩(wěn)定需求。

語音方面：頭部公司累計應用的標注數(shù)據(jù)集已達百萬小時以上，每年需求仍以20%-30%的增速上升，要求數(shù)據(jù)服務商不僅要掌握專業(yè)的聲學知識、數(shù)據(jù)標注經(jīng)驗，還要擁有語音合成的算法能力。

自然語言處理方面：隨著工業(yè)、醫(yī)療、教育的AI應用產(chǎn)品進一步爆發(fā)，將會有更多交互方式出現(xiàn)，自然語義數(shù)據(jù)處理的需求將會持續(xù)增長，有望成為繼圖像、語音之后的第三大增量市場。

有多少智能，就有多少人工

這些海量的數(shù)據(jù)幾乎全部依賴數(shù)據(jù)標注師手工進行標注，數(shù)據(jù)標注行業(yè)的缺口十分可觀，并且數(shù)據(jù)標注已經(jīng)在各行業(yè)產(chǎn)生了極廣的應用，行業(yè)也開始逐漸升級，走向產(chǎn)業(yè)化。

在數(shù)據(jù)標注行業(yè)流行著一句話，“有多少智能，就有多少人工”。

近日，來自普林斯頓大學、康奈爾大學、蒙特利爾大學以及美國國家統(tǒng)計科學研究院共同發(fā)表的最新論文指出，這部分手動標記工作大多在美國及其他西方國家之外完成，并對全球各地的工人施以殘酷剝削。

以Sama（原Samasource）、Mighty AI以及Scale AI等數(shù)據(jù)標記公司為例，他們主要使用來自撒哈拉以南非洲以及東南亞地區(qū)的勞動力，每天支付給員工的薪酬僅為8美元（折合成人民幣為51.6元）。但與此同時，這些企業(yè)每年卻能賺取數(shù)千萬美元的巨額收益。

現(xiàn)代人工智能依賴各種算法處理規(guī)模達數(shù)百萬的示例、圖像或文本素材。但在此之前，首先需要由工作人員在圖片數(shù)據(jù)集中手動標記出對象，再將標記完成的大量圖像交付給算法以學習模式，掌握如何準確識別對象。這類工作量極大、過程極其枯燥且耗時的手動數(shù)據(jù)標記過程，已經(jīng)成為AI經(jīng)濟體系中的重要組成部分。

未來，隨著AI應用場景逐漸多領域化，在數(shù)據(jù)標注行業(yè)內(nèi)部，從業(yè)者也必將隨著AI行業(yè)而一同進入細分市場追逐階段，可謂機遇與挑戰(zhàn)并行。

THEEND

免責聲明：凡注明為其它來源的信息均轉自其它平臺，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對此類作品本站僅提供交流平臺，不為其版權負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。若有來源標注錯誤或侵犯了您的合法權益，請作者持權屬證明與本站聯(lián)系，我們將及時更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

云計算的江湖，風云再起

10月8日
揭秘，IOTE國際物聯(lián)網(wǎng)展2025年巡展預告!

10月8日
防勒索病毒攻擊關鍵措施

10月8日
匯聚行業(yè)精英，探討前沿技術第十九屆汽車涂裝工藝技術研討會即將啟幕!

10月8日
網(wǎng)博會革新升級：“區(qū)域頻道”精準選型引領，引領智能制造新風潮

10月8日
萬億賽道!AI算力趨勢發(fā)展深度分析 2024

10月9日

精選文章

熱點資訊

全球首個5G室內(nèi)定位能力現(xiàn)網(wǎng)驗證完成可實現(xiàn)3至5米定位精度

揭秘人工智能背后鮮為人知的人工力量——數(shù)據(jù)標注

2024 信息化觀察網(wǎng)

長按掃描二維碼閱讀原文

揭秘人工智能背后鮮為人知的人工力量——數(shù)據(jù)標注

最新評論（評論僅代表用戶觀點）

AI畫作算不算藝術？

AI時代辦公模式遷移：從人找知識到知識找人

8月起一批網(wǎng)絡安全相關新規(guī)將開始施行!

《2023產(chǎn)業(yè)互聯(lián)網(wǎng)安全十大趨勢》發(fā)布（附報告全文）

本月熱門

云計算的江湖，風云再起

揭秘，IOTE國際物聯(lián)網(wǎng)展2025年巡展預告!

防勒索病毒攻擊關鍵措施

匯聚行業(yè)精英，探討前沿技術第十九屆汽車涂裝工藝技術研討會即將啟幕!

網(wǎng)博會革新升級：“區(qū)域頻道”精準選型引領，引領智能制造新風潮

萬億賽道!AI算力趨勢發(fā)展深度分析 2024

精選文章

2024首屆“數(shù)據(jù)要素×”行業(yè)推進大會回顧篇——文化和旅游部信息中心原副主任信宏業(yè)發(fā)表主題演講

藝術家利用VR技術讓倫勃朗的《夜巡》“活”起來

國谷控股榮獲2024“數(shù)據(jù)要素×”行業(yè)大會“數(shù)商TOP50”,向“新”發(fā)力

華磊迅拓黃睿：適時而變、主動出擊，全面助力企業(yè)數(shù)字化轉型

新業(yè)態(tài)、新應用、助推新經(jīng)濟 2019中國互聯(lián)網(wǎng)+產(chǎn)業(yè)創(chuàng)新合作發(fā)展論壇已全面啟動

祝賀!藍凌獲評“中國精選60強信創(chuàng)廠商”

熱點資訊

榮耀應用市場攜手數(shù)智融合應用伙伴共創(chuàng)綠色生態(tài)

“皇冠丹麥曲奇”勝訴 “藍罐曲奇”敗訴——市場競爭需遵守法律底線

什么是 OSI 模型？OSI 模型的七層是哪些？

自動化測試有哪些常見的挑戰(zhàn)和解決方案？

政策寶閃耀2024數(shù)智融合應用論壇，榮獲“數(shù)智融合標桿案例”

全球首個5G室內(nèi)定位能力現(xiàn)網(wǎng)驗證完成可實現(xiàn)3至5米定位精度

大數(shù)據(jù)打造智慧人口普查新引擎

揭秘人工智能背后鮮為人知的人工力量——數(shù)據(jù)標注

最新評論（評論僅代表用戶觀點）

欄目推薦

AI畫作算不算藝術？

AI時代辦公模式遷移：從人找知識到知識找人

8月起 一批網(wǎng)絡安全相關新規(guī)將開始施行!

《2023產(chǎn)業(yè)互聯(lián)網(wǎng)安全十大趨勢》發(fā)布（附報告全文）

本月熱門

精選文章

熱點資訊

全球首個5G室內(nèi)定位能力現(xiàn)網(wǎng)驗證完成 可實現(xiàn)3至5米定位精度

大數(shù)據(jù)打造智慧人口普查新引擎

AI畫作算不算藝術？

8月起一批網(wǎng)絡安全相關新規(guī)將開始施行!

全球首個5G室內(nèi)定位能力現(xiàn)網(wǎng)驗證完成可實現(xiàn)3至5米定位精度