AWS張俠:數(shù)據(jù)湖到了重要發(fā)展期

李代麗
“簡單理解,數(shù)據(jù)湖就是一個(gè)中心數(shù)據(jù)存儲的容器,用戶不僅可以存儲結(jié)構(gòu)化以及非結(jié)構(gòu)化的任何數(shù)據(jù),還可以對數(shù)據(jù)進(jìn)行快速縮放、查詢和分析?!盇WS首席云計(jì)算企業(yè)戰(zhàn)略顧問張俠博士,用“河”和“湖”的字面意義,進(jìn)一步解釋了數(shù)據(jù)湖和傳統(tǒng)的數(shù)據(jù)庫以及數(shù)據(jù)倉庫的區(qū)別。

數(shù)據(jù),是企業(yè)加速業(yè)務(wù)創(chuàng)新的法寶;數(shù)據(jù),是企業(yè)在激烈的市場競爭中立于不敗之地的利器;有時(shí)候,數(shù)據(jù)的重要性堪比石油和黃金……這些說法一點(diǎn)也不夸張。但前提是,數(shù)據(jù)要想真正發(fā)揮價(jià)值,必須要有好的數(shù)據(jù)管理平臺,能夠及時(shí)捕捉、存儲和分析,這也是以AWS為代表的大型企業(yè)力推數(shù)據(jù)湖解決方案的最根本原因。那么,問題來了,什么是數(shù)據(jù)湖?

數(shù)據(jù)湖為什么重要?

“簡單理解,數(shù)據(jù)湖就是一個(gè)中心數(shù)據(jù)存儲的容器,用戶不僅可以存儲結(jié)構(gòu)化以及非結(jié)構(gòu)化的任何數(shù)據(jù),還可以對數(shù)據(jù)進(jìn)行快速縮放、查詢和分析。”AWS首席云計(jì)算企業(yè)戰(zhàn)略顧問張俠博士,用“河”和“湖”的字面意義,進(jìn)一步解釋了數(shù)據(jù)湖和傳統(tǒng)的數(shù)據(jù)庫以及數(shù)據(jù)倉庫的區(qū)別。

傳統(tǒng)數(shù)據(jù)處理方式,就像“一條小河”,里面有ERP、CRM等各種業(yè)務(wù)系統(tǒng),用戶可以設(shè)計(jì)“一個(gè)河道”,數(shù)據(jù)庫在最底層,數(shù)據(jù)經(jīng)過整理進(jìn)入數(shù)據(jù)倉庫,然后通過商務(wù)智能工具來展示。簡單理解,在傳統(tǒng)數(shù)據(jù)處理過程中,用戶大概知道能有多少“水”,還可以通過“閘門”管控水量。但是,在互聯(lián)網(wǎng)時(shí)代,各種各樣的視頻、移動(dòng)終端信息如“洪水猛獸”,形成大規(guī)模的海量數(shù)據(jù),用戶來不及整理和使用。這時(shí),一個(gè)新的設(shè)想打開了人們的視野,假設(shè)有那么一片洼地,沒有河道,所有數(shù)據(jù)先蓄積到里面,然后通過有效的工具進(jìn)行查詢和處理,這便是數(shù)據(jù)湖。

在張俠看來,數(shù)據(jù)湖有幾個(gè)重要特點(diǎn)。第一,存的是原始的自然數(shù)據(jù),既可以是結(jié)構(gòu)化數(shù)據(jù),也可以是非結(jié)構(gòu)化數(shù)據(jù);第二,因?yàn)槭褂昧嗽朴?jì)算,用戶可以快速縮放海量數(shù)據(jù);第三,在數(shù)據(jù)查詢過程中,除了能進(jìn)行建目錄、數(shù)據(jù)遷移和抽取等動(dòng)作,還能進(jìn)一步歸類、進(jìn)行數(shù)據(jù)分析等等。另外,數(shù)據(jù)湖不僅是高可用、高持久、海量數(shù)據(jù)處理的選擇,同時(shí)還能滿足安全、合規(guī)和審計(jì)等要求。

而對于用戶來說,借助最新的數(shù)據(jù)湖解決方案,不僅能解決過去的數(shù)據(jù)孤島問題,同時(shí)還能兼容傳統(tǒng)的數(shù)據(jù)倉庫和數(shù)據(jù)分析方法。最重要的是,更適合現(xiàn)代應(yīng)用部署,比如和機(jī)器學(xué)習(xí)結(jié)合,進(jìn)行預(yù)測性的分析。

誰在推動(dòng)數(shù)據(jù)湖技術(shù)變革?

數(shù)據(jù)湖概念最早由大數(shù)據(jù)廠商提出,從2011年5月到現(xiàn)在,已有8、9年的時(shí)間。但從具體市場行動(dòng)來看,其實(shí)亞馬遜在數(shù)據(jù)湖方面的部署要更早。

作為公有云市場的引領(lǐng)者,AWS有一個(gè)基礎(chǔ)的云服務(wù),那就是Amazon S3,于2006年3月14日白色情人節(jié)發(fā)布。Amazon S3可以存以二進(jìn)位為基礎(chǔ)的任何信息,包括傳統(tǒng)的來自數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù),以及手機(jī)、汽車、風(fēng)力發(fā)電機(jī)、攝像機(jī)鏡頭等非結(jié)構(gòu)化數(shù)據(jù)。也就是說,Amazon S3就是數(shù)據(jù)湖的核心,它既可以被當(dāng)做數(shù)據(jù)倉庫使用,也可以形成各種報(bào)表,對需要的數(shù)據(jù)進(jìn)行各類分析,包括交互式的查詢、運(yùn)營分析,以及數(shù)據(jù)的實(shí)時(shí)分析、推薦、預(yù)測等等?;贏mazon S3,用戶還可以交易和買賣數(shù)據(jù),并且能全程可視化地看到所有數(shù)據(jù)。

Amazon S3,擁有11個(gè)9的數(shù)據(jù)持久性,高度彈性的3個(gè)可用區(qū)架構(gòu),能提供更多區(qū)域復(fù)制選項(xiàng)以及分離,擁有獨(dú)立擴(kuò)展存儲和計(jì)算的能力,所以能為數(shù)據(jù)湖提供最佳存儲層。

在Amazon S3的后端還有一個(gè)冷存儲,如果數(shù)據(jù)不常用可以轉(zhuǎn)到Amazon Glacier (是冰河的意思),能幫助用戶降低很多費(fèi)用,只是用數(shù)據(jù)的時(shí)候需要多花3、4個(gè)小時(shí)才能提取,包括深度冷存儲Deep Archive,都是為了緩解用戶的存儲壓力。與Amazon S3緊密結(jié)合的產(chǎn)品還有各類的數(shù)據(jù)庫,其中Amazon DynamoDB就是一個(gè)非關(guān)系型數(shù)據(jù)庫,專門存儲鍵值類的數(shù)據(jù),全球有大量的數(shù)據(jù)都存儲在這里。比如:在游戲應(yīng)用場景里,每個(gè)玩家是第幾級?有多少血?用什么樣的武器?這些都是鍵值配對數(shù)據(jù)。

在AWS構(gòu)建的數(shù)據(jù)湖解決方案中,除了Amazon S3,還有幾個(gè)重要服務(wù),包括:Amazon RDS、Amazon Redshift和Amazon EMR。

Amazon RDS,全稱是Amazon Relational Database Service,是一個(gè)托管的關(guān)系型數(shù)據(jù)庫,支持諸如SQL Server、Oracle數(shù)據(jù)庫、開源PostgreSQL以及MySQL等數(shù)據(jù)庫。但如果用戶更傾向于使用云原生數(shù)據(jù)庫,則可以使用Amazon Aurora,同樣可以兼容MySQL和PostgreSQL。

可以說,從數(shù)據(jù)庫到數(shù)據(jù)倉庫,Amazon已經(jīng)擁有很多明星級產(chǎn)品陣容,比如:Amazon Redshift,是一個(gè)基于云的重要的數(shù)據(jù)倉庫產(chǎn)品,不僅具有強(qiáng)大的縮放能力,成本也是傳統(tǒng)的數(shù)據(jù)庫的十分之一。還有圖形數(shù)據(jù)庫Amazon Neptune,在過去的半年時(shí)間里,也在中國落地。

那么,我們該如何解決大數(shù)據(jù)的海量分析及實(shí)時(shí)性處理問題?Amazon也有專屬產(chǎn)品!針對海量數(shù)據(jù)的處理,有一款產(chǎn)品叫做EMR,全稱是Elastic MapReduce,主要用于集群,用類似于Hadoop開源的方法做大數(shù)據(jù)集群分析,研究大數(shù)據(jù)的相關(guān)性。而針對大數(shù)據(jù)的實(shí)時(shí)性問題,用戶可以使用Amazon Kinesis進(jìn)行不同數(shù)據(jù)的處理,包括可以處理視頻的數(shù)據(jù)流,也可以把數(shù)據(jù)直接導(dǎo)入關(guān)鍵服務(wù),都有不同的處理方式。

如何打造數(shù)據(jù)湖全案?

到目前為止,數(shù)據(jù)湖解決方案的技術(shù)環(huán)境已經(jīng)成熟,AWS有100多種服務(wù)來支持任何數(shù)據(jù)湖用例,包括用無服務(wù)器就地查詢與處理選項(xiàng),可極大地縮短獲得結(jié)果的時(shí)間,并降低數(shù)據(jù)洞察的成本。但值得一提的是,AWS的數(shù)據(jù)湖絕不只是一個(gè)個(gè)組件式應(yīng)用,而是一個(gè)完整的解決方案,尤其在Amazon Athena和AWS Glue兩大重磅產(chǎn)品的助力下,企業(yè)可以獲得最佳服務(wù)體驗(yàn)。

Amazon Athena(Athena的英文是雅典娜),是交互式數(shù)據(jù)查詢工具。當(dāng)用戶把各種數(shù)據(jù)都存在S3上面,使用SQL可以直接在S3里面對這些數(shù)據(jù)做查詢,輕松分析Amazon S3中的數(shù)據(jù)。由于Athena是一種無服務(wù)器服務(wù),因此客戶不需要管理基礎(chǔ)設(shè)施,而且只為他們運(yùn)行的查詢付費(fèi)。Athena可以自動(dòng)擴(kuò)展,并行執(zhí)行查詢,所以即便是大型數(shù)據(jù)集和復(fù)雜的查詢,也能很快獲得查詢結(jié)果。

AWS Glue(Glue是膠水的意思),在不同數(shù)據(jù)庫服務(wù)之間起到連接器的作用。最主要有兩個(gè)功能:一個(gè)是ETL,承擔(dān)Extract、Transform和Load等基本操作,也就是要做數(shù)據(jù)的抽取、轉(zhuǎn)換和加載。另外一個(gè),就是數(shù)據(jù)目錄服務(wù)功能。在把所有數(shù)據(jù)都存在數(shù)據(jù)湖里的過程中,我們要對這些數(shù)據(jù)打標(biāo)簽,做分類的工作,而Glue有一個(gè)像爬蟲一樣的功能,可以對數(shù)據(jù)湖里的海量數(shù)據(jù)自動(dòng)爬取,并生成數(shù)據(jù)目錄。

目前,Amazon Athena和AWS Glue都已在中國落地。從2019年12月19日起,由西云數(shù)據(jù)運(yùn)營的 AWS 中國(寧夏)區(qū)域已提供 AWS Glue服務(wù)。2020年1月9日,Amazon Redshift Spectrum 在由西云數(shù)據(jù)運(yùn)營的 AWS 中國(寧夏)區(qū)域推出。2020年1月16日起,Amazon Athena 已在由西云數(shù)據(jù)運(yùn)營的 AWS 中國(寧夏)區(qū)域推出。

“到了2020年,如果企業(yè)想在激烈的市場競爭中始終保持領(lǐng)先優(yōu)勢,就應(yīng)用好好研究下數(shù)據(jù)湖這一重要趨勢,并快速投入使用階段。” 張俠認(rèn)為,數(shù)據(jù)湖解決方案從兩、三年前開始就已經(jīng)成熟了,主要產(chǎn)品單元已經(jīng)全部到位,并且已經(jīng)有很多成功的落地案例。尤其在人工智能、5G、邊緣計(jì)算等新技術(shù)高速發(fā)展的新時(shí)期,通過數(shù)據(jù)湖對數(shù)據(jù)進(jìn)行存儲、分析是必經(jīng)道路,如果在恰當(dāng)?shù)臅r(shí)機(jī)選擇了適合的解決方案,會幫助企業(yè)少走些彎路,讓企業(yè)IT為業(yè)務(wù)創(chuàng)造更多可能性。

所以,不管是大數(shù)據(jù)開發(fā)者,還是企業(yè)大數(shù)據(jù)技術(shù)決策者,都應(yīng)該重新審視數(shù)據(jù)湖這一核心力量,通過構(gòu)建更強(qiáng)大的業(yè)務(wù)平臺為企業(yè)減輕運(yùn)營壓力,提高工作效率。而AWS帶來數(shù)據(jù)湖整體解決方案,不僅幫助企業(yè)更好地利用數(shù)據(jù)價(jià)值,還可以讓我們“站在巨人的肩膀上看世界”。

誰在利用數(shù)據(jù)湖解決方案獲取數(shù)據(jù)價(jià)值?

目前,AWS數(shù)據(jù)湖解決方案已經(jīng)有諸多來自全球以及中國本地的落地案例。

首先,是Amazon自己。秉承“吃自己的狗糧”的理念,Amazon早已在整個(gè)企業(yè)內(nèi)部建立了一個(gè)數(shù)據(jù)湖——Galaxy。Galaxy將所有數(shù)據(jù)整合在一起,進(jìn)行各種各樣大數(shù)據(jù)的分析,存儲了50PB到100PB的數(shù)據(jù)。通過它,Amazon每天執(zhí)行多達(dá)60萬的分析任務(wù),從給用戶的推薦、各種運(yùn)營信息、庫存信息、購買意向的信息、商品價(jià)格的信息等,相關(guān)洞察都通過數(shù)據(jù)湖來實(shí)現(xiàn),這也是Amazon關(guān)鍵的核心競爭力之一。

其次是,美國的金融監(jiān)管機(jī)構(gòu) FINRA。該機(jī)構(gòu)每天有超過1500億的事件、需要對超過20PB的數(shù)據(jù)運(yùn)行復(fù)雜的查詢,以監(jiān)測和分析非法的市場活動(dòng)。FINRA將所有金融的交易的信息整合在一起,可以處理所有的內(nèi)部交易。使用AWS的數(shù)據(jù)湖,F(xiàn)INRA提高了系統(tǒng)的敏捷性和速度,每年可節(jié)省1000萬美元到2000萬美元。

除了Amazon和FINRA以外,還有大量的企業(yè)和機(jī)構(gòu)都已經(jīng)開始采用AWS的數(shù)據(jù)湖和數(shù)據(jù)分析云服務(wù),例如,金融領(lǐng)域還有著名的基金管理公司Vanguard、證券交易所NASDAQ,互聯(lián)網(wǎng)及電商方面除了Amazon還有全球民宿短租公寓預(yù)定平臺Airbnb、酒店及機(jī)票預(yù)訂網(wǎng)站Expedia、美國版大眾點(diǎn)評Yelp、房地產(chǎn)評估服務(wù)網(wǎng)站Zillow、即時(shí)通信軟件Viber、慈善社交應(yīng)用Just Giving等,電信領(lǐng)域有NTT Docomo,軟件公司有Atlassian,游戲公司 EPIC Games,傳統(tǒng)領(lǐng)域有多元化創(chuàng)新企業(yè)3M、知名造紙企業(yè)Georgia-Pacific、北美最大的食品服務(wù)銷售企業(yè)西斯科(Sysco),媒體行業(yè)有Hearst赫斯特雜志國際集團(tuán)(《ELLE世界時(shí)裝之苑》等媒體的母公司),醫(yī)藥行業(yè)有安進(jìn)公司(Amgen),等等。他們創(chuàng)造了豐富的成功案例,為中國的企業(yè)和機(jī)構(gòu)提供了寶貴的經(jīng)驗(yàn)借鑒。

而在中國本地,也有一些優(yōu)秀企業(yè)走在了時(shí)代前沿。比如:北京殼木軟件有限責(zé)任公司(Camel Games),是隸屬于神州泰岳旗下的手機(jī)網(wǎng)游公司,曾在2011 年獲得了Google Play 官方頒發(fā)的 Top Developer(頂尖開發(fā)者)稱號,也采用了AWS的數(shù)據(jù)湖解決方案獲取數(shù)據(jù)價(jià)值。Camel Games服務(wù)器主管張華表示:“AWS Glue幫助我們完成了復(fù)雜的ETL任務(wù),可以從數(shù)百個(gè)Amazon RDS數(shù)據(jù)庫中定時(shí)提取所需要的數(shù)據(jù),供數(shù)據(jù)分析部門進(jìn)行迅速而直觀的全局統(tǒng)計(jì),大大縮短了原本跨表查詢的時(shí)間”。

AWS的數(shù)據(jù)湖解決方案在中國企業(yè)走向全球的征程中,也做出了重要貢獻(xiàn)。比如:大宇無限,這是一家專門從事移動(dòng)應(yīng)用程序開發(fā)的公司,主要為中東、東南亞和拉丁美洲等新興市場提供移動(dòng)短視頻服務(wù)。大宇無限平臺技術(shù)負(fù)責(zé)人李睿表示,“每個(gè)月,我們的業(yè)務(wù)運(yùn)營都需要花費(fèi)大量人力,分析全球十億用戶的海量數(shù)據(jù)。使用Amazon Athena交互式查詢服務(wù)之后,我們可以用SQL語言直接在 Amazon S3 中輕松查詢、分析用戶數(shù)據(jù),節(jié)省了成本,減輕了運(yùn)營壓力,普通的工程師與業(yè)務(wù)部門人員都可以方便地自助查詢各類業(yè)務(wù)數(shù)據(jù),極大地提高了生產(chǎn)效率。”

另外還有茄子快傳,這是一家全球化的互聯(lián)網(wǎng)科技公司,累計(jì)有18億用戶。茄子快傳搭建了一個(gè)數(shù)字內(nèi)容連接入口,幫助全球200多個(gè)國家和地區(qū)的用戶獲取優(yōu)質(zhì)數(shù)字內(nèi)容。茄子快傳數(shù)據(jù)運(yùn)營負(fù)責(zé)人何誠表示,“茄子快傳的數(shù)據(jù)量大,分析維度多,業(yè)務(wù)也非常復(fù)雜,所以經(jīng)常需要多維度多顆粒度的高并發(fā)分析,AWS的分析工具很好地滿足了我們?nèi)粘5臄?shù)據(jù)提取和分析需求。使用Amazon Athena,我們可以輕松地運(yùn)行交互式查詢,分析數(shù)據(jù),不必構(gòu)建和部署額外的集群。同時(shí),我們運(yùn)行新數(shù)據(jù)分析所需的時(shí)間縮短了30%,大幅減少了成本與運(yùn)維方面的風(fēng)險(xiǎn)。”

THEEND

最新評論(評論僅代表用戶觀點(diǎn))

更多
暫無評論