本月,亞馬遜創(chuàng)始人貝索斯正式宣布卸任CEO一職,將大權交給AWS CEO安迪·賈西(Andy Jassy),后者用了不到20年時間將AWS打造成全球最大的云服務提供商,亦是亞馬遜最大的利潤貢獻部門,去年營收達453.7億美元;AWS還曾被知名投資銀行Cowen分析師John Blackledge估值為令人難以置信的5060億美元,排在全球前10位。
AWS今年有了自己的中文名稱——亞馬遜云科技。它在中國數(shù)據(jù)管理市場的表現(xiàn)也是不凡。根據(jù)國際權威分析機構弗若斯特·沙利文Frost&Sullivan發(fā)布的《2020年中國數(shù)據(jù)管理解決方案市場報告》(后簡稱《報告》),針對成長指數(shù)、創(chuàng)新指數(shù)、基本指數(shù)三大維度,對各廠商數(shù)據(jù)管理解決方案競爭力進行了評估,亞馬遜云科技綜合實力排名第一,且三項指數(shù)均名列第一。
亞馬遜云科技已開啟“2021亞馬遜云科技中國峰會”,該峰會在技術方面設定了七個主題,而其中“智能湖倉”是今年新設定的主題。關于“湖倉”話題本身就是今年同行們競相討論的焦點。近日,數(shù)據(jù)猿聯(lián)合業(yè)內(nèi)媒體,就“智能湖倉”為主題,采訪了亞馬遜云科技大中華區(qū)云服務產(chǎn)品部總經(jīng)理顧凡,并對“智能湖倉架構如何助力企業(yè)挖掘數(shù)據(jù)價值、滿足客戶數(shù)據(jù)融合的需求、推動企業(yè)向智能化轉型”等話題進行了訪談交流。
從數(shù)據(jù)倉庫到智能湖倉的前世今生
顧凡引用了《經(jīng)濟學人》在2017年刊載過的一句話:“世界上最有價值的資源已經(jīng)不再是石油,而是數(shù)據(jù)。”這樣的論斷在今天已經(jīng)成為現(xiàn)實。
然而,如今挖掘數(shù)據(jù)價值可能沒以往那么容易,面臨著三大現(xiàn)實挑戰(zhàn):首先,今天每個小時產(chǎn)生的數(shù)據(jù)比20年前每年產(chǎn)生數(shù)據(jù)的總和還要多。2010年,Pentaho首席技術官James Dixon首次提出數(shù)據(jù)湖的概念,當時是針對日益增多的大數(shù)據(jù)存儲需求,除了結構化數(shù)據(jù)以外,還有海量的非結構化、半結構化的數(shù)據(jù),要把這些數(shù)據(jù)集中存儲在被稱為數(shù)據(jù)湖的地方。在傳統(tǒng)數(shù)據(jù)庫和數(shù)據(jù)倉庫階段,數(shù)據(jù)是經(jīng)過整理、清晰易懂的,而大部分數(shù)據(jù)湖里的數(shù)據(jù)是不經(jīng)處理直接堆砌的,那么數(shù)據(jù)湖就有可能變成“數(shù)據(jù)沼澤”,篩選難度變大。
來源:沙利文、頭豹研究院
顧凡還補充了兩點:“如今比過去有更復雜的使用場景,不同分析場景下的需求更加個性化和定制化,數(shù)據(jù)湖里的原始數(shù)據(jù)難以直接利用;對實時數(shù)據(jù)快速決策要求提高,過去隔幾天跑報表寫出一個報告習以為常,現(xiàn)在決策速度比以往加快了很多,有些決策是分鐘級的,甚至在一些實時流分析中實時就應該給出決策。”
表:數(shù)據(jù)倉庫與數(shù)據(jù)湖對比,來源:亞馬遜云科技
因此,把二者連接起來的Lakehouse(湖倉架構)應運而生,將數(shù)據(jù)湖與數(shù)據(jù)倉庫的優(yōu)勢充分結合起來??蛻羧詫?shù)據(jù)存儲在數(shù)據(jù)湖中,同時可以使用數(shù)據(jù)倉庫的多種專用數(shù)據(jù)服務,從而快速、敏捷地作出決策,獲得市場上高性價比的競爭優(yōu)勢。顧凡把Lakehouse做了形象的比喻,就好像湖邊搭建了很多小房子,有的負責數(shù)據(jù)分析,有的進行批處理,有的來檢索音視頻,而這些數(shù)據(jù)源流,都可以從數(shù)據(jù)湖里輕松取得。
沙利文和頭豹研究院在《報告》中表明,如今數(shù)據(jù)湖和數(shù)據(jù)倉庫的邊界正在慢慢模糊,數(shù)據(jù)湖自身的治理能力、數(shù)據(jù)倉庫延伸到外部存儲的能力都得到了加強。在湖倉的架構下,數(shù)據(jù)變得更具資產(chǎn)化,從營銷、研發(fā)、供應鏈等關鍵價值節(jié)點重構了企業(yè)價值鏈,并能夠實時支持企業(yè)決策,加速了企業(yè)數(shù)據(jù)的價值創(chuàng)造。
圖:數(shù)據(jù)湖和數(shù)據(jù)倉庫作為加速器參與大數(shù)據(jù)管理,來源:沙利文、頭豹研究院
不僅如此,湖倉架構對人工智能的發(fā)展更具現(xiàn)實意義。湖倉架構最初的倡導者Databricks首席執(zhí)行官Ali Ghodsi曾說:“為什么要考慮這一架構?最重要的原因是與機器學習和人工智能有關,這對于大多數(shù)企業(yè)來說非常具有戰(zhàn)略意義。”數(shù)據(jù)倉庫不支持的那些非結構化數(shù)據(jù),例如視頻、音頻、任意文本,如今這樣的數(shù)據(jù)數(shù)量龐大,都存儲在了數(shù)據(jù)湖中,而這些原始數(shù)據(jù)對于機器學習來說十分重要。
亞馬遜云科技智能湖倉是一種架構,而非產(chǎn)品
亞馬遜云科技作為數(shù)據(jù)管理解決方案的領導者,一直保持著行業(yè)領先地位。目前全球已有數(shù)十萬企業(yè)借助亞馬遜的云服務,采用智能湖倉架構,構建了他們的數(shù)據(jù)湖,同時完成其數(shù)據(jù)分析和機器學習的工作負載。在過去的半年里,亞馬遜云科技與光環(huán)新網(wǎng)、西云數(shù)據(jù)緊密合作,發(fā)布了近40項相關服務。
“亞馬遜云科技智能湖倉是一個架構,而非一個產(chǎn)品,”顧凡表示,“好的架構具有一定的彈性和靈活性,是可以往里面添加產(chǎn)品的,并有能力根據(jù)業(yè)務需求的迭代與演進,支撐十年以上,需要足以應付將來”。
那么,從數(shù)據(jù)流的角度,亞馬遜云科技的智能湖倉架構長什么樣呢?
來源:亞馬遜云科技
首先,可以明顯地看到架構最核心的部分是“湖倉存儲(Lake house Storage)”,在這里,“湖”與“倉”打通,數(shù)據(jù)可以自由流動,“湖”代表了高可用、高擴展、低成本,而“倉”代表了結構化、超級復雜查詢、極致性能。在“湖倉”之下是數(shù)據(jù)源和數(shù)據(jù)攝取,無論是結構化還是非結構化數(shù)據(jù),經(jīng)過攝取后保存到智能湖倉的存儲層;在“湖倉”之上則是處理層、消費層,前者構建了專門的分析引擎,經(jīng)過分析處理之后傳遞給消費層,用戶在此進行交互式數(shù)據(jù)查詢、BI分析和機器學習等操作。
亞馬遜云科技智能湖倉架構不是簡單地將湖與倉打通,而是將湖、倉與專門構建的數(shù)據(jù)服務連接成為一個整體,數(shù)據(jù)在其間無縫移動。在此過程中,首先要打破數(shù)據(jù)孤島形成一個數(shù)據(jù)湖;其次,圍繞著數(shù)據(jù)湖,在不同應用場景為用戶提供相應的分析工具;接下來,確保數(shù)據(jù)在湖、倉以及專門的服務之間能夠自由移動;然后,用統(tǒng)一的方式去管理湖里面數(shù)據(jù)的安全性、訪問控制和審計;最后,采用低成本的方法將“湖倉”各自的優(yōu)勢有效利用起來。
“這個架構里很重要的一點是數(shù)據(jù)的無縫移動”,顧凡表示,“數(shù)據(jù)移動”是智能湖倉架構的精髓,既可以將數(shù)據(jù)湖中最近幾個月的“熱數(shù)據(jù)”攝取到數(shù)據(jù)倉庫中;反過來,也可以將大量冷門歷史數(shù)據(jù)從數(shù)據(jù)倉庫轉移到成本更低廉的數(shù)據(jù)湖內(nèi),同時這些移到湖里的數(shù)據(jù),仍然能被查詢使用。在這里,亞馬遜云科技考慮了三種主要移動方式,也分別給出了解決辦法:
1)由內(nèi)向外的數(shù)據(jù)移動
客戶將數(shù)據(jù)存儲在數(shù)據(jù)湖中,然后將其中的部分數(shù)據(jù)移動到某個專用數(shù)據(jù)存儲以執(zhí)行額外的機器學習或分析處理。如想統(tǒng)計某個APP的日活、轉化,可能會直接在數(shù)據(jù)湖中采集原始數(shù)據(jù),然后將其中的一部分移動到某個數(shù)據(jù)倉庫以滿足每日報告之用。
2)由外向內(nèi)的數(shù)據(jù)移動
客戶將數(shù)據(jù)存儲在數(shù)據(jù)倉庫中,然后將該數(shù)據(jù)移動到某個數(shù)據(jù)湖中以進行分析。如客戶從數(shù)據(jù)倉庫中將某個地區(qū)產(chǎn)品銷售的查詢結果作為樣本復制到他們的數(shù)據(jù)湖中,再利用機器學習對更大的數(shù)據(jù)集,運行產(chǎn)品推薦算法。
3)環(huán)湖數(shù)據(jù)移動
數(shù)據(jù)在湖周邊不同的存儲數(shù)據(jù)庫之間傳遞。如客戶可能將存儲在其數(shù)據(jù)庫中的產(chǎn)品目錄數(shù)據(jù)復制到搜索服務中,以方便通過產(chǎn)品目錄查詢,并從該數(shù)據(jù)庫下載搜索查詢。
來源:亞馬遜云科技
既然談到移動和整合,有三個設計理念是亞馬遜云科技所有數(shù)據(jù)分析類產(chǎn)品和智能湖倉架構貫穿一致的想法:一是為云優(yōu)化,在亞馬遜云科技的體系里,數(shù)據(jù)倉庫系統(tǒng)都是云原生的,當對它們進行開發(fā)的時候,彈性沒有限制,可以做到非常好的線性擴展;二是專門構建,由于數(shù)據(jù)處理和分析場景是多元化的,必須要專門構建不同的分析引擎;三是完全托管,針對客戶業(yè)務無差別的繁重的工作由亞馬遜云科技幫助他們來完成。
顧凡認為,亞馬遜云科技智能湖倉未來一定會跟“機器學習”相連,并將經(jīng)歷三個階段:第一階段是數(shù)據(jù)基礎設施現(xiàn)代化,因為傳統(tǒng)的數(shù)據(jù)處理方式應對不了如此大規(guī)模的數(shù)據(jù)處理,也不具備成本優(yōu)勢;第二階段是通過湖倉掛鉤,能夠對數(shù)據(jù)進行有效分析,進而讓數(shù)據(jù)產(chǎn)生更大的價值;第三階段是接入機器學習進行預測和推理,幫助和驅動企業(yè)做出有效的判斷和決策。
“過去數(shù)據(jù)的作用是在事后支持業(yè)務的運行,一旦企業(yè)進入到機器學習階段,數(shù)據(jù)就有可能前置,驅動業(yè)務做創(chuàng)新,還能幫客戶想出一堆業(yè)務創(chuàng)新的點子來。今后考驗的是業(yè)務人員能否跟數(shù)據(jù)人員配合得很好,把數(shù)據(jù)能力用起來,賦能業(yè)務的創(chuàng)新。”顧凡如是說。
亞馬遜云科技智能湖倉瞄準的是客戶需求,而非競爭對手
在分享會上,亞馬遜云科技強調(diào)了“智能湖倉”架構的五大獨特優(yōu)勢:第一,靈活擴展、安全可靠;第二,專門構建、極致性能;第三,數(shù)據(jù)融合、統(tǒng)一治理;第四,敏捷分析、深度智能;第五,擁抱開源、開放共贏。同時顧凡表示,亞馬遜云科技的產(chǎn)品研發(fā)更多是瞄準客戶的需求而不是競爭對手,由于競爭對手也在解決客戶的問題,所以我們并不忽視市場和競爭對手。
與競爭對手常用的“湖倉一體”表述有所不同,亞馬遜云科技使用了另一個詞——智能湖倉。顧凡對此表示,“這種表述背后的含義是‘打通湖倉‘,并非‘一體‘的概念,我們?nèi)匀皇欠珠_的湖與倉,并不是大一統(tǒng)的產(chǎn)品,重在把兩者中間的通道建立起來,數(shù)據(jù)可以無縫移動和融合??蛻魰骖檭烧叩膬?yōu)勢,既有很好的查詢性能,數(shù)據(jù)量還能擴容更多。”
顧凡舉例說:“亞馬遜云科技的數(shù)據(jù)倉庫服務Amazon Redshift一般存放過去12-24個月的數(shù)據(jù),其他的數(shù)據(jù)會放在數(shù)據(jù)湖里面,如果使用有‘智能湖倉引擎’之稱的Amazon Redshift Spectrum工具寫一個查詢,可以將10%的熱數(shù)據(jù)放進倉內(nèi),90%的數(shù)據(jù)還在湖里面,Amazon Redshift Spectrum能完成跨湖和倉的查詢,而這一切對客戶是無感的,他們關心的只是我的東西不僅在PB級別的數(shù)據(jù)倉庫里能查到,在EB級別的湖里面也可以進行查詢,最終能夠完成業(yè)務需求。”
如亞馬遜云科技服務過的TCL集團,其內(nèi)部有眾多的業(yè)務部門,每天產(chǎn)生海量數(shù)據(jù),首先是把所有數(shù)據(jù)都注入到Amazon S3數(shù)據(jù)湖中,消除了數(shù)據(jù)孤島,但與此同時又需要完成大量的BI報表和分析報告,所以要把數(shù)據(jù)加載到Amazon Redshift數(shù)倉,支持各個前端系統(tǒng)的BI分析。那些相對冷的數(shù)據(jù)仍存儲在Amazon S3里,然后再通過前面提到的Amazon Redshift Spectrum去做跨湖倉的查詢。據(jù)顧凡介紹,此次TCL涉及200多個BI報表以及其他各種各樣的數(shù)據(jù),原來需要幾天才能完成的事情,采用了亞馬遜云科技的智能湖倉架構后,現(xiàn)在只需一兩個小時。
對于TCL而言,打通湖倉完成數(shù)據(jù)查詢只是一個開始,由于其自身的業(yè)務逐步拓展到智能家電市場,此時通過智能家電的傳感器產(chǎn)生大量的IoT數(shù)據(jù),大都只能存儲在數(shù)據(jù)湖里,同時又需要分析用戶行為、為用戶提供增值服務、對機器進行運維管理等操作,此時智能湖倉架構更能發(fā)揮出作用。
亞馬遜云科技服務過的另一個客戶豐田,在2019年即部署了車聯(lián)網(wǎng)服務。豐田在其大部分車里都配備了車載數(shù)據(jù)通信模塊DCM,然后通過客戶授權的方式把數(shù)據(jù)傳至豐田互聯(lián)采用Amazon S3構建的超大數(shù)據(jù)湖中,然后亞馬遜云科技通過托管集群平臺Amazon EMR對整個數(shù)據(jù)做ETL處理。當ETL處理結束后,就可以根據(jù)車輛不同的使用場景,對用戶的行為,比如駕駛習慣進行分析,進而依據(jù)分析結果給駕駛人建議,甚至可以根據(jù)駕駛人的駕駛習慣判斷其保險應該給什么程度的折扣。
當數(shù)據(jù)基礎設施逐漸成熟,服務應用場景的拓展不斷加速及深化時,智能湖倉的行業(yè)應用已從平臺搭建向各領域的核心業(yè)務進行延伸。
“作為一家研究虛擬玩家和商品推薦算法的AI公司,我們希望專注在算法的迭代與創(chuàng)新上,不太想把過多的精力、人力成本投入到數(shù)據(jù)基礎設施管理上面”,啟元世界CTO龍海濤分享了與亞馬遜云科技合作的經(jīng)驗,“我們正在打造游戲全生命周期的產(chǎn)品矩陣,用領先的AI和數(shù)據(jù)分析能力,幫助游戲快速上線,改善用戶體驗,提升客戶留存,以期獲得更大的成功。未來,亞馬遜云科技智能湖倉與AI/ML服務組件的深度融合能力,能為我們產(chǎn)品矩陣的快速落地、規(guī)模發(fā)展提供最有力的支持。”
圖:大數(shù)據(jù)管理對行業(yè)核心價值節(jié)點帶來的變化,來源:沙利文、頭豹研究院
“我們從16年成立到現(xiàn)在一直跟亞馬遜云科技合作”,曾獲得IDG億元投資的數(shù)字營銷創(chuàng)業(yè)公司馳騖信息創(chuàng)始人兼CEO程華奕講道,“亞馬遜云科技是我們五年創(chuàng)業(yè)歷程最好的合作伙伴,一方面,我們數(shù)據(jù)資產(chǎn)采用了亞馬遜云科技提供的基礎架構,舉例而言,我們在服務某零售客戶的時候,將其所有的數(shù)據(jù)資產(chǎn)——幾百PB的數(shù)據(jù)量都沉淀在數(shù)據(jù)湖里,既打破了數(shù)據(jù)孤島,又可以做到自主可控;另一方面,基于亞馬遜云科技的智能湖倉架構,實現(xiàn)全鏈路、全生命周期觸達,包括十幾個業(yè)務場景,千萬級會員數(shù)據(jù),多線程業(yè)務數(shù)據(jù),真正形成了營銷閉環(huán)。”
在顧凡加入亞馬遜的7年時間里,正是AWS在中國市場高速發(fā)展的時期。在擔任亞馬遜云科技大中華區(qū)云服務產(chǎn)品部總經(jīng)理之前,根據(jù)公開資料顯示,顧凡還曾擔任亞馬遜中國區(qū)副總裁,直接操盤過電商零售等業(yè)務,這些經(jīng)歷讓他不只有技術服務商的視角,對部分行業(yè)客戶的痛點也有切身感受。
“當然不光是技術,更重要的是人和服務,需要有‘扶上馬送一程’的態(tài)度。亞馬遜云科技無論是數(shù)據(jù)實驗室、機器學習解決方案實驗室,還是專業(yè)服務,均以客戶賦能為使命,讓客戶快速地完成從想法到原型再到生產(chǎn)系統(tǒng),直到機器學習模型的提升,秉持‘扶上馬送一程’的態(tài)度,讓我們在技術之外還能走得更遠。”顧凡對媒體表示。