杰夫·貝佐斯(Jeff Bezos)往車庫(kù)里下訂單并親自開車去郵局時(shí),處理成本數(shù)字,跟蹤庫(kù)存和預(yù)測(cè)未來(lái)需求相對(duì)簡(jiǎn)單??爝M(jìn)25年了,亞馬遜的零售業(yè)務(wù)在全球擁有175 多個(gè)配送中心,超過(guò)25萬(wàn)名全職員工每天運(yùn)送數(shù)百萬(wàn)件商品。
亞馬遜全球財(cái)務(wù)運(yùn)營(yíng)團(tuán)隊(duì)的任務(wù)非常艱巨,即跟蹤所有數(shù)據(jù)(以PB為單位)。 在亞馬遜的規(guī)模上,錯(cuò)誤計(jì)算的指標(biāo)(例如單位成本或數(shù)據(jù)延遲)可能會(huì)產(chǎn)生巨大影響(請(qǐng)考慮數(shù)百萬(wàn)美元)。團(tuán)隊(duì)一直在尋找更快地獲取更準(zhǔn)確數(shù)據(jù)的方法。
這就是為什么他們?cè)?019年有一個(gè)主意:建立一個(gè)可以支撐地球上最大的物流網(wǎng)絡(luò)之一的數(shù)據(jù)湖。后來(lái)它在內(nèi)部被稱為Galaxy數(shù)據(jù)湖。Galaxy數(shù)據(jù)湖建于2019年,現(xiàn)在所有各個(gè)團(tuán)隊(duì)都在努力將數(shù)據(jù)移入其中。
數(shù)據(jù)湖是一個(gè)集中式安全存儲(chǔ)庫(kù),可讓您以任何規(guī)模存儲(chǔ),管理,發(fā)現(xiàn)和共享所有結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)湖不需要預(yù)定義的架構(gòu),因此您可以處理原始數(shù)據(jù),而不必知道將來(lái)可能要探索的洞察力。下圖顯示了數(shù)據(jù)湖的關(guān)鍵組件:
數(shù)據(jù)湖的關(guān)鍵組件
大數(shù)據(jù)的挑戰(zhàn)
亞馬遜面對(duì)大數(shù)據(jù)的挑戰(zhàn)與許多其他公司面臨的挑戰(zhàn)相似:數(shù)據(jù)孤島,分析各種數(shù)據(jù)集的難度,數(shù)據(jù)控制器能力,數(shù)據(jù)安全性以及整合機(jī)器學(xué)習(xí)。讓我們仔細(xì)研究這些挑戰(zhàn),看看數(shù)據(jù)湖如何幫助解決它們。
打破數(shù)據(jù)孤島
公司選擇創(chuàng)建數(shù)據(jù)湖的主要原因是要打破數(shù)據(jù)孤島。在不同地方擁有由不同組控制的數(shù)據(jù)包,本質(zhì)上會(huì)掩蓋數(shù)據(jù)。當(dāng)公司快速發(fā)展和/或收購(gòu)新業(yè)務(wù)時(shí),通常會(huì)發(fā)生這種情況。就亞馬遜而言,兩者都是。
為了在國(guó)際上擴(kuò)張并迅速創(chuàng)建新的運(yùn)輸計(jì)劃(例如,免費(fèi)當(dāng)日交付或Amazon Fresh),大多數(shù)運(yùn)營(yíng)計(jì)劃團(tuán)隊(duì)一直在控制自己的數(shù)據(jù)和技術(shù)。結(jié)果,數(shù)據(jù)以不同的方式存儲(chǔ)在不同的位置。這種方法使每個(gè)團(tuán)隊(duì)都能解決問題,響應(yīng)客戶需求并更快地進(jìn)行創(chuàng)新。
但是,很難在組織和公司范圍內(nèi)理解數(shù)據(jù)。它需要從許多不同來(lái)源手動(dòng)收集數(shù)據(jù)。如此眾多的團(tuán)隊(duì)獨(dú)立運(yùn)作,我們失去了可以通過(guò)共同解決問題而獲得的效率。
從數(shù)據(jù)中獲取詳細(xì)細(xì)節(jié)也是困難的,因?yàn)椴皇敲總€(gè)人都可以訪問各種數(shù)據(jù)存儲(chǔ)庫(kù)。對(duì)于較小的查詢,您可以在電子表格中共享一部分?jǐn)?shù)據(jù)。但是,當(dāng)數(shù)據(jù)超出電子表格的容量時(shí),挑戰(zhàn)就出現(xiàn)了,這通常發(fā)生在大型公司中。在某些情況下,您可以共享較高級(jí)別的數(shù)據(jù)摘要,但實(shí)際上并沒有獲得完整的圖像。
數(shù)據(jù)湖通過(guò)將所有數(shù)據(jù)合并到一個(gè)中央位置來(lái)解決此問題。團(tuán)隊(duì)可以繼續(xù)充當(dāng)敏捷單位,但是所有道路都通向數(shù)據(jù)湖進(jìn)行分析。沒有更多的筒倉(cāng)。
分析各種數(shù)據(jù)集
使用不同的系統(tǒng)和方法進(jìn)行數(shù)據(jù)管理的另一個(gè)挑戰(zhàn)是數(shù)據(jù)結(jié)構(gòu)和信息各不相同。例如,Amazon Prime擁有配送中心和包裝商品的數(shù)據(jù),而Amazon Fresh則有雜貨店和食品的數(shù)據(jù)。
甚至國(guó)際運(yùn)輸計(jì)劃也有所不同。例如,不同的國(guó)家有時(shí)會(huì)有不同的盒子尺寸和形狀。來(lái)自“物聯(lián)網(wǎng)”設(shè)備(例如,配送中心機(jī)器上的傳感器)的非結(jié)構(gòu)化數(shù)據(jù)也越來(lái)越多。
而且,不同的系統(tǒng)可能也具有相同類型的信息,但是其標(biāo)簽不同。 例如,在歐洲,使用的術(shù)語(yǔ)是“每單位成本”,而在北美,使用的術(shù)語(yǔ)是“每包裝成本”。這兩個(gè)術(shù)語(yǔ)的日期格式不同。在這種情況下,需要在兩個(gè)標(biāo)簽之間建立鏈接,以便分析數(shù)據(jù)的人知道它指的是同一件事。
如果要在沒有數(shù)據(jù)湖的傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)中合并所有這些數(shù)據(jù),則需要大量數(shù)據(jù)準(zhǔn)備以及導(dǎo)出,轉(zhuǎn)換和加載或ETL操作。您將不得不權(quán)衡要保留的內(nèi)容和丟失的內(nèi)容,并不斷更改剛性系統(tǒng)的結(jié)構(gòu)。
數(shù)據(jù)湖可讓您以任何格式導(dǎo)入任何數(shù)量的數(shù)據(jù),因?yàn)闆]有預(yù)定義的架構(gòu)。您甚至可以實(shí)時(shí)攝取數(shù)據(jù)。您可以從多個(gè)來(lái)源收集數(shù)據(jù),并將其以原始格式移入數(shù)據(jù)湖。您還可以在信息之間建立鏈接,這些信息可能被標(biāo)記為不同但代表同一件事。
將所有數(shù)據(jù)移至數(shù)據(jù)湖還可以改善傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的功能。您可以靈活地將高度結(jié)構(gòu)化,經(jīng)常訪問的數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中,同時(shí)還可以在數(shù)據(jù)湖存儲(chǔ)中保留多達(dá)EB的結(jié)構(gòu)化,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
管理數(shù)據(jù)訪問
由于數(shù)據(jù)存儲(chǔ)在這么多位置,因此很難訪問所有數(shù)據(jù)并鏈接到外部工具進(jìn)行分析。亞馬遜的運(yùn)營(yíng)財(cái)務(wù)數(shù)據(jù)分布在25多個(gè)數(shù)據(jù)庫(kù)中,區(qū)域團(tuán)隊(duì)創(chuàng)建了自己的本地?cái)?shù)據(jù)集版本。對(duì)于某些人來(lái)說(shuō),這意味著超過(guò)25個(gè)訪問管理憑據(jù)。許多數(shù)據(jù)庫(kù)都需要訪問管理支持來(lái)執(zhí)行諸如更改配置文件或重置密碼之類的操作。此外,必須對(duì)每個(gè)數(shù)據(jù)庫(kù)進(jìn)行審核和控制,以確保沒有人有不當(dāng)訪問權(quán)限。
借助數(shù)據(jù)湖,可以在合適的時(shí)間將合適的數(shù)據(jù)提供給合適的人變得更加容易。不必管理對(duì)存儲(chǔ)數(shù)據(jù)的所有不同位置的訪問,您只需要擔(dān)心一組憑據(jù)。數(shù)據(jù)湖具有允許授權(quán)用戶查看,訪問,處理或修改特定資產(chǎn)的控件。數(shù)據(jù)湖有助于確保阻止未經(jīng)授權(quán)的用戶采取可能損害數(shù)據(jù)機(jī)密性和安全性的措施。
數(shù)據(jù)也以開放格式存儲(chǔ),這使得使用不同的分析服務(wù)更加容易。開放格式還使數(shù)據(jù)更有可能與尚不存在的工具兼容。您組織中的各種角色,例如數(shù)據(jù)科學(xué)家,數(shù)據(jù)工程師,應(yīng)用程序開發(fā)人員和業(yè)務(wù)分析師,都可以使用他們選擇的分析工具和框架來(lái)訪問數(shù)據(jù)。
簡(jiǎn)而言之,您不必局限于一小組工具,而更多的人可以理解數(shù)據(jù)。
加速機(jī)器學(xué)習(xí)
數(shù)據(jù)湖是機(jī)器學(xué)習(xí)和人工智能的強(qiáng)大基礎(chǔ)),因?yàn)樗鼈冊(cè)诖笮?,多樣化的?shù)據(jù)集上蓬勃發(fā)展。機(jī)器學(xué)習(xí)使用從現(xiàn)有數(shù)據(jù)中學(xué)習(xí)的統(tǒng)計(jì)算法(稱為訓(xùn)練的過(guò)程)來(lái)做出有關(guān)新數(shù)據(jù)的決策(稱為推理的過(guò)程)。
在訓(xùn)練期間,將識(shí)別數(shù)據(jù)中的模式和關(guān)系以建立模型。該模型使您能夠?qū)奈从龅竭^(guò)的數(shù)據(jù)做出明智的決策。您擁有的數(shù)據(jù)越多,就越能訓(xùn)練您的機(jī)器學(xué)習(xí)模型,從而提高準(zhǔn)確性。
亞馬遜全球運(yùn)營(yíng)財(cái)務(wù)團(tuán)隊(duì)的最大職責(zé)之一是計(jì)劃和預(yù)測(cè)亞馬遜供應(yīng)鏈的運(yùn)營(yíng)成本和資本支出,其中包括整個(gè)運(yùn)輸網(wǎng)絡(luò),數(shù)百個(gè)配送中心,分揀中心,配送站,全食超市,新鮮采摘場(chǎng)。上升點(diǎn)等等。
他們幫助回答重要的高級(jí)問題,例如“明年我們將運(yùn)送多少包裹?” 和“我們將在薪金上花費(fèi)多少?” 他們還解決非常具體的問題,例如“下個(gè)月我們?cè)诜鹆_里達(dá)州坦帕市需要多少個(gè)不同大小的盒子?”
您的預(yù)測(cè)越準(zhǔn)確,效果越好。如果您估計(jì)太低或太高,都可能產(chǎn)生負(fù)面影響,從而影響您的客戶和利潤(rùn)。
例如,在亞馬遜,如果我們預(yù)測(cè)需求太低,則配送中心的倉(cāng)庫(kù)工人可能沒有足夠的供應(yīng)或驅(qū)動(dòng)程序不足,這可能導(dǎo)致包裹延遲,更多的客戶服務(wù)電話,訂單被取消以及失去客戶信任。如果我們預(yù)測(cè)過(guò)高,您可能會(huì)有庫(kù)存和箱子圍著倉(cāng)庫(kù)占用寶貴的空間。這種情況意味著對(duì)需求量更高的產(chǎn)品的空間較小。
像亞馬遜這樣的大多數(shù)組織都花費(fèi)大量時(shí)間來(lái)預(yù)測(cè)未來(lái)。幸運(yùn)的是,機(jī)器學(xué)習(xí)可以改善預(yù)測(cè)。去年,亞馬遜運(yùn)營(yíng)財(cái)務(wù)團(tuán)隊(duì)進(jìn)行了測(cè)試。他們采用了一部分預(yù)測(cè),并將傳統(tǒng)的手動(dòng)流程與Amazon Forecast進(jìn)行了比較。AmazonForecast是一項(xiàng)完全托管的服務(wù),使用機(jī)器學(xué)習(xí)來(lái)提供高度準(zhǔn)確的預(yù)測(cè)。在此試運(yùn)行中,由Forecast所完成的預(yù)測(cè)平均比通過(guò)手動(dòng)過(guò)程完成的預(yù)測(cè)準(zhǔn)確67%。
通過(guò)將所有數(shù)據(jù)移至數(shù)據(jù)湖,亞馬遜的運(yùn)營(yíng)財(cái)務(wù)團(tuán)隊(duì)可以結(jié)合數(shù)據(jù)集來(lái)訓(xùn)練和部署更準(zhǔn)確的模型。使用更相關(guān)的數(shù)據(jù)來(lái)訓(xùn)練機(jī)器學(xué)習(xí)模型可以提高預(yù)測(cè)的準(zhǔn)確性。此外,它還釋放了手動(dòng)執(zhí)行此任務(wù)的員工來(lái)執(zhí)行更具戰(zhàn)略意義的項(xiàng)目,例如分析預(yù)測(cè)以推動(dòng)現(xiàn)場(chǎng)運(yùn)營(yíng)的改善。
使用正確的工具:AWS上的Galaxy
亞馬遜的零售業(yè)務(wù)使用某些技術(shù),該技術(shù)早于2006年開始創(chuàng)建Amazon Web Services。在過(guò)去十年中,為了變得更具可擴(kuò)展性,效率,性能和安全性,亞馬遜零售業(yè)務(wù)中的許多工作負(fù)載已轉(zhuǎn)移到AWS。Galaxy數(shù)據(jù)湖是內(nèi)部稱為Galaxy的大型大數(shù)據(jù)平臺(tái)的重要組成部分。下圖顯示了Galaxy依賴AWS的某些方式以及它使用的某些AWS服務(wù):
Galaxy數(shù)據(jù)湖基于Amazon的Simple Storage Service或?qū)ο蟠鎯?chǔ)服務(wù)S3構(gòu)建。一些數(shù)據(jù)還存儲(chǔ)在基于Amazon專有的基于文件的數(shù)據(jù)存儲(chǔ)中,即Andes和Elastic Data eXchange,它們都是Amazon S3之上的服務(wù)層。其他一些數(shù)據(jù)源是數(shù)據(jù)倉(cāng)庫(kù) Amazon Redshift ,Amazon Relational Database Service或RDS以及企業(yè)應(yīng)用程序。
AWS Glue 是一項(xiàng)完全托管的ETL服務(wù),可讓您輕松準(zhǔn)備和加載數(shù)據(jù)以進(jìn)行分析,并且使用AWS Database Migration Service或DMS 將各種數(shù)據(jù)集加載到Amazon S3。Galaxy將來(lái)自多種服務(wù)(包括Amazon Redshift,Amazon RDS和AWS Glue數(shù)據(jù)目錄)的元數(shù)據(jù)資產(chǎn)組合到基于Amazon DynamoDB(鍵值和文檔數(shù)據(jù)庫(kù))構(gòu)建的統(tǒng)一目錄層中。Amazon Elasticsearch Service或 ES 用于在目錄上啟用更快的搜索查詢。
在對(duì)數(shù)據(jù)進(jìn)行分類或裝入后,將在客戶端層使用各種服務(wù)。例如,交互式查詢服務(wù)Amazon Athena,用于使用標(biāo)準(zhǔn)SQL進(jìn)行臨時(shí)探索性查詢;Amazon Redshift,一項(xiàng)用于更結(jié)構(gòu)化的查詢和報(bào)告的服務(wù);和Amazon SageMaker,用于機(jī)器學(xué)習(xí)。
AWS湖形成
亞馬遜團(tuán)隊(duì)從頭開始創(chuàng)建了Galaxy數(shù)據(jù)湖架構(gòu)。他們不得不在幾個(gè)月內(nèi)手動(dòng)開發(fā)許多組件,這與其他公司過(guò)去必須這樣做的方式類似。在2019年8月,AWS發(fā)布了一項(xiàng)名為AWS Lake Formation的新服務(wù)。
它使您可以簡(jiǎn)化數(shù)據(jù)湖的創(chuàng)建過(guò)程,并在幾天(而不是幾個(gè)月)內(nèi)構(gòu)建一個(gè)安全的數(shù)據(jù)湖。Lake Formation幫助您從數(shù)據(jù)庫(kù)和對(duì)象存儲(chǔ)中收集和分類數(shù)據(jù),將數(shù)據(jù)移至新的Amazon S3數(shù)據(jù)湖中,使用機(jī)器學(xué)習(xí)算法對(duì)數(shù)據(jù)進(jìn)行清理和分類,以及安全訪問敏感數(shù)據(jù)。
摘要
通過(guò)以基于開放標(biāo)準(zhǔn)的數(shù)據(jù)格式將數(shù)據(jù)存儲(chǔ)在統(tǒng)一的存儲(chǔ)庫(kù)中,數(shù)據(jù)湖可讓您分解孤島,使用各種分析服務(wù)從數(shù)據(jù)中獲取最大的見解,并以經(jīng)濟(jì)高效的方式滿足存儲(chǔ)和數(shù)據(jù)處理需求隨著時(shí)間的推移。
對(duì)于亞馬遜的財(cái)務(wù)運(yùn)營(yíng)團(tuán)隊(duì)而言,Galaxy數(shù)據(jù)湖將為其全球用戶提供集成體驗(yàn)。Galaxy的基礎(chǔ)設(shè)施建于2019年,現(xiàn)在各種數(shù)據(jù)庫(kù)系統(tǒng)都在遷移到數(shù)據(jù)湖中。使用該工具的團(tuán)隊(duì)現(xiàn)在已經(jīng)看到了它的好處,理由是消除了手動(dòng)流程和笨拙的電子表格,生產(chǎn)率的提高以及可用于增值分析的更多時(shí)間。