隨著互聯(lián)網的不斷發(fā)展,大數(shù)據(jù)技術與云計算技術也得到了廣泛的應用,下面我們就通過案例分析來了解一下,大數(shù)據(jù)應用數(shù)據(jù)湖與數(shù)據(jù)倉庫的區(qū)別。
數(shù)據(jù)湖
數(shù)據(jù)湖是一個公司的集中存儲庫,它可以存儲所有關于業(yè)務的結構化和非結構化的數(shù)據(jù)。在數(shù)據(jù)湖中,我們按數(shù)據(jù)的原樣來存儲數(shù)據(jù),而不進行結構化處理,然后在此之上進行不同類型的分析。
當今的數(shù)字化轉型實際上是將數(shù)據(jù)驅動的方案應用于業(yè)務的各個層面,從而創(chuàng)造競爭優(yōu)勢。這也是為什么越來越多的公司希望構建自己的數(shù)據(jù)湖解決方案的原因。這種趨勢仍在繼續(xù),這些技能還是被市場需要的。
在數(shù)據(jù)湖領域,流行的的工具仍然是用于本地化方案的HDFS,以及各類來自AWSGCP和Azure的云數(shù)據(jù)存儲方案。除此之外,還有一些數(shù)據(jù)平臺正在嘗試填補一些細分市場并且創(chuàng)建集成解決方案,比如Cloudera、ApacheHudi、DeltaLake。
數(shù)據(jù)倉庫
數(shù)據(jù)倉庫可以被描述成用于存儲已經處理好的業(yè)務數(shù)據(jù)的傳統(tǒng)數(shù)據(jù)庫,但它針對聚合請求作出了優(yōu)化。無論如何,它還是和數(shù)據(jù)湖一樣,都是構建分析和數(shù)據(jù)驅動決策的基礎。它與數(shù)據(jù)湖之間并不排斥,而是相互補充。
數(shù)據(jù)集市是旨在滿足某種特定的業(yè)務功能要求而設計的數(shù)據(jù)倉庫解決方案的后一層。數(shù)據(jù)集市具有從不同的數(shù)據(jù)源提取數(shù)據(jù)的能力,這使它成為數(shù)據(jù)倉庫領域的一種增長趨勢。