在大數(shù)據(jù)系統(tǒng)平臺當中,數(shù)據(jù)存儲、數(shù)據(jù)庫、數(shù)據(jù)倉庫是非常重要的概念,共同支持大數(shù)據(jù)存儲的實際需求。在大數(shù)據(jù)處理當中,大數(shù)據(jù)存儲這個環(huán)節(jié),數(shù)據(jù)倉庫技術(shù)起到重要的作用。今天我們來對數(shù)據(jù)倉庫做一個簡單的介紹。
什么是數(shù)據(jù)倉庫?
數(shù)據(jù)倉庫,有一個被廣泛接受的定義:數(shù)據(jù)倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策(Decision Making Support)。
具體來說,數(shù)據(jù)倉庫就是一個數(shù)據(jù)集合,它通常具備以下特性:
數(shù)據(jù)倉庫是面向主題構(gòu)建的,每個主題就是一個可直接用于分析的主體;
數(shù)據(jù)倉庫的數(shù)據(jù)都是集成的,它的數(shù)據(jù)來源很豐富,為了分析方便,對多種數(shù)據(jù)做了集成;
數(shù)據(jù)倉庫的數(shù)據(jù)是相對穩(wěn)定的,不會出現(xiàn)短時間內(nèi)頻繁更新數(shù)據(jù)倉庫中數(shù)據(jù)的情況;
數(shù)據(jù)倉庫的數(shù)據(jù)都是已經(jīng)發(fā)生的歷史事實,且保留時間較長,因此如果拉長時間線,是可以看到數(shù)據(jù)的歷史變化情況的;
數(shù)據(jù)倉庫的目標就是支撐分析工作,用于管理決策,使得企業(yè)獲得更好的發(fā)展。
在企業(yè)的實際業(yè)務(wù)場景當中,數(shù)據(jù)倉庫的核心應(yīng)用場景就是數(shù)據(jù)分析。數(shù)據(jù)倉庫就是面向分析構(gòu)建的,數(shù)據(jù)倉庫的存在就是為了更加高效方便地支撐數(shù)據(jù)分析。
數(shù)據(jù)倉庫的優(yōu)勢是什么?
1、完全面向分析構(gòu)建。
數(shù)據(jù)倉庫的目標就是為了更高效方便地做數(shù)據(jù)分析,因此數(shù)據(jù)倉庫整個數(shù)據(jù)的組織結(jié)構(gòu)也是完全根據(jù)分析需要設(shè)計的。它是由多個面向特定方向的分析主題組成的,這樣可以使得分析任務(wù)變得簡單,數(shù)據(jù)更容易獲取,最大化地發(fā)揮數(shù)據(jù)的效用。
2、可以處理大數(shù)據(jù)量場景。
數(shù)據(jù)倉庫不需要太在意響應(yīng)性能,因為它通常是用來供分析使用的,不會直接用于與用戶交互的場景。因此,可以存儲大量的歷史事實數(shù)據(jù),完成跨度較大的歷史趨勢變化的分析。
3、集成多種數(shù)據(jù)。
數(shù)據(jù)倉庫中的數(shù)據(jù),是將企業(yè)中分散的、不統(tǒng)一的數(shù)據(jù),經(jīng)過ETL集成到一起。這樣,可以提升數(shù)據(jù)的豐富性,多種數(shù)據(jù)的融合,能夠連接出新的可能性,發(fā)揮出更大的作用,分析出單個數(shù)據(jù)集無法得出的結(jié)論。
Hadoop生態(tài)下的數(shù)據(jù)倉庫Hive
進入大數(shù)據(jù)時代之后,基于Hadoop基礎(chǔ)架構(gòu),Hive作為分布式數(shù)據(jù)倉庫被大家熟知。
Hive構(gòu)建于Apache Hadoop之上,滿足企業(yè)實際場景下的數(shù)據(jù)需求:
通過SQL輕松訪問數(shù)據(jù)的工具,從而實現(xiàn)數(shù)據(jù)倉庫任務(wù),如提取/轉(zhuǎn)換/加載(ETL),報告和數(shù)據(jù)分析;
訪問直接存儲在Hadoop HDFS或其他數(shù)據(jù)存儲系統(tǒng)(如Apache HBase)中的文件;
通過Apache Tez,Apache Spark或MapReduce執(zhí)行查詢;
通過Hive LLAP,Apache YARN和Apache Slider進行亞秒級查詢檢索。
今天的大數(shù)據(jù)概念解析,數(shù)據(jù)倉庫入門,以上就為大家做了簡單的介紹了。數(shù)據(jù)倉庫作為支持大數(shù)據(jù)分析處理的重要一環(huán),也是大數(shù)據(jù)系統(tǒng)架構(gòu)當中的重要組成部分,從基礎(chǔ)入門到逐步深入,需要不斷加深理解和掌握。