大數(shù)據(jù)時代到來,如何從數(shù)據(jù)中提取、挖掘?qū)I(yè)務(wù)發(fā)展有價值的信息,為業(yè)務(wù)決策提供有力依據(jù),推動精益化化的企業(yè)管理。商業(yè)分析師通常會使用各種數(shù)據(jù)分析工具,例如Excel、Tableau和PowerBI等對數(shù)據(jù)進行分析。OLAP就經(jīng)常被用于對接這類工具,向這些工具提供記錄。
為何SSAS如此流行
傳統(tǒng)的OLAP引擎有很多,Oracle、SAP、IBM和Microsoft均有自己的OLAP引擎,其中Microsoft SQL Server Analysis Services(SSAS)是世界上應(yīng)用最廣泛的OLAP引擎之一,眾多各位耳熟能詳?shù)拇笮推髽I(yè)均是SSAS的深度用戶。SSAS的成功與它的如下特性密不可分的:
與Excel深度集成
Excel作為全世界最廣泛使用的商業(yè)分析工具,SSAS能與Excel深度集成。用戶可以使用Excel對接SSAS多維數(shù)據(jù)集,靈活快捷的對數(shù)據(jù)進行切片、篩選、上卷和下鉆等操作,深入分析數(shù)據(jù),直到他找到所需的商業(yè)洞察。
支持MDX語言
SSAS可以使用MDX(多維表達式)支持高級的商業(yè)智能需求,例如常用的YTD、QTD和MTD等計算指標(biāo)均能輕松支持。并且MDX相比SQL能夠更簡單且更廣泛的支持各種商業(yè)智能需求。
能與主流的BI集成
例如PowerBI、Tableau等,都可以與SSAS輕松集成,SSAS接收前端BI發(fā)送的查詢需求,在自身引擎中計算,將聚合后的值返回前端BI,以提升前端BI的查詢體驗。
大數(shù)據(jù)時代SSAS面臨的挑戰(zhàn)
雖然SSAS具備許多特性,使其成為許多傳統(tǒng)商業(yè)智能方案的理想選擇,但身處大數(shù)據(jù)時代,它面臨著越來越多的挑戰(zhàn)。并且隨著數(shù)據(jù)量爆炸式的增長,這些挑戰(zhàn)顯得尤為嚴(yán)峻。
數(shù)據(jù)量及維度數(shù)量的限制
通常情況下SSAS使用的是MOLAP模式,MOLAP將OLAP分析所用到的多維數(shù)據(jù)物理上存儲為多維數(shù)組的形式,形成“立方體”的結(jié)構(gòu)。這種方式在較小數(shù)據(jù)量時,性能優(yōu)勢較大。但當(dāng)面對大型數(shù)據(jù)集時,由此產(chǎn)生的維度爆炸問題,將使MOLAP架構(gòu)難以維持。例如對于一個包含1億名客戶,100萬個產(chǎn)品SKU,2年每日訂單數(shù)據(jù),其中包含了來自100個不同國家的1,000個不同的客戶,由此創(chuàng)建的多維數(shù)據(jù)集的理論單元個數(shù)是7,300,000,000,000,000,000,000個。對于一個中大型企業(yè),這種情況處處可見。
當(dāng)心你的OLAP Cube出現(xiàn)維度爆炸
擴展的局限性
若現(xiàn)有的SSAS處理能力無法滿足需求,需要增強其處理能力時,用戶就必須為運行SSAS的機器增加更多的CPU或者內(nèi)存。同時如果需要存儲更多的數(shù)據(jù),則需要擴展本地或者SAN存儲。這樣就限制了系統(tǒng)的可擴展性。
費用昂貴
如上文提及SSAS擴展時,僅能通過增加設(shè)備配置實現(xiàn)。對于高配置的一體機已經(jīng)是一筆不小的費用,同時SSAS的License是根據(jù)設(shè)備的內(nèi)核數(shù)量收費,企業(yè)版每個內(nèi)核官方定價高達14,256美元。
使用SSAS遭遇瓶頸時你的感受
不能解決痛點的方案都是耍流氓
進入數(shù)字化轉(zhuǎn)型時代,數(shù)據(jù)爆炸式增長,SSAS的弊端日漸明顯,越來越多的企業(yè)開始尋找替代SSAS的技術(shù)。在Hadoop 技術(shù)日臻完善的今天,一個理想的BI/OLAP分析架構(gòu)應(yīng)該保留所有SSAS分析功能,并且能夠利用 Hadoop技術(shù)的橫向可擴展性解決 SSAS 面臨的所有痛點,這樣的OLAP on Hadoop分析架構(gòu)應(yīng)該能夠做到:
提供了橫向擴展能力
Hadoop分布式文件系統(tǒng)(HDFS)的一大特點就是可以通過向集群增加服務(wù)器來擴展存儲和處理能力,一個理想的OLAP on Hadoop方案,也繼承了這一強大的特性。這種方案極大的提升了系統(tǒng)的擴展性,降低了擴展系統(tǒng)能力的難度。
打破了數(shù)據(jù)量和維度數(shù)量的上限
如上文提及,由于Hadoop具備橫向擴展的能力,數(shù)據(jù)存儲已不在成為瓶頸,只要集群足夠,數(shù)據(jù)量已不再存在上限。由于SSAS需要按照多維數(shù)據(jù)集中的所有維度進行聚合,所以不可避免的存在維度爆炸的問題,而理想的OLAP技術(shù)應(yīng)允許用戶自定義聚合維度,有效的避免維度爆炸的問題,打破了維度數(shù)量的上限。
更高的性價比
OLAP on Hadoop的方案,構(gòu)建集群并不需要高配置的一體機,硬件成本大大降低。這種特性在收費基于集群和時間的云平臺上尤為明顯,用戶可在需要大量資源時擴大集群,在空閑時縮小集群,釋放多余資源,做到最大程度的資源和費用的節(jié)約。
大數(shù)據(jù)時代的明智之選
如上文所說,強大的分析能力,也是SSAS被廣泛應(yīng)用深受用戶歡迎的主要原因。Kyligence提供了多種比肩SSAS分析能力的特性:
支持完整的語義信息定義功能
語義信息是商業(yè)分析的重要組成部分,包含了業(yè)務(wù)的分析思路,維度、度量、層級結(jié)構(gòu)和維度用法等都是最常用的業(yè)務(wù)概念。Kyligence支持了可計算度量、層級結(jié)構(gòu)等完整的語義信息定義功能。
在Kyligence產(chǎn)品中編輯可計算度量
在Kyligence產(chǎn)品中編輯層級結(jié)構(gòu)
支持多種接口模式
Kyligence提供多種接口模式,包括SQL、MDX和RestAPI??膳c多種BI工具集成,例如Excel、PowerBI、Tableau、MicroStrategy、Qlik、Cognos、BO和OBIEE等,均能獲得極佳的體驗。同時多種接口可以支持分析師靈活調(diào)用,使用TensorFlow、Jupiter和AzureNotebooks調(diào)用,用于機器學(xué)習(xí)。
比肩SSAS的Excel集成體驗
Kyligence使用MDX接口對接Excel,提供了比肩SSAS的Excel使用體驗,能夠?qū)崿F(xiàn)用Excel的透視表直連進行拖拽分析。
使用Excel直連大數(shù)據(jù)進行透視表分析
OLAP on Hadoop
現(xiàn)在Kyligence正在與數(shù)十家企業(yè)合作,幫助眾多企業(yè)從傳統(tǒng)商業(yè)智能基礎(chǔ)架構(gòu)遷移到Hadoop架構(gòu)。其中一些客戶還與Kyligence深度合作,通過遷移SSAS來解決自身面臨的挑戰(zhàn):
某歐美金融行業(yè)的龍頭企業(yè),其在全球50多個國家設(shè)有辦事處。隨著企業(yè)擴張,數(shù)據(jù)量爆炸式增長,由于SSAS的擴展性有限,IT需要花費大量精力維護眾多多維數(shù)據(jù)集,仍不能滿足業(yè)務(wù)分析需要的數(shù)據(jù)廣度,且IT采購成本高昂。借助Kyligence大數(shù)據(jù)平臺,該企業(yè)大大提高了數(shù)據(jù)平臺擴展性,降低IT運維和投資成本,拓展了業(yè)務(wù)分析的廣度和深度,實現(xiàn)快速響應(yīng)業(yè)務(wù)決策。
順暢的分析體驗給用戶帶來的感受
總結(jié)
本文讓我們清晰的看到SSAS具備的很多優(yōu)點,讓其成為了廣泛流行的OLAP引擎,但是它也存在著擴展能力有限,承載數(shù)據(jù)量有限等各種問題,難以勝任大數(shù)據(jù)時代的挑戰(zhàn)。現(xiàn)在,Kyligence不僅具備了SSAS眾多優(yōu)秀的特性,也克服了傳統(tǒng)SSAS的規(guī)模限制,成為了一個傳統(tǒng)架構(gòu)遷移大數(shù)據(jù)架構(gòu)的極佳選擇。