隨著大數(shù)據(jù)時代的到來,大數(shù)據(jù)正逐漸成為企業(yè)競相爭奪的新的制高點。欲速則不達,很多企業(yè)為爭奪大數(shù)據(jù)資源,瘋狂的收集數(shù)字資源,沒有真正明白大數(shù)據(jù)的意義到底在哪里。其實,大數(shù)據(jù)最大特征不是大,而是快。
發(fā)現(xiàn)價值的過程是個分析過程。分析過程需要在數(shù)據(jù)中不斷摸索,是不斷重復的分析閉環(huán):發(fā)現(xiàn)問題、找到答案、采取行動。如果因為數(shù)據(jù)量大,計算性能低,無法快速響應分析過程,也就無法有效發(fā)現(xiàn)大數(shù)據(jù)的價值了。
“快”指兩方面:
一是指產(chǎn)生的新數(shù)據(jù)快,譬如電信行業(yè)的數(shù)據(jù),每秒鐘的數(shù)據(jù)量都是幾十MB,每天的數(shù)據(jù)都是TB級的。
二是指已有數(shù)據(jù)處理快,TB乃至PB級別的數(shù)據(jù),要求分析的過程在一分鐘內,或者秒級響應。
如何實現(xiàn)快呢?
1.列存儲:對于同樣類型的數(shù)據(jù),更利于數(shù)據(jù)的壓縮,減少IO的負擔。
2.內存計算:將數(shù)據(jù)放到內存里,能極大的提高運算速度。
3.庫內計算:將計算推送到離數(shù)據(jù)更近的地方進行計算,因為搬運數(shù)據(jù)的成本要遠遠高于搬運邏輯。
4.分布式計算:更好的拆解運算任務為可分布式執(zhí)行的,將更好的利用更多硬件資源并行處理數(shù)據(jù)。
以上是Yonghong Z-Suite所采用的技術,來通過這些大數(shù)據(jù)技術使分析過程快起來。而艾瑞咨詢通過使用Yonghong Z-Suite使得一周的數(shù)據(jù)分析工作量縮短到不到半天完成,更快的把握了互聯(lián)網(wǎng)行業(yè)的脈搏。
行業(yè)知識也很重要
很多人尋求大數(shù)據(jù)在自身行業(yè)的應用,當詢問我們如何利用他們自己大數(shù)據(jù)的時候,很多都會說他們的數(shù)據(jù)量有多大,但他們不知道如何利用。而實際上,我們并不是他們行業(yè)的專家,我們會告訴他們如何使用我們的產(chǎn)品將大數(shù)據(jù)很快用起來,前提是結合他們的行業(yè)經(jīng)驗。
大數(shù)據(jù)也許是個陽謀
隨著美國名為《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機遇》白皮書的公布,掀起了大數(shù)據(jù)在全世界的浪潮,帶動了大數(shù)據(jù)硬件服務器,和大數(shù)據(jù)軟件公司的發(fā)展,而這些公司或者核心技術基本都在美國。
(原標題:大數(shù)據(jù)要的不是大而是快!)