對很多組織來說,如何首次成功地構(gòu)建云數(shù)據(jù)倉庫是一個難題,因此需要了解一些知識和技巧。
那么組織應(yīng)該如何進(jìn)入這個未知領(lǐng)域?第一次構(gòu)建和使用云數(shù)據(jù)倉庫聽起來可能讓人望而生畏,但對于希望將其數(shù)據(jù)更好地分類的組織來說,云數(shù)據(jù)倉庫是一個可行的選擇,而且云平臺通常允許靈活性和可擴展性。
數(shù)據(jù)虛擬化提供商Denodo公司最近進(jìn)行的一項研究發(fā)現(xiàn),56%的組織在云平臺中部署了數(shù)據(jù)倉庫技術(shù),并經(jīng)常發(fā)現(xiàn)可以獲得很多好處,其中包括有效的工作負(fù)載管理和供應(yīng)商鎖定功能。
但是,初次嘗試使用這種技術(shù)的組織可能想知道從哪里開始,并且如果失誤將在時間和費用方面的代價很高。那么,組織應(yīng)該怎么做才能最大程度地降低風(fēng)險,并確保獲得回報?
1.提高勞動力技能
需要努力解決的一個問題是確保組織的員工技能已為過渡做好準(zhǔn)備。
云數(shù)據(jù)倉庫技術(shù)的一個主要方面是它提供了大量的數(shù)據(jù),并且在監(jiān)控客戶行為方面非常有益,但是如果組織的員工沒有足夠的技能來知道如何正確地利用它,就無法發(fā)揮它的潛力。
SolarWinds公司首席技術(shù)官Thomas LaRock說,“在全球范圍內(nèi)建立數(shù)據(jù)倉庫,具有低延遲和巨大的計算能力,已經(jīng)不再是標(biāo)準(zhǔn)業(yè)務(wù)無法企及的。在以往花費數(shù)百萬美元才能實現(xiàn)的工作,如今只需幾百美元和一些PowerShell腳本就可以完成。
組織可以輕松利用Microsoft Azure和AWS之類的云計算提供商來為其數(shù)據(jù)分析需求分配硬件資源。但是,處理大數(shù)據(jù)需要認(rèn)真的技能提升,這是毫無疑問的。但是這些新技能將拓寬組織IT專業(yè)人員的視野。對數(shù)據(jù)處理需要有著充分的了解,再加上傳統(tǒng)的網(wǎng)絡(luò)工程,最終將促進(jìn)IT專業(yè)人員的職業(yè)發(fā)展,因此應(yīng)被視為一項必要的投資。”
2.建立充分的數(shù)據(jù)治理
LaRock繼續(xù)強調(diào)說,必須確保以不會產(chǎn)生無用的重復(fù)數(shù)據(jù)或孤立數(shù)據(jù)的方式管理組織數(shù)據(jù)的重要性。
他說:“在實現(xiàn)數(shù)據(jù)倉庫時,最常見的陷阱是管理、收集和聚合同一數(shù)據(jù)的多個副本。企業(yè)通常有很多數(shù)據(jù)倉庫,如果它們構(gòu)成數(shù)據(jù)倉庫的一部分,就會產(chǎn)生冗余。如果要開始構(gòu)建云數(shù)據(jù)倉庫,則必須考慮建立適當(dāng)?shù)臄?shù)據(jù)治理策略。有了這樣的策略,就可以在實施數(shù)據(jù)倉庫之前確定孤島。”
3.從小處開始
組織在首次嘗試建立云數(shù)據(jù)倉庫時,最好是通過降低期望來最大程度地減少發(fā)生錯誤時的風(fēng)險。
SnapLogic公司的首席技術(shù)官Craig Stewart說:“這將是一個從小事做起的過程,在一個小項目中獲得一些經(jīng)驗和價值,然后從中學(xué)習(xí)。從第一個項目中獲得經(jīng)驗,然后就可以逐步獲得更多價值。
關(guān)于云計算的偉大之處在于,組織可以增加從RedShift和Azure Synapse之類獲得的彈性,這確實使組織能夠做到這一點。而從小事開始就意味著,如果組織嘗試的項目遭遇失敗,可以從中學(xué)到經(jīng)驗和教訓(xùn),然后繼續(xù)進(jìn)行下一步,而不必付出巨大的成本,無論是資金來源,還是人力成本。
使用自助服務(wù)方式的非代碼類型工具。這種結(jié)合意味著組織可以尋求快速獲得價值,學(xué)習(xí)所做的并沒有給組織帶來價值,然后也可以快速發(fā)展,而不會遇到代價非常昂貴的失敗,而失敗本身就是一個獲得價值的學(xué)習(xí)過程。”
4.規(guī)劃新的架構(gòu)是關(guān)鍵
除了從小處做起,組織還必須通過仔細(xì)規(guī)劃其云數(shù)據(jù)倉庫架構(gòu)來保持耐心,這一點至關(guān)重要。
WhereScape公司副總裁兼歐洲、中東和非洲地區(qū)總經(jīng)理Rob Mellor說:“組織需要注意在研究過程中會聽到的一些誤導(dǎo)。組織不僅可以將所有數(shù)據(jù)都放入云平臺中,而且無需進(jìn)行任何設(shè)計或架構(gòu)即可開始對其進(jìn)行分析。分析環(huán)境是經(jīng)過計劃和架構(gòu)的,因此所有用戶都可以理解和使用它。
組織也無需將所有數(shù)據(jù)倉庫遷移到云端,而無需重新設(shè)計。組織原有的數(shù)據(jù)倉庫在清理過程中會遇到很多麻煩。
但這是組織清除低效流程,浪費未使用資產(chǎn)(例如原有報表、可視化和分析已不再使用)空間的好時機。這也是使許多流程自動化以提高其效率的絕好機會。”
6.利用現(xiàn)有模型
第一次將數(shù)據(jù)倉庫遷移到云中的決定可能不需要完全的新工作,并且可能需要從需要改進(jìn)的現(xiàn)有體系結(jié)構(gòu)中吸取教訓(xùn)。
除了其他好處外,這還可以幫助組織滿足上述對足夠數(shù)據(jù)治理的需求。
Exasol公司市場情報經(jīng)理Helena Schwenk表示:“應(yīng)將遷移視為合理化和修改現(xiàn)有本地數(shù)據(jù)倉庫的機會。組織需要確定可以修改、擴充或添加哪些數(shù)據(jù)資產(chǎn)和源,并采用漸進(jìn)式遷移策略,以實現(xiàn)具有凝聚力的云數(shù)據(jù)倉庫平臺,包括適當(dāng)?shù)闹卫砗捅O(jiān)督。”
7.確??赡艿难葑?/strong>
Schwenk表示,組織需要了解如何使用內(nèi)部經(jīng)常使用的數(shù)據(jù)以外的其他種類數(shù)據(jù)的重要性。云計算的大數(shù)據(jù)(尤其是公共云)可以從外部影響的整合中受益。
她說:“組織需要研究公共云如何支持新的數(shù)據(jù)工作負(fù)載或業(yè)務(wù)用例。例如,考慮通過利用云數(shù)據(jù)倉庫的規(guī)模和彈性來支持更多的數(shù)據(jù)可供分析使用,從而在云數(shù)據(jù)倉庫中支持高級分析和數(shù)據(jù)科學(xué)。那些更新的云原生數(shù)據(jù)源(例如社交媒體數(shù)據(jù)和來自傳感器的數(shù)據(jù)),在提供對業(yè)務(wù)的更深入,更深刻的理解方面可能會極大地受益。”
8.考慮采用無服務(wù)器技術(shù)
Unravel Data公司國際區(qū)域副總裁Justyn Goodenough建議考慮使用無服務(wù)器技術(shù)。
他說:“無服務(wù)器關(guān)系數(shù)據(jù)庫是商業(yè)智能應(yīng)用程序和發(fā)布數(shù)據(jù)以供其他系統(tǒng)使用的常見選擇。它們提供了規(guī)模,性能以及最重要的是對準(zhǔn)備好的數(shù)據(jù)的基于SQL的訪問。
供應(yīng)商的示例包括AWS Redshift、Google BigQuery和Azure SQL數(shù)據(jù)倉庫。這些對大小適中和相對簡單的數(shù)據(jù)結(jié)構(gòu)非常有用。
對于更高的性能和復(fù)雜的關(guān)系數(shù)據(jù)模型,大規(guī)模并行處理(MPP)數(shù)據(jù)庫在內(nèi)存中存儲大量數(shù)據(jù),并且可以快速發(fā)展,但往往代價高昂。”
9.研究和尋求專業(yè)知識
最后,首次開始使用云數(shù)據(jù)倉庫技術(shù)時應(yīng)考慮的兩個技巧可能適用于任何新的業(yè)務(wù)活動,甚至是生活中的風(fēng)險。
Zen Internet公司云計算與托管總經(jīng)理GM Lyons說,“重要的是要準(zhǔn)確地了解組織需要尋找的內(nèi)容,因為不同的平臺在數(shù)據(jù)類型、分析和處理方面具有不同的優(yōu)勢。例如,有些組織可能會發(fā)現(xiàn)多云服務(wù)更合適,不要以為從特定提供商那里獲得了一項云計算服務(wù),因為它們也將是滿足組織其他云計算需求的最佳提供商。
最后,除了開展自己的研究之外,組織還應(yīng)與具有該領(lǐng)域框架和經(jīng)驗的專家合作。這將有助于最大程度地降低采用云數(shù)據(jù)倉庫的任何風(fēng)險或挑戰(zhàn),并確保組織獲得競爭優(yōu)勢,以充分利用其帶來的收益。”