隨著企業(yè)信息化建設的發(fā)展,企業(yè)建立了眾多的信息系統(tǒng)以進行內外部業(yè)務的工作,但是隨著信息系統(tǒng)的增加,各自孤立工作的信息系統(tǒng)將會造成大量的冗余數據和業(yè)務人員的重復勞動。企業(yè)該如何完成企業(yè)內部ERP、CRM、SCM、數據庫、數據倉庫,以及其它重要的內部系統(tǒng)之間數據無縫共享和交換?如何實現外部數據的采集與鏈接?ETL和數據集成兩種技術如何選擇?
基于ETL技術的數據處理過程
ETL原本是作為構建數據倉庫的一個環(huán)節(jié),負責將分布的,異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫或數據集市中,成為聯(lián)機分析處理、數據挖掘的基礎。現在也越來越多地將ETL應用于一般信息系統(tǒng)中數據的遷移、交換和同步。
ETL中三個字母分別代表的是Extract、Transform、Load,即抽取、轉換、加載。(1)數據抽?。簭脑磾祿聪到y(tǒng)抽取目的數據源系統(tǒng)需要的數據;(2)數據轉換:將從源數據源獲取的數據按照業(yè)務需求,轉換成目的數據源要求的形式,并對錯誤、不一致的數據進行清洗和加工。(3)數據加載:將轉換后的數據裝載到目的數據源。
為什么要選擇ETL技術
自動化流程將節(jié)省數據獲取時間:ETL的優(yōu)點在于它具有以自動化方式收集,轉換和組裝數據的能力,從而為用戶節(jié)省了手動進行操作的時間和精力。行和行的數據將被手動導入和分析的日子已經一去不復返了。
復雜數據不再是挑戰(zhàn):企業(yè)使用的數據是復雜且變化多端的,通過ETL可以將企業(yè)中的分散、零亂、標準不統(tǒng)一的數據整合到一起,
人為錯誤已不再是問題:在數據應用初期,大多數的數據質量問題是由人工處理導致的,ETL工具的規(guī)范可以幫助您避免這種情況。
數據質量得到保證,決策更智能:通過自動化關鍵數據流程最大程度地減少出錯的機會,確保要分析的數據具有最高質量。高質量數據是制定強大業(yè)務決策的核心。
數據集成——基于ETL技術的數據共享、融合工具
百度百科釋義:“數據集成是把不同來源、格式、特點性質的數據在邏輯上或物理上有機地集中,從而為企業(yè)提供全面的數據共享。”簡單來說, 數據集成是將來自不同網站的數據聚合和管理到單個同類工作流程的過程。該過程包括數據訪問,轉換,映射,質量保證和數據融合。
數據集成是個統(tǒng)稱, 可以通過ETL的方法收集數據。 數據集成包含了:ETL、主數據管理、數據質量監(jiān)控、元數據管理、數據生命周期管理共五大功能模塊。
數據集成消除“數據孤島”,釋放數據價值
數據集成是包含ETL、主數據管理等大數據技術的融合,為組織提供了存儲在多個數據源中數據的統(tǒng)一視圖,而提取、轉換和加載(ETL)技術就是數據集成的早期嘗試。數據集成技術更加能夠應對企業(yè)持續(xù)變化的需求和大數據時代下不斷涌現的新型挑戰(zhàn)。
數據集成是信息系統(tǒng)集成的基礎和關鍵,現在,越來越多的現代企業(yè)已經意識到商業(yè)數據集成在企業(yè)日常運作和管理中的重要性,全球著名的IT企業(yè)如0racle、IBM, 數據開發(fā)環(huán)境單一,工具環(huán)境無關性差等缺點。而且隨著應用的不斷深入,對Microsoft和Sybase等都針對自己的產品提出了數據倉庫的數據集成解決方案。