乱伦小说中文字幕,夜夜精品无码一区二区三区

數(shù)據(jù)入湖的方式和應(yīng)用場景

2023-08-15 11:54

ruby的數(shù)據(jù)漫談

ruby

對于需要進(jìn)行復(fù)雜數(shù)據(jù)清理和轉(zhuǎn)換且數(shù)據(jù)量較大的場景，批量集成是首選。通常，調(diào)度作業(yè)每小時或每天執(zhí)行，主要包含ETL、ELT和FTP等工具。批量集成不適合低數(shù)據(jù)延遲和高靈活性的場景。

本文來自微信公眾號“ruby的數(shù)據(jù)漫談”，作者/ruby。

隨著湖倉一體技術(shù)架構(gòu)的興起，湖倉一體可以結(jié)合數(shù)據(jù)湖和數(shù)據(jù)倉庫的優(yōu)勢，將會成為數(shù)據(jù)庫行業(yè)的未來趨勢，但是由于湖倉一體可以完成數(shù)據(jù)的統(tǒng)一存儲和加工計算，可以為企業(yè)提供面向應(yīng)用的統(tǒng)一供給，但是由于很多企業(yè)已經(jīng)有數(shù)據(jù)倉庫和數(shù)據(jù)庫系統(tǒng)，湖倉一體技術(shù)架構(gòu)無法解決架構(gòu)升級帶來的數(shù)據(jù)遷移的巨大成本，且部分?jǐn)?shù)據(jù)倉庫系統(tǒng)仍然可以發(fā)揮作用，因此，湖倉一體必須支持多種數(shù)據(jù)入湖的方式，兼顧成本和功能的作用。

數(shù)據(jù)入湖的方式

數(shù)據(jù)入湖的方式有多種，以下是一些常見的方式：

1.批量導(dǎo)入：將數(shù)據(jù)從現(xiàn)有的數(shù)據(jù)源中以批處理的方式導(dǎo)入數(shù)據(jù)湖中，可以使用ETL（Extract,Transform,Load）工具或編寫腳本來完成。

應(yīng)用場景：對于需要進(jìn)行復(fù)雜數(shù)據(jù)清理和轉(zhuǎn)換且數(shù)據(jù)量較大的場景，批量集成是首選。通常，調(diào)度作業(yè)每小時或每天執(zhí)行，主要包含ETL、ELT和FTP等工具。批量集成不適合低數(shù)據(jù)延遲和高靈活性的場景。

2.實(shí)時流式導(dǎo)入：將數(shù)據(jù)以流的方式持續(xù)導(dǎo)入數(shù)據(jù)湖中，可以利用流處理引擎如Kafka、Flume、Spark Streaming等來實(shí)現(xiàn)。

應(yīng)用場景：主要關(guān)注流數(shù)據(jù)的采集和處理，滿足數(shù)據(jù)實(shí)時集成需求，處理每秒數(shù)萬甚至數(shù)十萬個事件流，有時甚至數(shù)以百萬計的事件流。流集成不適合需要復(fù)雜數(shù)據(jù)清理和轉(zhuǎn)換的場景。

3.數(shù)據(jù)復(fù)制：將數(shù)據(jù)從現(xiàn)有的數(shù)據(jù)庫或數(shù)據(jù)倉庫中復(fù)制到數(shù)據(jù)湖，可以使用復(fù)制工具或者數(shù)據(jù)湖服務(wù)來完成。使用基于日志的CDC捕獲數(shù)據(jù)變更，實(shí)時獲取數(shù)據(jù)。

應(yīng)用場景：數(shù)據(jù)復(fù)制同步不適合處理各種數(shù)據(jù)結(jié)構(gòu)以及需要清理和轉(zhuǎn)換復(fù)雜數(shù)據(jù)的場景。

4.API接入：通過數(shù)據(jù)湖平臺提供的API接口將數(shù)據(jù)直接導(dǎo)入數(shù)據(jù)湖中。

應(yīng)用場景：通常通過API捕獲或提取數(shù)據(jù)，適用于處理不同數(shù)據(jù)結(jié)構(gòu)以及需要高可靠性和復(fù)雜轉(zhuǎn)換的場景。尤其對于許多遺留系統(tǒng)、ERP和SaaS來說，消息集成是唯一的選擇。消息集成不適合處理大量數(shù)據(jù)的場景。

5.數(shù)據(jù)虛擬化：數(shù)據(jù)入湖中的數(shù)據(jù)虛擬化是指在數(shù)據(jù)湖中使用虛擬化技術(shù)，將數(shù)據(jù)源的數(shù)據(jù)映射到數(shù)據(jù)湖中，而不需要復(fù)制或移動實(shí)際的數(shù)據(jù)。數(shù)據(jù)虛擬化通過創(chuàng)建虛擬視圖來實(shí)現(xiàn)，它們是對實(shí)際數(shù)據(jù)源的查詢和訪問，但并不實(shí)際復(fù)制或移動數(shù)據(jù)。虛擬化技術(shù)提供了一個統(tǒng)一的數(shù)據(jù)訪問接口，將不同數(shù)據(jù)源的數(shù)據(jù)視為一體，屏蔽了數(shù)據(jù)源背后的細(xì)節(jié)，使得用戶可以方便地查詢和分析數(shù)據(jù)。數(shù)據(jù)虛擬化產(chǎn)品的架構(gòu)一般有兩種實(shí)現(xiàn)方式，聯(lián)邦查詢和實(shí)時鏡像。

其中數(shù)據(jù)虛擬化是不需要將數(shù)據(jù)復(fù)制到數(shù)據(jù)湖中，而是提供一個數(shù)據(jù)共享訪問層實(shí)現(xiàn)數(shù)據(jù)的訪問。這樣避免了大量的數(shù)據(jù)復(fù)制工作，實(shí)時鏡像還是有部分存儲成本。

數(shù)據(jù)入湖方式的對比

不同入湖方式的實(shí)時性和對源系統(tǒng)的性能要求不同，以下是對照表：

非結(jié)構(gòu)化數(shù)據(jù)入湖特殊說明

非結(jié)構(gòu)化數(shù)據(jù)包括無格式的文本、各類格式的文檔、圖像、音頻、視頻等多樣異構(gòu)的格式文件。那么非結(jié)構(gòu)化數(shù)據(jù)入湖在以上的5種入湖方式上需要進(jìn)行特殊說明：

一、非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)包含基本信息和內(nèi)容增強(qiáng)類，具體可以參考都柏林核心元數(shù)據(jù)標(biāo)準(zhǔn)。非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)包含基本信息主要包含名稱、格式、存儲大小、Owner、存儲位置、創(chuàng)建時間、修改時間等基本特征。而增強(qiáng)內(nèi)容特征主要包含標(biāo)簽、相似性檢索、相似性連接等。

二、而非結(jié)構(gòu)化數(shù)據(jù)入湖則可以包含元數(shù)據(jù)入湖和原始文件入湖兩種類型，原始文件如何入湖可以參見以上的4種入湖方式，而元數(shù)據(jù)入湖主要包含3種類型：

1、基本特征元數(shù)據(jù)入湖：主要通過從源端集成的文檔本身的基本信息入湖。入湖的過程中，數(shù)據(jù)內(nèi)容仍存儲在源系統(tǒng)，數(shù)據(jù)湖中僅存儲非結(jié)構(gòu)化數(shù)據(jù)的基本特征元數(shù)據(jù)。

2、文件解析內(nèi)容入湖：對數(shù)據(jù)源的文件內(nèi)容進(jìn)行文本解析、拆分后入湖。入湖的過程中，原始文件仍存儲在源系統(tǒng)，數(shù)據(jù)湖中僅存儲解析后的內(nèi)容增強(qiáng)元數(shù)據(jù)。

3、文件關(guān)系入湖：根據(jù)知識圖譜等應(yīng)用案例在源端提取的文件上下文關(guān)系入湖。入湖的過程中，原始文件仍存儲在源系統(tǒng)，數(shù)據(jù)湖中僅存儲文件的關(guān)系等內(nèi)容增強(qiáng)元數(shù)據(jù)。

其中1是非結(jié)構(gòu)化數(shù)據(jù)的基本信息，2和3是非結(jié)構(gòu)化數(shù)據(jù)的增強(qiáng)內(nèi)容特征，而這三種方式的原始數(shù)據(jù)依然存儲在原始的存儲系統(tǒng)中。

總結(jié)一下，通過數(shù)據(jù)虛擬化和非結(jié)構(gòu)化數(shù)據(jù)的基本信息和內(nèi)容增強(qiáng)內(nèi)容入湖的方式可以減少湖倉一體新的技術(shù)架構(gòu)建設(shè)過程中造成大量的數(shù)據(jù)遷移的成本。也可以實(shí)現(xiàn)湖倉一體的數(shù)據(jù)統(tǒng)一管理和處理。

THEEND

免責(zé)聲明：凡注明為其它來源的信息均轉(zhuǎn)自其它平臺，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對此類作品本站僅提供交流平臺，不為其版權(quán)負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。若有來源標(biāo)注錯誤或侵犯了您的合法權(quán)益，請作者持權(quán)屬證明與本站聯(lián)系，我們將及時更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

精選文章

熱點(diǎn)資訊

國家發(fā)改委:完善政府誠信履約機(jī)制優(yōu)化民營經(jīng)濟(jì)發(fā)展環(huán)境

數(shù)據(jù)入湖的方式和應(yīng)用場景

2024 信息化觀察網(wǎng)

長按掃描二維碼閱讀原文

數(shù)據(jù)入湖的方式和應(yīng)用場景

最新評論（評論僅代表用戶觀點(diǎn)）

關(guān)鍵基礎(chǔ)設(shè)施的網(wǎng)絡(luò)安全要點(diǎn)

光纖創(chuàng)新：探索前沿研究與發(fā)展

人工智能在物聯(lián)網(wǎng)中的挑戰(zhàn)和局限性

一文了解新型存儲技術(shù)

本月熱門

云計算的江湖，風(fēng)云再起

揭秘，IOTE國際物聯(lián)網(wǎng)展2025年巡展預(yù)告!

防勒索病毒攻擊關(guān)鍵措施

匯聚行業(yè)精英，探討前沿技術(shù) 第十九屆汽車涂裝工藝技術(shù)研討會即將啟幕!

網(wǎng)博會革新升級：“區(qū)域頻道”精準(zhǔn)選型引領(lǐng)，引領(lǐng)智能制造新風(fēng)潮

萬億賽道!AI算力趨勢發(fā)展深度分析 2024

精選文章

上海介方信息榮獲“2023中國軟件和信息服務(wù)業(yè)--十大領(lǐng)軍企業(yè)”

數(shù)據(jù)安全迎“大考” 誰先“邁”出關(guān)鍵一步？

崔艷輝：生態(tài)賦能助力企業(yè)財稅票數(shù)據(jù)安全

助力奔馳華南最大經(jīng)銷商仁孚汽車，打造“一站式IT服務(wù)平臺”

2024首屆“數(shù)據(jù)要素×”行業(yè)推進(jìn)大會回顧篇——農(nóng)業(yè)農(nóng)村部信息中心主任、黨委書記、研究員王小兵發(fā)表主題演講

“2023（第七屆）中國軟件和信息服務(wù)業(yè)年度風(fēng)云榜”重磅揭曉

熱點(diǎn)資訊

榮耀應(yīng)用市場攜手?jǐn)?shù)智融合應(yīng)用伙伴共創(chuàng)綠色生態(tài)

“皇冠丹麥曲奇”勝訴 “藍(lán)罐曲奇”敗訴——市場競爭需遵守法律底線

什么是 OSI 模型？OSI 模型的七層是哪些？

自動化測試有哪些常見的挑戰(zhàn)和解決方案？

政策寶閃耀2024數(shù)智融合應(yīng)用論壇，榮獲“數(shù)智融合標(biāo)桿案例”

國家發(fā)改委:完善政府誠信履約機(jī)制優(yōu)化民營經(jīng)濟(jì)發(fā)展環(huán)境

微短?。洪L、短視頻的新生意

數(shù)據(jù)入湖的方式和應(yīng)用場景

最新評論（評論僅代表用戶觀點(diǎn)）

欄目推薦

關(guān)鍵基礎(chǔ)設(shè)施的網(wǎng)絡(luò)安全要點(diǎn)

光纖創(chuàng)新：探索前沿研究與發(fā)展

人工智能在物聯(lián)網(wǎng)中的挑戰(zhàn)和局限性

一文了解新型存儲技術(shù)

本月熱門

精選文章

熱點(diǎn)資訊

國家發(fā)改委:完善政府誠信履約機(jī)制 優(yōu)化民營經(jīng)濟(jì)發(fā)展環(huán)境

微短?。洪L、短視頻的新生意

國家發(fā)改委:完善政府誠信履約機(jī)制優(yōu)化民營經(jīng)濟(jì)發(fā)展環(huán)境

微短?。洪L、短視頻的新生意