時(shí)代已經(jīng)變了,企業(yè)對(duì)傳統(tǒng)的數(shù)據(jù)基礎(chǔ)設(shè)施越來(lái)越厭煩,這些基礎(chǔ)設(shè)施對(duì)關(guān)鍵的商業(yè)智能問(wèn)題回答得很慢,而且經(jīng)常過(guò)時(shí),與當(dāng)前的業(yè)務(wù)現(xiàn)實(shí)不同步,通常是一天或更長(zhǎng)時(shí)間。
現(xiàn)代企業(yè)的需求和要求正在以戲劇性的方式轉(zhuǎn)變。因此,舊的“批處理”模式(每天一次大的更新,查詢速度慢)正在讓位于更細(xì)化、更高頻率的實(shí)時(shí)更新(每秒多次更新,查詢速度快),從而帶來(lái)更新鮮的數(shù)據(jù)和更快的洞察力。
除了分析性的洞察力,實(shí)時(shí)數(shù)據(jù)基礎(chǔ)設(shè)施正在促成一類新的應(yīng)用,可以在數(shù)據(jù)發(fā)生變化時(shí)做出反應(yīng)。這涉及到數(shù)據(jù)堆棧的每一個(gè)部分,從數(shù)據(jù)攝取,到業(yè)務(wù)分析,到機(jī)器學(xué)習(xí)和人工智能。
隨著用例的發(fā)展,支持它們的基礎(chǔ)架構(gòu)也在不斷發(fā)展。走向?qū)崟r(shí)并不是調(diào)整舊數(shù)據(jù)系統(tǒng)那么簡(jiǎn)單,在許多情況下,基礎(chǔ)設(shè)施已經(jīng)從頭開始重寫,以實(shí)現(xiàn)實(shí)時(shí)工作負(fù)載。
在現(xiàn)代數(shù)據(jù)棧中,實(shí)時(shí)基礎(chǔ)設(shè)施和工具可以采取多種形式:
·以高頻率和高容量將小數(shù)據(jù)包從A處流向B處(例如:Apache Kafka、Redpanda、Apache Pulsar)。
·通過(guò)流處理工具過(guò)濾和轉(zhuǎn)換對(duì)流數(shù)據(jù)(例如:Apache Flink、Apache Samza、Decodable)。
·實(shí)時(shí)分析,讓分析師在低延遲的情況下獲得對(duì)業(yè)務(wù)查詢的最新反饋(例如:Materialize、ClickHouse、Tinybird)。
·實(shí)時(shí)或在線機(jī)器學(xué)習(xí)模型,不斷適應(yīng)和學(xué)習(xí)數(shù)據(jù),并實(shí)時(shí)生成預(yù)測(cè)(例如:Tecton)。
今天,將這些不同的系統(tǒng)組合起來(lái)仍然是是一件棘手的事情。但是,進(jìn)行這些投資的組織將獲得豐厚的回報(bào),主要是實(shí)現(xiàn)傳說(shuō)中的“實(shí)時(shí)企業(yè)”,成為一個(gè)能夠感知和應(yīng)對(duì)其業(yè)務(wù)中發(fā)生的事件和變化的組織。
對(duì)實(shí)時(shí)性感興趣但又在尋找靈感?少數(shù)下一代組織已經(jīng)成為早期采用者,并為新加入者開辟了采用路徑。
我最喜歡的一些大規(guī)模實(shí)時(shí)數(shù)據(jù)基礎(chǔ)設(shè)施的案例研究包括:
·Netflix:在七年的時(shí)間里,Netflix將其流數(shù)據(jù)的使用案例從0增加到2000多個(gè),同時(shí)在數(shù)據(jù)攝取、移動(dòng)、分析和運(yùn)營(yíng)處理以及機(jī)器學(xué)習(xí)方面建立了實(shí)時(shí)能力。今天,Netflix的實(shí)時(shí)基礎(chǔ)設(shè)施每天處理數(shù)十萬(wàn)億次的事件。
·Uber:Uber的實(shí)時(shí)基礎(chǔ)設(shè)施每天產(chǎn)生多個(gè)PB級(jí)的數(shù)據(jù)和數(shù)萬(wàn)億條信息,這些數(shù)據(jù)持續(xù)不斷從Uber司機(jī)、乘客和其他用戶那里收集而來(lái)。Uber的移動(dòng)應(yīng)用、內(nèi)部?jī)x表盤、機(jī)器學(xué)習(xí)模型和臨時(shí)數(shù)據(jù)探索工具都有實(shí)時(shí)用例。
現(xiàn)在是實(shí)時(shí)的時(shí)代,這場(chǎng)革命發(fā)生得比你想象的要快。眨眼間,你可能會(huì)錯(cuò)過(guò)它。
作者:光速創(chuàng)投合伙人Nnamdi Iregbulem