回看過(guò)去一年,國(guó)產(chǎn)數(shù)據(jù)庫(kù)在不斷刷新著國(guó)內(nèi)外各大榜單之際,也在各自細(xì)分場(chǎng)景也都取得不俗進(jìn)展??梢哉f(shuō)2021年是國(guó)產(chǎn)數(shù)據(jù)庫(kù)由跟隨主流到轉(zhuǎn)向引領(lǐng)時(shí)代的重要一年,也是國(guó)產(chǎn)數(shù)據(jù)庫(kù)從默默耕耘開(kāi)始結(jié)出豐碩的果實(shí)的一年。
2021年,分布式數(shù)據(jù)庫(kù)占領(lǐng)行業(yè)統(tǒng)治地位,整個(gè)行業(yè)逐漸從之前的單點(diǎn)到目前的分布式,并最終向云原生演進(jìn)的趨勢(shì)發(fā)展,而分歧在出現(xiàn)在技術(shù)路線(xiàn)選擇上,Share Everything還是Share Nothing是個(gè)問(wèn)題,這一點(diǎn)也將在下文詳細(xì)探討。
2021年,隨著AI和物聯(lián)網(wǎng)的快速發(fā)展,圖數(shù)據(jù)庫(kù)、隱私計(jì)算平臺(tái)和時(shí)序數(shù)據(jù)庫(kù)開(kāi)始沖出傳統(tǒng)SQL與NoSQL形成的包圍圈,在各自應(yīng)用領(lǐng)域大放異彩。圖數(shù)據(jù)庫(kù)在回答「給我朋友圈點(diǎn)贊的人還給哪條動(dòng)態(tài)點(diǎn)贊最多」等多跳關(guān)聯(lián)問(wèn)題時(shí),效率比傳統(tǒng)數(shù)據(jù)庫(kù)高得多;隱私計(jì)算已成為大數(shù)據(jù)交易所等新興場(chǎng)景應(yīng)用的關(guān)鍵技術(shù)支柱,憑借充分挖掘數(shù)據(jù)價(jià)值,使數(shù)據(jù)可用不可見(jiàn)等特性,隱私計(jì)算平臺(tái)可以完成傳統(tǒng)數(shù)據(jù)庫(kù)難以實(shí)現(xiàn)的任務(wù);時(shí)序數(shù)據(jù)庫(kù)則多用于物聯(lián)網(wǎng)領(lǐng)域,對(duì)于結(jié)構(gòu)化的時(shí)序數(shù)據(jù)如電表、傳感器等設(shè)備向云端回傳等物聯(lián)網(wǎng)類(lèi)型數(shù)據(jù)的處理效率比傳統(tǒng)數(shù)據(jù)庫(kù)高得多。
2022年,隨著數(shù)字化轉(zhuǎn)型的不斷深入,像大數(shù)據(jù)交易、數(shù)字貨幣這樣的新興場(chǎng)應(yīng)用還將不斷涌現(xiàn),在新生需求的催動(dòng)下,數(shù)據(jù)庫(kù)既要處理聯(lián)機(jī)交易,又要對(duì)客戶(hù)進(jìn)行實(shí)時(shí)畫(huà)像,甚至還要對(duì)于客戶(hù)行為進(jìn)行準(zhǔn)實(shí)時(shí)分析,這就給各種細(xì)分類(lèi)型的數(shù)據(jù)庫(kù)都提供了上場(chǎng)的機(jī)會(huì),只要針對(duì)用戶(hù)痛點(diǎn)對(duì)癥下藥,國(guó)產(chǎn)數(shù)據(jù)庫(kù)就能打破傳統(tǒng)巨頭的封鎖,迎來(lái)自己的春天。
百家爭(zhēng)鳴,國(guó)產(chǎn)數(shù)據(jù)庫(kù)終迎爆發(fā)?
回顧數(shù)據(jù)庫(kù)的發(fā)展,十幾年前的數(shù)據(jù)庫(kù)領(lǐng)域遠(yuǎn)沒(méi)有現(xiàn)在這么紛繁復(fù)雜,當(dāng)時(shí)關(guān)系型數(shù)據(jù)庫(kù)幾乎是這項(xiàng)領(lǐng)域的代名詞。
關(guān)系型數(shù)據(jù)庫(kù)始于上世紀(jì)60年代,當(dāng)時(shí)CPU剛剛進(jìn)入集成電路時(shí)代,計(jì)算機(jī)算力、內(nèi)存都較之前的晶體管時(shí)代有了大幅提升,不少企業(yè)也開(kāi)始使用計(jì)算機(jī)進(jìn)行數(shù)據(jù)管理。不過(guò)當(dāng)時(shí)的計(jì)算機(jī)系統(tǒng)缺乏有效范式來(lái)描述復(fù)雜的數(shù)據(jù)關(guān)系,因此當(dāng)時(shí)庫(kù)管系統(tǒng)還一直處于非常簡(jiǎn)陋的雛形狀態(tài)。
直到1970年,關(guān)系數(shù)據(jù)庫(kù)之父、IBM研究員E.F.Codd在《Communications of ACM》雜志上發(fā)表了一篇名為“A Relational Modelof Data for Large Shared Data Banks”的論文,這也成為了數(shù)據(jù)庫(kù)歷史上的奠基之作。后來(lái)ACM在1983年把這篇論文列為創(chuàng)刊25年中最具里程碑意義的25篇論文之一,同時(shí)也開(kāi)啟了關(guān)系型數(shù)據(jù)庫(kù)快速發(fā)展的時(shí)代大幕。從1960年到2006年近半個(gè)世紀(jì)的時(shí)間里,關(guān)系型數(shù)據(jù)庫(kù)幾乎成了數(shù)據(jù)庫(kù)的唯一代名詞。
不過(guò)隨著互聯(lián)網(wǎng)的大規(guī)模推廣,關(guān)系型數(shù)據(jù)庫(kù)技術(shù)難以處理海量的大規(guī)模數(shù)據(jù)。其后,谷歌對(duì)大數(shù)據(jù)技術(shù)起到奠基性作用的三篇論文橫空出世,數(shù)據(jù)庫(kù)技術(shù)開(kāi)始進(jìn)入裂變發(fā)展時(shí)間。
沒(méi)有統(tǒng)一的模型能應(yīng)對(duì)所有數(shù)據(jù)處理場(chǎng)景,比如關(guān)系型數(shù)據(jù)庫(kù)中的B+樹(shù)模型,在寫(xiě)入方面所需要消耗的時(shí)間較長(zhǎng),因此在物聯(lián)網(wǎng)這種需要極高寫(xiě)入性能的場(chǎng)景就不適用;
時(shí)序數(shù)據(jù)庫(kù)用的LSM樹(shù),又沒(méi)有很好的查詢(xún)性能,無(wú)法在日常交易場(chǎng)景中使用;
解決多跳查詢(xún)時(shí),如針對(duì)“使用小米12芯片的手機(jī)還有哪些”問(wèn)題,就需要先查詢(xún)小米12使用的芯片類(lèi)型,再查詢(xún)使用該芯片的其它手機(jī)類(lèi)型,這種場(chǎng)景下B+和LSM樹(shù)都不合適,而使用圖數(shù)據(jù)庫(kù)使用的圖原生存儲(chǔ)模型往往可以將這種查詢(xún)的效率提升成百上千倍。
國(guó)內(nèi)數(shù)據(jù)庫(kù)領(lǐng)域,“去O”絕對(duì)不僅僅是簡(jiǎn)單的替代,而是要從更高維度去降維打擊。由于之前關(guān)系型數(shù)據(jù)庫(kù)在市場(chǎng)中的強(qiáng)大慣性影響,使得在實(shí)際工作中存在很多數(shù)據(jù)庫(kù)的濫用情況,比如在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)上進(jìn)行“表關(guān)聯(lián)的數(shù)倉(cāng)查詢(xún)?nèi)蝿?wù)”、用數(shù)據(jù)湖存儲(chǔ)時(shí)序數(shù)據(jù)等等,因此國(guó)產(chǎn)數(shù)據(jù)庫(kù)只要從這些實(shí)際痛點(diǎn)切入,完全有機(jī)會(huì)打下自己的一片天。
PolarDB:Share Everything與Share Nothing的平衡體
正如上文所說(shuō),Oracle、Db2等單體數(shù)據(jù)庫(kù)往往成本極高,因此如何把之前的單點(diǎn)數(shù)據(jù)庫(kù)拆分成分布式數(shù)據(jù)庫(kù)達(dá)到“去O”降本的目標(biāo),就是一個(gè)業(yè)界必須要回答的問(wèn)題。
一開(kāi)始的映入人們眼簾的方案是分庫(kù)分表,將之前成百上千億行的大庫(kù),拆分成一個(gè)個(gè)小的數(shù)據(jù)庫(kù)是一個(gè)看似不錯(cuò)的方式。
最初版本的PolarDB是這種Share Everything的典型代表。2021年6月,PolarDB正式對(duì)外開(kāi)源,8月有關(guān)PolarDB數(shù)據(jù)庫(kù)核心架構(gòu)創(chuàng)新論文被國(guó)際數(shù)據(jù)庫(kù)頂級(jí)會(huì)議VLDB 2021錄用。
從中我們發(fā)現(xiàn),使用Share Everything就要解決跨庫(kù)聯(lián)合查詢(xún)時(shí)的效率問(wèn)題,這個(gè)目標(biāo)的達(dá)成離不開(kāi)PolarDB業(yè)內(nèi)首創(chuàng)的數(shù)據(jù)庫(kù)代理增強(qiáng)理念,即在碎片化的數(shù)據(jù)庫(kù)基礎(chǔ)服務(wù)之上構(gòu)建新一層的標(biāo)準(zhǔn)和生態(tài),從而對(duì)上層應(yīng)提供標(biāo)準(zhǔn)化的數(shù)據(jù)庫(kù)應(yīng)用規(guī)法,盡可能地屏蔽底層不同數(shù)據(jù)庫(kù)所帶來(lái)的業(yè)務(wù)干擾。
細(xì)分來(lái)看,PolarDB的MPP層首要任務(wù)是做好“連接數(shù)據(jù)與應(yīng)用”的橋梁作用。PolarDB的GateWay層是一個(gè)“數(shù)據(jù)庫(kù)網(wǎng)關(guān)”,可獲取數(shù)據(jù)庫(kù)的訪(fǎng)問(wèn)流量,提供流量重定向(數(shù)據(jù)分片、讀寫(xiě)分離、影子庫(kù))、流量變形(數(shù)據(jù)加密、數(shù)據(jù)脫敏)、流量鑒權(quán)(安全、審計(jì)、權(quán)限)、流量治理(熔斷、限流)以及流量分析(服務(wù)質(zhì)量分析、可觀察性)等透明化功能。
在增強(qiáng)功能基礎(chǔ)上,PolarDB可插拔功能也就順理成章了??刹灏喂δ茏層脩?hù)可以任意組合增強(qiáng)性功能,并通過(guò)可插拔的能力完成快速接入。PolarDB采用三層可插拔模型,使內(nèi)核、功能組件以及生態(tài)對(duì)接完全能夠靈活的方式進(jìn)行插拔式擴(kuò)展。將各種能力封裝到模塊中,用戶(hù)任意挑選適合的組件,根據(jù)自身的業(yè)務(wù)需求、以極小的成本來(lái)定制化數(shù)據(jù)庫(kù)服務(wù)。
另外,PolarDB提供接口讓開(kāi)發(fā)者自主拓展開(kāi)發(fā),通過(guò)可插拔體系幫助大家建立分片、加解密、遷移、治理、SQL審計(jì)、多租戶(hù)、TTL、影子庫(kù)、讀寫(xiě)分離、高可用等標(biāo)準(zhǔn)功能和一些非標(biāo)準(zhǔn)功能,并借助數(shù)據(jù)庫(kù)與應(yīng)用之間的這個(gè)緩沖帶,“搭個(gè)臺(tái)子”幫助業(yè)界以最低成本打造一個(gè)良好的數(shù)據(jù)庫(kù)生態(tài)。
未來(lái),PolarDB自治服務(wù)DAS將進(jìn)一步結(jié)合云原生數(shù)據(jù)庫(kù)的彈性能力,向用戶(hù)提供智能化的Serverless數(shù)據(jù)庫(kù)服務(wù)。云原生與分布式也將深度結(jié)合,通過(guò)“Shared Nothing+Shared Everything”、“Shared Storage”、存儲(chǔ)計(jì)算分離等技術(shù),最大限度實(shí)現(xiàn)資源池化、彈性變配、超高并發(fā)等能力。
TiDB:Share Nothing的NewSQL數(shù)據(jù)庫(kù)
在“去O”的方案中,TiDB則選擇了Share Nothing的路線(xiàn),本質(zhì)上講Share Nothing架構(gòu)中各個(gè)子數(shù)據(jù)庫(kù)之間是完全獨(dú)立的,但是其跨庫(kù)計(jì)算卻是統(tǒng)一關(guān)聯(lián)的,因此Share Nothing則是另外一種流派。
這個(gè)方案中各個(gè)節(jié)點(diǎn)共享所有的物理日志,并通過(guò)RAFT、Paxos等協(xié)議在各節(jié)點(diǎn)中進(jìn)行同步TiDB則是這種方案的典范,而今年TiDB最主要的進(jìn)展是在4月發(fā)布了5.0版本,這個(gè)版本中又將行列混存的方案發(fā)揮到了極致。
TP與AP的巨大差異本質(zhì)是由于行存與列存在不同使用場(chǎng)景下的效能表現(xiàn)所造成的。在計(jì)算機(jī)的世界中數(shù)據(jù)吞吐速率往往是受數(shù)據(jù)訪(fǎng)問(wèn)局部性原理所支配的,我們知道現(xiàn)代硬盤(pán)、內(nèi)存工作原理是當(dāng)用戶(hù)讀某一區(qū)域的數(shù)據(jù)時(shí),其鄰接的數(shù)據(jù)也會(huì)被調(diào)入上一級(jí)高速緩存,讀1k數(shù)據(jù)和連續(xù)的64M數(shù)據(jù)代價(jià)基本相同,用戶(hù)在讀取連續(xù)的磁盤(pán)或者內(nèi)存信息時(shí),其速度往往比隨機(jī)讀取快一個(gè)數(shù)量級(jí)。
因此行存儲(chǔ)大多用在SQL的TP場(chǎng)景,而列存儲(chǔ)基本用在NoSQL的AP場(chǎng)景。這背后的原因也很簡(jiǎn)單,還是以銀行業(yè)的情況為例,聯(lián)機(jī)交易的TP場(chǎng)景下比如當(dāng)客戶(hù)取款時(shí),會(huì)校驗(yàn)用戶(hù)、賬號(hào)、密碼、余額等信息,這些信息都是以行為單位存儲(chǔ)的,聯(lián)機(jī)交易中數(shù)據(jù)是經(jīng)常是以行為單位訪(fǎng)問(wèn)的,把數(shù)據(jù)放在一行就會(huì)有訪(fǎng)問(wèn)速度的優(yōu)勢(shì)。但是在統(tǒng)計(jì)、分析營(yíng)業(yè)報(bào)表,進(jìn)行數(shù)據(jù)挖掘等AP場(chǎng)景下,往往只需要關(guān)注交易金額、賬戶(hù)余額等少量幾個(gè)維度的信息,而不需要用戶(hù)、賬號(hào)、密碼等這些數(shù)據(jù),而在這種場(chǎng)景下將同一維度信息放在一起的列存儲(chǔ)方案就有很大的速度優(yōu)勢(shì)了。
將行列進(jìn)行混存,綜合兩者的優(yōu)勢(shì),這方面業(yè)界倒也有不少?lài)L試,但往往都不很成功。其最大的問(wèn)題還是在于對(duì)于聯(lián)機(jī)TP交易場(chǎng)景來(lái)說(shuō),列式存儲(chǔ)的寫(xiě)入性能太低了,所以一般來(lái)說(shuō)傳統(tǒng)的方案往往還是退化成為行式存儲(chǔ)TP數(shù)據(jù)庫(kù)在交易量少的日終時(shí)刻,將數(shù)據(jù)吐給列式存儲(chǔ)AP數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)挖掘。
TiDB數(shù)據(jù)庫(kù)沒(méi)有用雙寫(xiě)方案,而創(chuàng)造性的將行存儲(chǔ)與列存儲(chǔ)做成一個(gè)基于一致性協(xié)議的集群,這樣的做法使TiDB數(shù)據(jù)庫(kù)行列混存的方案避免了之前列存儲(chǔ)寫(xiě)入帶來(lái)的性能損失。而且一致性集群還保證了列存儲(chǔ)與行存儲(chǔ)之間的數(shù)據(jù)差距不會(huì)太大。而且這種方案還把任務(wù)分配的工作完全封裝在了管理節(jié)點(diǎn)內(nèi)部,用戶(hù)根本不用關(guān)心數(shù)據(jù)庫(kù)的機(jī)制,更不用關(guān)心SQL到底是AP還是TP任務(wù)就能享受到混合負(fù)載的雙重優(yōu)勢(shì)。
Hubble:HTAP進(jìn)化版的AI原生數(shù)據(jù)庫(kù)
2021年以來(lái),與AI相結(jié)合成為數(shù)據(jù)庫(kù)的重要發(fā)展方向,但傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)在應(yīng)用到DB for AI的場(chǎng)景時(shí)經(jīng)常會(huì)出現(xiàn)性能問(wèn)題,因?yàn)閿?shù)據(jù)庫(kù)經(jīng)典技術(shù)優(yōu)化不好的話(huà)將導(dǎo)致機(jī)器學(xué)習(xí)性能下降。
正如前文所說(shuō),在目前很多社交、直播等連接的場(chǎng)景,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)根本不適用,這時(shí)候只能靠圖數(shù)據(jù)庫(kù)大展神威,在解決節(jié)點(diǎn)相似度計(jì)算,多跳關(guān)聯(lián)計(jì)算等問(wèn)題時(shí),利用圖論的框架體系比較容易解決。但是,傳統(tǒng)的數(shù)據(jù)庫(kù)模型則力不從新,因此圖數(shù)據(jù)庫(kù)也被稱(chēng)為AI原生數(shù)據(jù)庫(kù),圖數(shù)據(jù)庫(kù)廠商N(yùn)eo4j也在今年獲得了4.25億美元的F輪融資。
圖數(shù)據(jù)庫(kù)的使用場(chǎng)景往往和傳統(tǒng)的交易場(chǎng)景互相融合,因此業(yè)界正在呼喚一款能夠綜合關(guān)系型數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)以及圖數(shù)據(jù)庫(kù)等各方面性能達(dá)到平衡的產(chǎn)品,使混合式HTAP數(shù)據(jù)庫(kù)走向進(jìn)一步的超融合,而這方面Hubble數(shù)據(jù)庫(kù)今年取得的進(jìn)展最大。
Hubble的技術(shù)方案其實(shí)還是通過(guò)RAFT協(xié)議將TP庫(kù)中的數(shù)據(jù)以異步的方式同步到圖數(shù)據(jù)庫(kù)當(dāng)中,并針對(duì)圖數(shù)據(jù)庫(kù)的存儲(chǔ)模型進(jìn)行了大量的優(yōu)化。在聯(lián)機(jī)交易完成進(jìn)行數(shù)據(jù)分析時(shí),Hubble的MPP層通過(guò)智能優(yōu)化器來(lái)生成最優(yōu)的執(zhí)行計(jì)劃,并分配計(jì)算任務(wù)。Hubble系統(tǒng)內(nèi)的Coordinator會(huì)對(duì)表級(jí)的元數(shù)據(jù)進(jìn)行管理和存儲(chǔ),在進(jìn)行SQL解析時(shí),會(huì)基于執(zhí)行計(jì)劃和數(shù)據(jù)分布,提供最佳的數(shù)據(jù)存儲(chǔ)格式。如對(duì)聚合類(lèi)的分析場(chǎng)景,優(yōu)化器通過(guò)對(duì)SQL計(jì)劃的解析,提取出相關(guān)的聚合算子,自動(dòng)選擇列存模式;對(duì)于記錄級(jí)的修改和查詢(xún)操作,會(huì)轉(zhuǎn)變成行存模式,實(shí)現(xiàn)數(shù)據(jù)的點(diǎn)查、修改操作。
針對(duì)用戶(hù)的分析計(jì)算場(chǎng)景,通過(guò)不同的優(yōu)化器選擇不同的數(shù)據(jù)存儲(chǔ)格式,提供最佳的分析性能。而這樣的創(chuàng)新點(diǎn)也給Hubble帶來(lái)了實(shí)時(shí)大屏,這樣一個(gè)可以提供實(shí)時(shí)多維數(shù)據(jù)分析結(jié)果的殺手級(jí)應(yīng)用。
數(shù)牘科技:隱私計(jì)算的集大成者
如果目前圖數(shù)據(jù)庫(kù)是AI原生的數(shù)據(jù)庫(kù),那么隱私計(jì)算就是AI應(yīng)用與數(shù)據(jù)挖掘的最強(qiáng)加速器。近年來(lái)各種AI模型規(guī)模按照以摩爾定律描述的方式不斷擴(kuò)大,從谷歌T5破百億開(kāi)始到GPT-3破千億用了近2年,但從GPT-3到盤(pán)古的2000億卻只用了大半年的時(shí)間。
訓(xùn)練數(shù)據(jù)集越大,參數(shù)規(guī)模越強(qiáng),取得效果越好,也成了目前AI領(lǐng)域的共識(shí)。但問(wèn)題是單一一家企業(yè)的數(shù)據(jù)量都是有限的,即使是工行其市場(chǎng)份額也不足10%,而且一般企業(yè)數(shù)據(jù)往往都保有自身客戶(hù)的敏感信息,想讓工行將數(shù)據(jù)完全透明的共享出來(lái)是不可能的,而隱私計(jì)算技術(shù)恰恰是解決這個(gè)問(wèn)題的關(guān)鍵。隨著2021年中北京大數(shù)據(jù)交易所的建成,隱私計(jì)算技術(shù)也逐漸被人們所熟知,不少業(yè)內(nèi)人士都將2021年定為隱私計(jì)算大規(guī)模應(yīng)用元年。
數(shù)牘科技在隱私計(jì)算方面所取得的成果引業(yè)界矚目,今年3月數(shù)牘科技成為北京國(guó)際大數(shù)據(jù)交易聯(lián)盟的首批成員單位。今年11月數(shù)牘科技成為上海數(shù)據(jù)交易所、西部數(shù)據(jù)交易平臺(tái)首批簽約數(shù)據(jù)商,并深度參與深圳數(shù)據(jù)交易所關(guān)鍵技術(shù)預(yù)研項(xiàng)目,并將作為深圳數(shù)據(jù)交易所首批數(shù)據(jù)服務(wù)商之一參與數(shù)據(jù)交易服務(wù)。
從技術(shù)上講數(shù)牘科技的整合秘密分享、模糊傳輸協(xié)議、同密加密等技術(shù)全方位打造了一個(gè)可信執(zhí)行環(huán)境(TEE)。并基于這種高效的密態(tài)數(shù)據(jù)庫(kù)框架;利用TEE提升設(shè)備的安全計(jì)算性能,構(gòu)建面向海量設(shè)備的數(shù)據(jù)聯(lián)邦。
隨著隱私計(jì)算的發(fā)展,打破數(shù)據(jù)孤島,實(shí)現(xiàn)“數(shù)據(jù)可用不可見(jiàn)”。在這種新型計(jì)算架構(gòu)下,可區(qū)別于傳統(tǒng)的集中式共享來(lái)保護(hù)各方的數(shù)據(jù)隱私安全,通過(guò)海量移動(dòng)設(shè)備的端側(cè)聯(lián)邦學(xué)習(xí),來(lái)保證個(gè)人敏感數(shù)據(jù)不離開(kāi)端側(cè)設(shè)備本地。因此未來(lái)數(shù)據(jù)庫(kù)結(jié)合聯(lián)邦學(xué)習(xí)、聯(lián)邦計(jì)算也是熱門(mén)的發(fā)展方向之一。
TDEngine:物聯(lián)網(wǎng)時(shí)代的時(shí)序數(shù)據(jù)庫(kù)
隨著移動(dòng)端發(fā)展走向飽和,現(xiàn)在整個(gè)IT行業(yè)都期待著“萬(wàn)物互聯(lián)”的物聯(lián)網(wǎng)時(shí)代所帶來(lái)的流量紅利,但是與互聯(lián)網(wǎng)不同,物聯(lián)網(wǎng)有自己的信息處理需求。
在物聯(lián)網(wǎng)時(shí)代的首要目標(biāo)是數(shù)據(jù)最大化,其底層邏輯是數(shù)據(jù)不能漏,loT終端往往都是一些傳感器,其自身可靠性有限,一般都是靠多點(diǎn)這冗余相互驗(yàn)證來(lái)保證整體可靠性的,所以對(duì)于某一點(diǎn)的準(zhǔn)確率要求并不高,但是很多數(shù)據(jù)不能及時(shí)采集就會(huì)丟失,因此物聯(lián)網(wǎng)往往使用時(shí)序數(shù)據(jù)庫(kù),其對(duì)于速度與效率要求更高。如果用汽車(chē)類(lèi)比,傳統(tǒng)數(shù)據(jù)庫(kù)的最高目標(biāo)是做類(lèi)似邁巴赫、賓利這樣的頂級(jí)家用轎車(chē)以安全優(yōu)先;而物聯(lián)網(wǎng)則要做類(lèi)似于法拉利這樣為速度而生的跑車(chē)。
在典型的物聯(lián)網(wǎng)場(chǎng)景中,往往有許多各類(lèi)不同的終端設(shè)備,部署在不同的位置,去采集各種數(shù)據(jù),比如某一生產(chǎn)區(qū)有5萬(wàn)個(gè)終端,每個(gè)終端每10秒發(fā)送一次數(shù)據(jù)。那么每年會(huì)產(chǎn)生1600億個(gè)數(shù)據(jù)點(diǎn)。而這些數(shù)據(jù)都是順序產(chǎn)生的,并且每次監(jiān)測(cè)產(chǎn)生數(shù)據(jù)的格式全部是一致的、結(jié)構(gòu)化的,并且沒(méi)有刪除和修改的需求,所以時(shí)序數(shù)據(jù)庫(kù)一般使用LSM模型,從而將隨機(jī)寫(xiě)轉(zhuǎn)化為順利寫(xiě),以提升效率。
今年濤思數(shù)據(jù)就在數(shù)據(jù)時(shí)序性和結(jié)構(gòu)化,繼續(xù)做了很多開(kāi)拓性的工作,一共發(fā)布了184個(gè)版本,其中社區(qū)版52個(gè)、企業(yè)版132個(gè)。合并4607個(gè)Pull Requests,正在運(yùn)行的測(cè)試?yán)咏?800個(gè),軟件代碼行數(shù)共計(jì)104萬(wàn)行。從用戶(hù)需求出發(fā),我們?cè)?021年發(fā)布了大大小小30余個(gè)新功能,重點(diǎn)包括:降低企業(yè)遷移成本的獨(dú)立程序taosAdapter、基于Grafana的TDengine零依賴(lài)監(jiān)控解決方案TDinsight、納秒時(shí)間精度、浮點(diǎn)數(shù)有損壓縮、原生接口寫(xiě)入、嵌套查詢(xún)、無(wú)模式(Schemaless)寫(xiě)入等等。
寫(xiě)在最后
歷史經(jīng)驗(yàn)告訴我們:淘金時(shí)代下,埋頭淘金的人可能不是勝利者,而洞察用戶(hù)真切需求、并在適合的時(shí)間提供適合工具以提高效率的人,極有可能獨(dú)占鰲頭。
2021年國(guó)產(chǎn)數(shù)據(jù)庫(kù)百花爭(zhēng)鳴,蓬勃發(fā)展。在這個(gè)在獨(dú)特的歷史關(guān)鍵拐點(diǎn)下,各類(lèi)國(guó)產(chǎn)數(shù)據(jù)庫(kù)不斷涌現(xiàn),老牌廠商也開(kāi)始逐步創(chuàng)新,取得了重大的進(jìn)展。相信新的一年中,國(guó)產(chǎn)數(shù)據(jù)庫(kù)勢(shì)將創(chuàng)造新的驚喜等待著我們。