阿里李飛飛:下一代企業(yè)級數(shù)據(jù)庫6大技術(shù)方向

云計算帶來的云原生技術(shù)體系催生了云原生數(shù)據(jù)庫和云原生數(shù)據(jù)倉庫。像AWS Aurora,AWS Redshift,Snowflake,阿里云PolarDB、AnalyticDB(ADB)。我認(rèn)為,都是新賽道帶來的全新發(fā)展機(jī)遇,這是一個非常典型且有著時代代表性的趨勢,向云原生演進(jìn)。

在上月結(jié)束的DTCC2020,“百庫爭鳴”或許是參會者最大的感觸。據(jù)不完全統(tǒng)計,目前有名有姓的國產(chǎn)數(shù)據(jù)庫產(chǎn)品多達(dá)200種。

百花齊放,百家爭鳴,這正是用戶所需要的。數(shù)據(jù)庫被國家列為“卡脖子”的35項關(guān)鍵技術(shù)之一。只有對數(shù)據(jù)庫基礎(chǔ)研究越重視,參與的企業(yè)越多,關(guān)注的人越多,才有可能誕生更好的數(shù)據(jù)庫軟件。

下一個10年,數(shù)據(jù)庫發(fā)展趨勢是什么?用戶需要什么樣的數(shù)據(jù)庫?這可能是很多從業(yè)者都想知道的問題,而這些問題,在DTCC2020大會上就有答案。

大會第一天,阿里巴巴集團(tuán)副總裁,阿里云智能數(shù)據(jù)庫產(chǎn)品事業(yè)部負(fù)責(zé)人李飛飛就分享了他對數(shù)據(jù)庫領(lǐng)域的觀察,并指出了下一代企業(yè)級數(shù)據(jù)庫的6個關(guān)鍵技術(shù)方向。

2345截圖20200908083720.png

眾所周知,Gartner最新公布的2020年度全球云數(shù)據(jù)庫魔力象限評估結(jié)果,國內(nèi)有3家廠商進(jìn)入,其中阿里云更是挺進(jìn)了第一陣營——領(lǐng)導(dǎo)者(LEADERS)象限。這意味著在云數(shù)據(jù)庫這條賽道上,中國數(shù)據(jù)庫并沒有落后于人,并且真正走進(jìn)世界一流。

2345截圖20200908083720.png

很多人或許沒留意到,今年Gartner將OPDBMS(Operational Database Management Systems)和DMSA(Data Management Solutions for Analytics)兩個本是分開領(lǐng)域合二為一,成為CDBMS(Cloud Database Management Systems)。

為什么Gartner要這樣做?因為Gartner認(rèn)為“There is Only One Cloud Database DBMS Market”。這不僅意味著CDBMS魔力象限競爭更為激烈,含金量更高,也意味著一種趨勢,數(shù)據(jù)庫和數(shù)據(jù)倉庫是可以融合的。

因此,阿里云對下一代企業(yè)級數(shù)據(jù)庫關(guān)鍵技術(shù)的判斷還是極具參考價值的。

但對于6種關(guān)鍵技術(shù),外界其實(shí)還存在一些不同的聲音。比如,有一種聲音認(rèn)為,HTAP只是一種場景需求,并非一種趨勢。分布式是未來嗎?軟硬件一體化是不是又回到了被鎖定的老路?

2345截圖20200908083720.png

為此,老魚在會后特意專訪李飛飛,就這些問題展開探討。

以下為本次專訪對話內(nèi)容精選:

老魚:在您看來,過去的10年,中國數(shù)據(jù)庫技術(shù)發(fā)展呈現(xiàn)怎樣的趨勢?下一個10年會朝怎樣的方向發(fā)展?

李飛飛:過去十年,數(shù)據(jù)庫領(lǐng)域最大的趨勢,我覺得是從傳統(tǒng)數(shù)據(jù)庫架構(gòu)向云原生架構(gòu)演進(jìn)的趨勢。

云廠商的崛起,是過去十年非常典型的特征。沒有人會想到,突然有一天,亞馬遜也開始做數(shù)據(jù)庫了,并悄無聲息的就已達(dá)到了全球數(shù)據(jù)庫領(lǐng)先位置。我認(rèn)為,這跟云計算新賽道帶來的機(jī)遇是密不可分的。

云計算帶來的云原生技術(shù)體系催生了云原生數(shù)據(jù)庫和云原生數(shù)據(jù)倉庫。像AWS Aurora,AWS Redshift,Snowflake,阿里云PolarDB、AnalyticDB(ADB)。我認(rèn)為,都是新賽道帶來的全新發(fā)展機(jī)遇,這是一個非常典型且有著時代代表性的趨勢,向云原生演進(jìn)。

另外一個大趨勢,是分布式技術(shù)的深度發(fā)展。過去十年,分布式技術(shù)從一個比較初級的形態(tài)發(fā)展到今天,有了今天的分布式數(shù)據(jù)庫和分布式數(shù)據(jù)倉庫。

接下來的十年,有哪些趨勢?

第一、云原生和分布式會發(fā)生深度融合,架構(gòu)上無縫融合,提供更好的彈性、高可用能力。

第二、智能化技術(shù)深度融合,在數(shù)據(jù)庫中,如何用AI和相關(guān)技術(shù),去做到智能化的運(yùn)維管控,比如索引推薦,MySQL治理、異常檢測等。

第三、數(shù)據(jù)庫大數(shù)據(jù)一體化,包括HTAP以及離在線一體化,在過去的十幾年里,數(shù)據(jù)庫領(lǐng)域和大數(shù)據(jù)領(lǐng)域是分開的,一個做離線,一個做在線,相安無事。但從應(yīng)用角度或客戶視角看,越來越多的客戶和應(yīng)用需要最好是一套系統(tǒng)來解決數(shù)據(jù)從生產(chǎn)、處理、存儲、消費(fèi)全鏈路的過程,客戶越來越希望減少數(shù)據(jù)移動和存儲成本,避免天天做數(shù)據(jù)同步。如果能夠?qū)崿F(xiàn)離在線一體化或能夠?qū)崿F(xiàn)HTAP事務(wù)分析一體化或離線計算在線查詢一體化,那這些問題都可以迎刃而解。這也是我認(rèn)為,下個十年非常關(guān)鍵的趨勢。這也是為什么Gartner將OPDBMS(Operational Database Management Systems)和DMSA(Data Management Solutions for Analytics)兩個本是分開領(lǐng)域合二為一背后的核心邏輯。

第四、多模,除了結(jié)構(gòu)化數(shù)據(jù),怎么去處理文本、圖片等非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)?用數(shù)據(jù)庫方法去融合處理這些數(shù)據(jù)。

第五、軟硬件一體化,一定要關(guān)注硬件發(fā)展,比如:NVM、高速網(wǎng)絡(luò)等新硬件對數(shù)據(jù)庫系統(tǒng)設(shè)計帶來的沖擊。

第六、安全可信,這是個永恒的話題。不是最新趨勢,但會不斷演進(jìn)。如何結(jié)合區(qū)塊鏈技術(shù)在數(shù)據(jù)庫系統(tǒng)里提供不可篡改性,如何將加密技術(shù)做到數(shù)據(jù)庫里對數(shù)據(jù)進(jìn)行全程加密保護(hù)。

老魚:關(guān)于HTAP還是頗有些爭議。有觀點(diǎn)認(rèn)為,HTAP只是一種細(xì)分使用場景,還談不上不是未來數(shù)據(jù)庫的趨勢,并且不建議把OLTP和OLAP業(yè)務(wù)完全混合,認(rèn)為在典型的OLTP處理場景就使用面向OLTP設(shè)計的數(shù)據(jù)庫,否則,既達(dá)不到OLAP的擴(kuò)展性,又無法滿足OLTP的實(shí)時、高性能等要求。您怎么看?

李飛飛:中國有句古話,魚和熊掌不可兼得。如果,今天有人告訴用戶說“我今天做了個HTAP數(shù)據(jù)庫可以替換傳統(tǒng)的OLTP數(shù)據(jù)庫,也可以替換傳統(tǒng)的OLAP數(shù)據(jù)倉庫,傳統(tǒng)的OLTP、OLAP系統(tǒng)都沒有用了”,那是不可能的。

如果用戶就是在線交易場景、高并發(fā)、讀寫沖突非常高,這種情況下還要做OLAP,做多表聚合查詢,是非常復(fù)雜的。此種情況下,和高并發(fā)事務(wù)放在一起,一定會有挑戰(zhàn)。

那為什么還要講HTAP,我認(rèn)為并不是要徹底取代傳統(tǒng)OLTP或徹底取代傳統(tǒng)OLAP數(shù)據(jù)庫,HTAP有自己的市場。一些在線事務(wù)、在線交易的場景下,如果做一些不太復(fù)雜的分析,或者做復(fù)雜分析但隔離級別要求沒那么高,對實(shí)時性要求也不那么高,在這種場景下,能不能做到既做OLTP又做OLAP?那是有可能的。

比如,在我們事務(wù)處理里,都做三副本,三副本里可以做行列轉(zhuǎn)換,兩個副本可以是行存,第三個副本是列存,去讀列存副本,并保證高隔離機(jī)制高實(shí)時可見要求,在這種場景下是沒問題的。但如果做非常復(fù)雜,時效性要求非常高的分析計算,還是要專門的OLAP系統(tǒng)。

另外,將離線和在線一體化,既能做在線交互式分析也能做離線ETL是剛需。這個過程中,既然要做實(shí)時增、刪、改、查又要做交互式分析和復(fù)雜離線計算(但是前提是在一定的隔離級別以下,比如RC),一定會產(chǎn)生HTAP場景,但這個HTAP和理想中的HTAP既能支持高隔離級別、高并發(fā)還能做復(fù)雜分析是兩個概念。

我覺得,未來的場景一定是有復(fù)雜分析計算場景、數(shù)據(jù)庫大數(shù)據(jù)一體化場景,不管從那種角度,OLAP支持一定級別的OLTP,OLTP做得非常好還能兼顧一定的OLAP,這種場景是存在的。

老魚:這幾年,分布式數(shù)據(jù)庫非?;?,很多企業(yè)都在試水,有成功的,也有失敗的,有種說法,數(shù)據(jù)量不上一定規(guī)模,沒有超高峰值,沒有高并發(fā)的場景就沒必要用分布式數(shù)據(jù)庫,因為,很可能不能獲得什么明顯優(yōu)勢。您怎么看?

李飛飛:在今天的演講中,我旗幟鮮明的提到,不能為了分布式而分布式。今天分布式很火,有眾多原因。在美國市場,分布式OLTP數(shù)據(jù)庫商業(yè)化成功的案例并不多。以O(shè)racle為例,并沒有將分布式作為最重要的主攻方向。

這其中包括美國分布式數(shù)據(jù)庫鼻祖Google Spanner以及出來創(chuàng)業(yè)的CockRoachDB,商業(yè)化規(guī)模也有待進(jìn)一步提升。分布式解決的核心問題是水平拓展問題,但有前提條件,你的業(yè)務(wù)邏輯和數(shù)據(jù)分布方法是基本完美匹配的,這樣可以做到完美的并行分布式處理,這沒問題。但理想很美好,現(xiàn)實(shí)很骨干,很多業(yè)務(wù)場景沒辦法做到完美,即使能做到,業(yè)務(wù)邏輯隨著時間會變化,數(shù)據(jù)分布就可能會發(fā)生變化。

還有一種可能,一份數(shù)據(jù)有多個不同的業(yè)務(wù),就像電商場景,既有買家又有賣家,你這數(shù)據(jù)到底是按買家ID來做,還是按賣家ID來做。不同業(yè)務(wù)場景需求不一樣,無論是按哪個邏輯去做分庫,最終會導(dǎo)致跨庫分布式事務(wù)處理和分布式查詢。在今天的場景下,如果要保證高級別的ACID,高并發(fā)場景下如果業(yè)務(wù)邏輯和數(shù)據(jù)分布不一致,一定會帶來大的讀寫沖突和事務(wù)處理成本,這是分布式數(shù)據(jù)庫無法完美解決的問題。

我們不能為分布式而分布式,而是要看業(yè)務(wù)場景,什么樣的業(yè)務(wù)場景需要分布式改造?比如業(yè)務(wù)邏輯相對成熟固定,數(shù)據(jù)分布也比較穩(wěn)定,不大可能發(fā)生突然的數(shù)據(jù)分布變化,這種場景下做一個分布式設(shè)計,那沒問題,還可以提供完美水平拓展能力。如果不是這種場景,或者并非超高并發(fā),大部分業(yè)務(wù)系統(tǒng)和應(yīng)用其實(shí)并不需要分布式改造。

傳統(tǒng)單機(jī)系統(tǒng)也有非常明顯“短板”,用云原生能力對資源進(jìn)行池化,實(shí)現(xiàn)資源解耦,可以對應(yīng)用做透明集中式部署,能完美解決了這個場景。

再往后怎么辦,將分布式能力和云原生能力結(jié)合起來,將兩者的優(yōu)勢結(jié)合起來。我覺得這才是下一代系統(tǒng)應(yīng)該去做的一些突破。

老魚:您剛才提到的趨勢里,有軟硬一體,以前我們經(jīng)常吐槽友商一款產(chǎn)品軟硬一體帶來鎖定。現(xiàn)在又回到了軟硬一體的路上,這到底是進(jìn)步還是倒退?

李飛飛:軟硬一體,不能理解為軟硬一體綁定部署,如果是軟硬一體綁定部署就回到了以前那條老路上。雖然以前的產(chǎn)品有很多設(shè)計思想值得我們借鑒,實(shí)際上,有些產(chǎn)品先于云廠商意識到資源池化、資源解偶的重要性,并早于云廠商做了這些工作,但很可惜,是緊耦合的方式去做的,所以,市場的反應(yīng)沒有那么好。

今天我講軟硬一體,并不是要去做這種軟硬件緊耦合在一起的部署,而是說,要去結(jié)合硬件的特點(diǎn)來設(shè)計和優(yōu)化數(shù)據(jù)庫系統(tǒng)。尤其是能規(guī)模化部署的硬件,客戶并不需要為軟硬件一體化設(shè)計,因為這種硬件已經(jīng)是通用硬件,這個非常關(guān)鍵。

軟硬件一體化優(yōu)化,是每家數(shù)據(jù)庫廠商都必須要做的,因為系統(tǒng)本質(zhì)是安全、高效的使用有限的硬件資源,必須結(jié)合硬件的特點(diǎn)來優(yōu)化和設(shè)計系統(tǒng)。但問題是,不能針對特定、特殊硬件去做緊耦合,這樣倒逼用戶去改造硬件,這個成本太大。但是對普適性硬件如果視而不見,不針對硬件特點(diǎn)去發(fā)展會落伍。

總的來說,我想表達(dá)的軟硬件一體化的邏輯,是針對具備普適性、規(guī)模化鋪開的硬件,根據(jù)硬件不斷發(fā)展的特性,快速敏銳捕捉新特性,在數(shù)據(jù)庫系統(tǒng)設(shè)計里把硬件特性發(fā)揮出來。

老魚:今年阿里云首次進(jìn)入Gartner全球領(lǐng)導(dǎo)力象限,您怎么看待這次入選?阿里云數(shù)據(jù)庫未來將如何去保持跟擴(kuò)大自己的領(lǐng)導(dǎo)優(yōu)勢?

李飛飛:阿里云只是中國數(shù)據(jù)庫的一個代表。今年不僅阿里云進(jìn)入全球領(lǐng)導(dǎo)者象限,我們看到,有2家友商也首次進(jìn)入了魔力象限,我覺得,這是歷史性突破。

阿里云進(jìn)入全球領(lǐng)導(dǎo)者象限,代表著中國數(shù)據(jù)庫行業(yè)整體水平已經(jīng)達(dá)到世界領(lǐng)先行列。進(jìn)入第一陣營了,這是非常值得驕傲和自豪的,也給我們后續(xù)的發(fā)展奠定了非常好的基礎(chǔ)。

尤其是今年Gartner將大數(shù)據(jù)管理分析和傳統(tǒng)事務(wù)數(shù)據(jù)庫合二為一,在這個背景下取得這個成績,非常難能可貴。

我們看到各大云廠商以及Oracle、IBM等老牌和新貴Databricks、Snowflakes都在里面。后續(xù)競爭,我相信每一年會越來越激烈,怎么去保持?

第一,從市場中來、回到市場中去,貼著客戶需求去發(fā)展,而不是自嗨。

比如;今天我們看到,阿里云在公共云市場份額非常大,但也看到混合云市場機(jī)會非常大,針對混合云市場,如何去打造我們的產(chǎn)品和技術(shù)?這是新的挑戰(zhàn)。這種挑戰(zhàn)甚至可以說,美國云廠商遇到的挑戰(zhàn)都沒有我們多。

中國互聯(lián)網(wǎng)為什么在某種程度上發(fā)展的比美國還要好?因為市場驅(qū)動、客戶驅(qū)動、應(yīng)用驅(qū)動,中國有這么多人口,有密集城市,所以中國的互聯(lián)網(wǎng)應(yīng)用在某些程度發(fā)展的反而比美國好,因為它有驅(qū)動應(yīng)用發(fā)展和創(chuàng)新的條件。在混合云市場,中國也具備這樣的條件。

美國IT數(shù)字化程度非常高,進(jìn)入云計算之前,其數(shù)字化程度非常高。所以美國的企業(yè)對擁抱公有云相對中國市場是非常自然而然的事情。但中國市場不一樣,中國市場有中國市場的特點(diǎn)。

傳統(tǒng)政企對公共云的擁抱肯定沒有美國市場度高。所以,在中國混合云市場在相當(dāng)長一段時間里會是一個核心賽道,這個市場上怎么發(fā)力?技術(shù)產(chǎn)品怎么設(shè)計?從市場需求出發(fā),結(jié)合市場特點(diǎn),做出一些差異化有特色的產(chǎn)品非常關(guān)鍵,這是第一點(diǎn)。

第二點(diǎn),既然是全球領(lǐng)導(dǎo)者,那么,在全球市場上的表現(xiàn)就非常重要。阿里云不僅做中國市場,也要走出國門。在今天的環(huán)境下,在歐美市場會有一些挑戰(zhàn),但在東南亞市場,在歐美市場之外還有廣闊的市場空間等著我們?nèi)ピ鲩L。

這些市場,阿里云要直面國外云廠商的競爭,在與它們的PK中去贏得客戶。今年,阿里云能進(jìn)入全球領(lǐng)導(dǎo)者象限很關(guān)鍵的原因是,阿里云有很多海外客戶,很多是從國外云廠商遷移過來,這對Gartner而言,是非常重要的信號,說明阿里云做得更好,客戶用腳來投票,這是非常有說服力的。

老魚:阿里云數(shù)據(jù)庫產(chǎn)品線,今年相比去年有什么變化?

李飛飛:我們會進(jìn)一步聚焦,OLTP核心產(chǎn)品是PolarDB及分布式版PolarDB-X。OLAP有兩個核心產(chǎn)品,分別是云原生數(shù)據(jù)倉庫AnalyticDB和云原生數(shù)據(jù)湖分析DLA。NoSQL領(lǐng)域也是兩個核心產(chǎn)品,云原生多模數(shù)據(jù)庫Lindorm和云原生內(nèi)存數(shù)據(jù)庫Tair。

還有托管產(chǎn)品RDS和NoSQL、和工具類產(chǎn)品。對托管產(chǎn)品,阿里云更多是在管控平臺這一層投入,結(jié)合云原生和智能化的技術(shù)把托管的優(yōu)勢發(fā)揮出來。比如自動化實(shí)例管理、高可用等。

阿里云的核心思路還是聚焦在主賽道上,在核心自研產(chǎn)品上加大投入,托管產(chǎn)品和生態(tài)伙伴達(dá)成很好的合作關(guān)系,發(fā)揮托管平臺優(yōu)勢。比如MongoDB,以前我們還在MongoDB上投入研發(fā),現(xiàn)在兵力都收縮回來,我們跟MongoDB簽了個協(xié)議,用它的最新版,不是挺好的嗎?從數(shù)據(jù)庫內(nèi)核產(chǎn)品再到運(yùn)維服務(wù)再到應(yīng)用開發(fā)ISV,借助和發(fā)展生態(tài)的力量是我們的核心戰(zhàn)略。

THEEND

最新評論(評論僅代表用戶觀點(diǎn))

更多
暫無評論