云、大數(shù)據(jù)炒作熱度褪去,對(duì)數(shù)據(jù)的存儲(chǔ)計(jì)算技術(shù)正在回歸理性。在存儲(chǔ)這條傳統(tǒng)toB市場(chǎng)的賽道上,創(chuàng)業(yè)遠(yuǎn)比toC市場(chǎng)復(fù)雜艱難許多。近日,一家以分布式文件存儲(chǔ)創(chuàng)業(yè),集合了存儲(chǔ)計(jì)算與數(shù)據(jù)分析的初創(chuàng)公司——極道,表示從2015年創(chuàng)業(yè)至今,已獲得國(guó)內(nèi)基因測(cè)序龍頭企業(yè)以及眾多基因測(cè)序、臨檢機(jī)構(gòu)、生物制藥等生物醫(yī)療領(lǐng)域,以及地理空間和人工智能等計(jì)算密集型、數(shù)據(jù)密集型和IO密集型應(yīng)用的眾多客戶。CSDN專(zhuān)訪了極道創(chuàng)始人吳江,聽(tīng)聽(tīng)他對(duì)高性能計(jì)算、存儲(chǔ)底層技術(shù)創(chuàng)業(yè)的理解。
機(jī)緣巧合的創(chuàng)業(yè)歷程
極道創(chuàng)始人兼CEO吳江曾任Sun公司Staff Engineer,負(fù)責(zé)Sun操作系統(tǒng)Solaris的核心研發(fā),是Solaris iSCSI Target的作者之一、SCSA v3第一版原作者以及STK 7000存儲(chǔ)系統(tǒng)核心貢獻(xiàn)者。2009年起,吳江擔(dān)任EMC中國(guó)研發(fā)中心統(tǒng)一存儲(chǔ)首席架構(gòu)師,主持開(kāi)發(fā)了EMC新一代虛擬化集群存儲(chǔ)Mako以及Neo Trin產(chǎn)品線;作為核心架構(gòu)師,吳江主持設(shè)計(jì)了EMC VNX的核心存儲(chǔ)子系統(tǒng)MCX(MCR、MCF)。在大廠積累的研發(fā)經(jīng)驗(yàn),讓吳江和同事們萌生創(chuàng)業(yè)想法,從2012年開(kāi)始存儲(chǔ)方向的創(chuàng)業(yè)。不過(guò)現(xiàn)實(shí)是,EMC這樣的傳統(tǒng)大廠通用存儲(chǔ)已經(jīng)足夠好,創(chuàng)業(yè)公司的品牌認(rèn)知度低,抱著機(jī)器到處POC(測(cè)試)的辛苦,卻并沒(méi)有得到理想的認(rèn)可。
沒(méi)想到一次數(shù)據(jù)事故,讓吳江和團(tuán)隊(duì)證明了自己的技術(shù)實(shí)力。2015年7月國(guó)內(nèi)基因測(cè)序龍頭企業(yè)發(fā)生了一起數(shù)據(jù)事故,文件系統(tǒng)損壞導(dǎo)致120T的核心樣本數(shù)據(jù)丟失,當(dāng)時(shí)的存儲(chǔ)使用了Lustre(并行分布式文件系統(tǒng)),所詢(xún)問(wèn)的大廠幾乎修復(fù)不了,在大范圍求助修復(fù)數(shù)據(jù)無(wú)果后,幾經(jīng)周折找到了吳江。Lustre是DDN公司(全稱(chēng)DataDirect Networks)從Intel旗下的WhamCloud公司收購(gòu)獲得,吳江曾是Lustre的文件系統(tǒng)所用底層文件系統(tǒng)ZFS的核心貢獻(xiàn)者,他帶領(lǐng)團(tuán)隊(duì)在72小時(shí)內(nèi)找回了所有120T損壞的數(shù)據(jù)。同時(shí),基因測(cè)序企業(yè)的數(shù)據(jù)量也震撼了研發(fā)存儲(chǔ)多年的吳江,通過(guò)了解基因測(cè)序行業(yè)對(duì)于數(shù)據(jù)計(jì)算和存取的模式和痛點(diǎn),讓吳江決定從包括基因測(cè)序在內(nèi)的泛生命科學(xué)行業(yè)切入,二次創(chuàng)業(yè),研發(fā)具有特點(diǎn)和技術(shù)優(yōu)勢(shì)的存儲(chǔ)與數(shù)據(jù)產(chǎn)品。
初創(chuàng)公司一樣可以做出好產(chǎn)品
生命科學(xué)行業(yè)數(shù)據(jù)量大,系統(tǒng)要求高,IT壓力大,但是即便使用目前行業(yè)中最好最貴的產(chǎn)品與系統(tǒng),核心業(yè)務(wù)運(yùn)轉(zhuǎn)效果也并不理想,吳江看到了機(jī)會(huì)。
但是極道沒(méi)有把自己定位成一個(gè)存儲(chǔ)公司。吳江認(rèn)為,當(dāng)前僅從存儲(chǔ)角度解決不了用戶問(wèn)題,計(jì)算和存儲(chǔ)的縱向融合是趨勢(shì),而協(xié)同才是真正的融合,即計(jì)算將數(shù)據(jù)存取模式預(yù)先告知存儲(chǔ),存儲(chǔ)按照需求做到優(yōu)化和假設(shè)。
在2017年之前,生命科學(xué)領(lǐng)域以第二代基因測(cè)序(簡(jiǎn)稱(chēng)二代測(cè)序)為主流技術(shù),2017年開(kāi)始第三代測(cè)序技術(shù)(簡(jiǎn)稱(chēng)三代測(cè)序)興起。三代測(cè)序與二代測(cè)序的技術(shù)原理完全不同,IO模式產(chǎn)生較大變化,從吞吐變?yōu)镮OPS。據(jù)吳江介紹,當(dāng)時(shí)包括頭部存儲(chǔ)廠商在基因測(cè)序公司的三代測(cè)序組裝測(cè)試中都"掛"掉了,極道也不例外,但是極道團(tuán)隊(duì)在短時(shí)間內(nèi)改造文件系統(tǒng),與行業(yè)大佬的同臺(tái)競(jìng)爭(zhēng)中,極道的存儲(chǔ)系統(tǒng)在最短時(shí)間內(nèi)完成了三代測(cè)序組裝。吳江在EMC時(shí)期,EMC希望做世界級(jí)的文件系統(tǒng)以抗衡Isilon,最終的結(jié)局以EMC收購(gòu)Isilon結(jié)束。這讓吳江看到,與大廠相比,創(chuàng)業(yè)公司具有更大靈活性,也可以做出來(lái)好產(chǎn)品。
打造"存管算"結(jié)合的數(shù)據(jù)系統(tǒng)
吳江將極道定義為以分布式系統(tǒng)為核心提升IT資源效率,提供高效智能數(shù)據(jù)處理基礎(chǔ)平臺(tái)的數(shù)據(jù)系統(tǒng)公司。據(jù)極道官方介紹,極道的核心產(chǎn)品涵蓋了分布式并行文件存儲(chǔ)、強(qiáng)關(guān)聯(lián)大規(guī)模實(shí)時(shí)數(shù)據(jù)管理系統(tǒng),以及集群的調(diào)度系統(tǒng)和執(zhí)行引擎,核心軟件系統(tǒng)均為自主研發(fā),已擁有多項(xiàng)專(zhuān)利和軟件著作權(quán)。
在吳江看來(lái),存儲(chǔ)系統(tǒng)所有原理講出來(lái)都非常簡(jiǎn)單,但是復(fù)雜程度并不在原理而在于工程實(shí)現(xiàn)。一個(gè)存儲(chǔ)產(chǎn)品的穩(wěn)定靠長(zhǎng)時(shí)間打磨和嚴(yán)苛應(yīng)用場(chǎng)景的磨練。極道第一套系統(tǒng)在2015年9月進(jìn)入到大規(guī)??蛻舻臏?zhǔn)生產(chǎn)環(huán)境,已經(jīng)連續(xù)驗(yàn)證超過(guò)3萬(wàn)個(gè)小時(shí),并且已經(jīng)進(jìn)入用戶一級(jí)生產(chǎn)系統(tǒng)。
雖然從生命科學(xué)領(lǐng)域切入,但極道的產(chǎn)品也同樣適用于三大場(chǎng)景:
·生命科學(xué)、地理空間、科學(xué)研究、科學(xué)計(jì)算的高性能計(jì)算場(chǎng)景;
·依賴(lài)大量數(shù)據(jù)的人工智能場(chǎng)景;
·視效處理等傳統(tǒng)的強(qiáng)需求場(chǎng)景。
極道現(xiàn)在的客戶群除了生命科學(xué),還有地理信息、人工智能、能源、科研等等。據(jù)吳江介紹,目前,極道在全球的客戶總部署節(jié)點(diǎn)700+個(gè),在線時(shí)長(zhǎng)60個(gè)月以上,數(shù)據(jù)0丟失。
極道團(tuán)隊(duì)目前50多人,除了銷(xiāo)售,全員coding模式。作為創(chuàng)始人,在繁雜的管理事務(wù)之余,吳江每周的寫(xiě)代碼時(shí)間已經(jīng)僅剩2天。吳江表示,Pre-A輪融資后,正在繼續(xù)投入和擴(kuò)大研發(fā)力量,畢竟一個(gè)初創(chuàng)技術(shù)品牌,還要很長(zhǎng)的路要走。