近日,騰訊云存儲(chǔ)高級(jí)工程師陳宏亮在“2020中國數(shù)據(jù)與存儲(chǔ)峰會(huì)——新基建與數(shù)字化論壇”上發(fā)表主題演講,與英特爾、紫晶存儲(chǔ)、慧點(diǎn)科技以及InterSystems等演講嘉賓,從專業(yè)角度出發(fā),共同探討新基建機(jī)遇下如何加速賦能產(chǎn)業(yè)應(yīng)用,提升企業(yè)數(shù)字化能力。陳宏亮闡述了新基建背景下的新存儲(chǔ)需求,結(jié)合業(yè)務(wù)場(chǎng)景對(duì)騰訊云多年打磨的CFS進(jìn)行了介紹,并深入分析了CFS在新基建中的具體應(yīng)用。
騰訊云存儲(chǔ)高級(jí)工程師陳宏亮
新基建的含義?
新基建也就是說新型基礎(chǔ)設(shè)施建設(shè),相對(duì)于舊基建其主要包括5G計(jì)算建設(shè)、特高壓、城際高速鐵路、新能源汽車充電樁、大數(shù)據(jù)中心、人工智能、工業(yè)互聯(lián)網(wǎng)等領(lǐng)域,涉及諸多的產(chǎn)業(yè)鏈,以新發(fā)展為引領(lǐng),以技術(shù)創(chuàng)新為驅(qū)動(dòng),信息網(wǎng)絡(luò)為基礎(chǔ),面向高質(zhì)量發(fā)展需要提供技術(shù)轉(zhuǎn)型、職能升級(jí)、容量創(chuàng)新等服務(wù)的基礎(chǔ)設(shè)施體系。
新基建技術(shù)中最核心的資產(chǎn)就是數(shù)據(jù),物聯(lián)網(wǎng)讓采集的數(shù)據(jù)種類和數(shù)量越來越多,5G讓數(shù)據(jù)傳輸?shù)乃俾试絹碓娇?,云?jì)算在不斷地對(duì)數(shù)據(jù)進(jìn)行計(jì)算處理,AI在不斷地挖掘數(shù)據(jù)的價(jià)值。這些技術(shù)連接的關(guān)鍵紐帶便是存儲(chǔ),在新基建的推動(dòng)下,存儲(chǔ)可以說是推動(dòng)產(chǎn)業(yè)向高端化發(fā)展的一個(gè)剛需,為此新基建需要新的存儲(chǔ)。
新存儲(chǔ)有哪幾個(gè)重要特征?
第一個(gè)是海量存儲(chǔ)的可持續(xù)高效存儲(chǔ)。第二是海量數(shù)據(jù)的高效管理。第三是海量數(shù)據(jù)的一個(gè)價(jià)值挖掘。面對(duì)如此龐大的信息存儲(chǔ)量和可預(yù)見性的數(shù)據(jù)增長量,新的存儲(chǔ)架構(gòu)必須要考慮的第一個(gè)點(diǎn)就是如何以更高擴(kuò)展性、更高的吞吐、更低的時(shí)延以及更低的性價(jià)比來實(shí)現(xiàn)容量的管理。
首先要有高擴(kuò)展性,滿足因?yàn)闃I(yè)務(wù)量數(shù)據(jù)精細(xì)度提升導(dǎo)致的數(shù)據(jù)量增加以及隨時(shí)擴(kuò)容的需求。其次要有高吞吐、低延時(shí),可以快速讀取跟調(diào)用。當(dāng)然,用戶也是很看重整體方案的性價(jià)比。今天解決了數(shù)據(jù)存儲(chǔ)的問題,對(duì)新基建用戶來說是遠(yuǎn)遠(yuǎn)不夠的,還要進(jìn)一步解決數(shù)據(jù)存儲(chǔ)的管理問題。
數(shù)據(jù)跟人一樣也是有生命周期,從產(chǎn)生到消亡有很多階段。新基建所需要的存儲(chǔ)系統(tǒng)必須要具備生命周期管理的能力,數(shù)據(jù)最終的價(jià)值呈現(xiàn)一定是為應(yīng)用服務(wù)的。人工智能和大數(shù)據(jù)驅(qū)動(dòng)的發(fā)展,驅(qū)動(dòng)數(shù)據(jù)產(chǎn)生更多的應(yīng)用價(jià)值,所以在數(shù)據(jù)的價(jià)值挖掘方面,其中終極需求必須更好地利用人工智能,服務(wù)人工智能,賦能大數(shù)據(jù)人工挖掘。
基于海量的價(jià)值挖掘分析基本上都要依賴于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的人工智能技術(shù)。在人工智能的場(chǎng)景中,數(shù)據(jù)要經(jīng)歷采集、訓(xùn)練、推理、歸檔等國家。人工智能各個(gè)階段對(duì)存儲(chǔ)系統(tǒng)要求差異非常大,采集階段要支持互聯(lián)網(wǎng)原始訪問的協(xié)議,吞吐量非常大。要求系統(tǒng)有高并發(fā)、低時(shí)延的歸檔的能力,而在歸檔的階段則需要低成本的存儲(chǔ)系統(tǒng)。
業(yè)界關(guān)注度頗高的騰訊云文件存儲(chǔ)CFS在關(guān)鍵業(yè)務(wù)應(yīng)用場(chǎng)景中如何發(fā)揮能力?CFS如何以40GB/s高吞吐應(yīng)對(duì)新建下的數(shù)據(jù)挑戰(zhàn)呢?騰訊云主要有哪幾種存儲(chǔ)產(chǎn)品?
COS、CFS和CBS,騰訊推出這三款產(chǎn)品可以滿足各種不同的需要。其中CFS是一個(gè)縮寫,鏈存儲(chǔ),主要是提供文件存儲(chǔ)服務(wù)。CBS即云硬盤,主要提供的是快速的服務(wù)。而COS是云對(duì)象存儲(chǔ),主要提供云對(duì)象存儲(chǔ)的服務(wù)。
下面我們通過對(duì)比的形式介紹這三種產(chǎn)品,產(chǎn)品的規(guī)格、性能以及規(guī)模對(duì)比,主要是以CBS單刻盤、CBS單文件系統(tǒng)以及COS單存儲(chǔ)統(tǒng)一為單位進(jìn)行對(duì)比。在存儲(chǔ)規(guī)模的方面,CFS大文件系統(tǒng)最大支持是20TB存儲(chǔ)上限,COS單盤支持16TB存儲(chǔ)上限,COS則能提供億B級(jí)存儲(chǔ)上限。延時(shí)方面,CFS是在0.3毫秒到20毫秒之間;CBS是在0.2毫秒至5毫秒之間,COS的延時(shí)是根據(jù)網(wǎng)絡(luò)情況而定的。在吞吐方面,CFS大文件系統(tǒng)最大能夠支持40GB/s的上限,SSD云硬盤目前最大能夠支持260兆B的吞吐上限。而COS吞吐主要與用戶互聯(lián)網(wǎng)存儲(chǔ)的帶寬相關(guān),支持海量并發(fā)。在IOPS方面,CFS單文件系統(tǒng)目前最大能夠支持60K的IOPS。而CBS在SSD目前最大能夠支持26K的IOPS。COS主要性能指標(biāo)是QPS,最低目前能支持1.2K的QPS。在訪問量上COS可以達(dá)到數(shù)億的并發(fā)連接,而CFS可以支持?jǐn)?shù)萬的客戶端并發(fā)的訪問。而CBS在并發(fā)訪問上比較受限,在業(yè)務(wù)的網(wǎng)絡(luò)上CFS和CBS主要用在了內(nèi)網(wǎng)上,COS在內(nèi)外網(wǎng)都可以使用。生態(tài)方面COS比較豐富,有數(shù)據(jù)萬象、大數(shù)據(jù)套件、無服務(wù)函數(shù)等。在價(jià)格方面的話,CFS和CBS差不多,CFS超高一些,而COS則比較低廉。
什么是CFS?
CFS是公有云上的NAS存儲(chǔ),幫助用戶解決公有云上的高性能共享存儲(chǔ)的需求,支持容量和性能的在線擴(kuò)展,現(xiàn)有的應(yīng)用無需修改即可直接掛載使用。CFS提供了可擴(kuò)展共享的文件存儲(chǔ)服務(wù),可以與騰訊云云服務(wù)器容器批量計(jì)算等服務(wù)搭配使用。CFS提供了標(biāo)準(zhǔn)的NFS及SMB云間訪問系統(tǒng)的訪問協(xié)議,為其他的計(jì)算服務(wù)提供共享的數(shù)據(jù)源,支持彈性的容量和性能的擴(kuò)展?,F(xiàn)有的應(yīng)用就是無需修改就可以掛載使用,是一個(gè)高可靠的文件系統(tǒng)。
適用于大數(shù)據(jù)分析、媒體處理和內(nèi)容管理等場(chǎng)景。文件存儲(chǔ)接入非常簡(jiǎn)單,用戶無須調(diào)節(jié)自身的結(jié)構(gòu)或者無需進(jìn)行復(fù)雜的配置,需要三步就可以了。第一步創(chuàng)建系統(tǒng),第二步啟動(dòng)服務(wù)器上的文件系統(tǒng)客戶端,第三掛載文件系統(tǒng)即可。
CFS產(chǎn)品優(yōu)勢(shì)主要是四個(gè):集成管理、自動(dòng)擴(kuò)展、安全可靠、成本低。在集中管理方面,CFS可以支持系統(tǒng)數(shù)據(jù)訪問,例如強(qiáng)數(shù)據(jù)一致性和文件鎖定,至于云的計(jì)算資源可以通過NFSB3.0或者是B4.0的協(xié)議來掛載CFS的文件存儲(chǔ)。CFS可以提供控制臺(tái)界面,讓用戶可以創(chuàng)建文件系統(tǒng),可以根據(jù)文件容量的大小,自動(dòng)對(duì)文件系統(tǒng)的存儲(chǔ)容量進(jìn)行拓展,同時(shí)不需要中斷請(qǐng)求和應(yīng)用,確保獨(dú)享所需要的存儲(chǔ)資源的同時(shí),降低管理工作的時(shí)間成本,減輕工作量。
在安全可靠性方面,CFS具有極高的可用性和可靠性,每一個(gè)CFS都有冗余,CFS可以嚴(yán)密控制文件系統(tǒng)的訪問權(quán)限,通過基礎(chǔ)網(wǎng)絡(luò)或者是BPC網(wǎng)絡(luò)的安全組,并搭配權(quán)限組,實(shí)現(xiàn)訪問的權(quán)限控制。在成本低廉方面,CFS可以動(dòng)態(tài)調(diào)節(jié)需求容量,而無需提前調(diào)配存儲(chǔ),用戶只需要按照使用量來付費(fèi),不需要進(jìn)行最低消費(fèi)或者前期部署、后期運(yùn)維的費(fèi)用,動(dòng)態(tài)計(jì)算節(jié)點(diǎn)可以通過NFC共享一個(gè)存儲(chǔ)空間,而無需購買其他的存儲(chǔ)服務(wù),也不需要考慮緩存。
CFS的應(yīng)用情況?
第一個(gè)實(shí)例是HPC計(jì)算下第三代大規(guī)?;驕y(cè)序的應(yīng)用,基因測(cè)序項(xiàng)目需要臨時(shí)的大量計(jì)算和存儲(chǔ)資源執(zhí)行基因測(cè)序,而現(xiàn)行的方案是采用本地的計(jì)算節(jié)點(diǎn),加上商用文件存儲(chǔ)形式?,F(xiàn)行方案最大的特點(diǎn),由于基因測(cè)序?yàn)轫?xiàng)目的一個(gè)形式,項(xiàng)目的一個(gè)周期,大概是幾個(gè)月到半年不等。本地的資源無法滿足這種彈性的客戶要求,采用騰訊云文件存儲(chǔ)CFS,它的優(yōu)勢(shì)在于可以無縫對(duì)接測(cè)試程序,用戶無需額外修改這個(gè)程序。同時(shí),用戶可以按照實(shí)際的使用量來付費(fèi),無需額外付費(fèi),同時(shí)CFS能夠提供超高的一個(gè)吞吐性能,也能夠提供彈性拓展的存儲(chǔ)空間。最終的方案是我們提供300臺(tái)計(jì)算型服務(wù)器CDM的節(jié)點(diǎn),配置32核120G的內(nèi)存,再加上300T文件存儲(chǔ),總計(jì)7個(gè)文件系統(tǒng),每個(gè)文件系統(tǒng)提供500兆每秒的吞吐量。
第二個(gè)案例是廣電行業(yè)視頻處理。需求是視頻處理、分發(fā)、持久化存儲(chǔ)一站式解決方案。IDC機(jī)房計(jì)算節(jié)點(diǎn)+文件存儲(chǔ)設(shè)備。痛點(diǎn)視頻量激增,IDC計(jì)算節(jié)點(diǎn)不足,存儲(chǔ)容量不足,擴(kuò)容運(yùn)維非常復(fù)雜,客戶希望長期保留數(shù)據(jù)。
采用CFS優(yōu)勢(shì)在于它可以提供高吞吐、低延時(shí)用于視頻渲染,同時(shí)可以將用戶希望長期保存的數(shù)據(jù)沉淀在COS中進(jìn)行持久化存儲(chǔ),降低成本。最終的方案在騰訊云的云總機(jī)上部署媒資管理系統(tǒng),同時(shí)使用CFS作為渲染存儲(chǔ)庫,通過COS進(jìn)行分發(fā)。
第三個(gè)案例,動(dòng)畫電影制作。需要執(zhí)行高吞吐、高并發(fā)計(jì)算任務(wù),客戶現(xiàn)行的方案是使用IDC機(jī)房計(jì)算節(jié)點(diǎn)加上商用文件存儲(chǔ)形式,痛點(diǎn)是動(dòng)畫后期渲染IDC計(jì)算節(jié)點(diǎn)不足、存儲(chǔ)性能不足,導(dǎo)致渲染耗時(shí)很長,無法滿足電影按時(shí)上線的需求。采用CFS的優(yōu)勢(shì),騰訊云能夠提供彈性伸縮高吞吐的文件存儲(chǔ),而且也支持標(biāo)準(zhǔn)的NFS協(xié)議,并且可以方便地協(xié)同低成本的計(jì)算實(shí)例。最終的方案,客戶原始素材通過專線上傳到CFS,同時(shí)超過1000+云主機(jī)進(jìn)行渲染作業(yè),客戶峰值吞吐達(dá)到160Gbps,整體時(shí)長降低了28%,保證了電影按時(shí)上線。
第四個(gè)案例,教育行業(yè)AI訓(xùn)練,教育場(chǎng)景是小文件、低延時(shí)??蛻衄F(xiàn)行方案是CVM+自建HDFS+COS?,F(xiàn)行方案的一個(gè)痛點(diǎn)是轉(zhuǎn)碼平臺(tái)原對(duì)接云上自建HDFS,其延時(shí)性能不佳、維護(hù)耗時(shí)。使用CFS的優(yōu)勢(shì)在于CFS可以提供低延時(shí)、高吞吐的云服務(wù),同時(shí)可以很大程度上提升轉(zhuǎn)的碼平臺(tái)的效率。加速模型優(yōu)化,最終的方案也是使用CFS,是無縫替換CFS的集群。
第五個(gè)案例,短視頻訓(xùn)練和推理。該客戶直接采用CFS加COS文案,訓(xùn)練的流程是COS讀取后,在TKE上訓(xùn)練分析,并發(fā)掛載量是幾十個(gè)Node,單文件大小是幾百KB到2MB左右文件,數(shù)量百萬到千萬級(jí)。為了滿足寫吞吐的需求,采用異步操作的模型,從COS預(yù)拉取進(jìn)行系統(tǒng)。讀吞吐峰值可以打滿10GB/s,因此訓(xùn)練模型30分鐘,因此訓(xùn)練過程+模型發(fā)布最短要求為30分鐘??蛻舳耸荊PU,而發(fā)布的流程則是訓(xùn)練完成后將最終的模型存儲(chǔ)到CFS上,業(yè)務(wù)的Pod就需要在最短的時(shí)間內(nèi)完成,并發(fā)掛載量是100以內(nèi)的Pod,文件大小是10GB到30GB之間,讀吞吐的分級(jí)是實(shí)際運(yùn)營的,需要10分鐘以內(nèi)做完,而數(shù)據(jù)的更新頻率是在最短30分鐘時(shí)間內(nèi)發(fā)布模型。
CFS如何在新基建中發(fā)揮作用?
首先是客戶業(yè)務(wù)場(chǎng)景的分析。廣告推薦顧名思義,我們?cè)谑褂闷陂g會(huì)看到各種消費(fèi)的小彈窗、小視頻等等,結(jié)合用戶模型為用戶提供最精準(zhǔn)的廣告,從而提高營銷資金的利用率。CFS參與應(yīng)用廣告推薦的具體業(yè)務(wù)流程主要分為三步。第一步模型發(fā)布,廣告客戶模型在訓(xùn)練中心完成,訓(xùn)練完成之后將模型文件發(fā)布到騰訊云。第二部分是業(yè)務(wù)應(yīng)用獲取模型,客戶在騰訊云上使用了三個(gè)T的云系集群,共計(jì)超過4000node,或者超過8000個(gè),以分擔(dān)業(yè)務(wù)的壓力。這些Pod將幾十GB的數(shù)據(jù)模型全部加載后應(yīng)用才能啟動(dòng)。
第三步是廣告推薦,系統(tǒng)使用模型文件和用戶數(shù)據(jù),為用戶定制廣告推送。這是客戶的一個(gè)廣告業(yè)務(wù)架構(gòu)圖,左邊是廣告推薦訓(xùn)練集群,當(dāng)訓(xùn)練集群推初模型后會(huì)掛載CFS,將模型拷貝到CFS中。上面是客戶在騰訊云線上應(yīng)用集群,大概是2000到8000個(gè)Pod組成不同的多個(gè)集群,分布在北京三個(gè)核心區(qū),這些Pod通過掛載客戶端,從CFS中讀取虛擬集群,生成推理模型數(shù)據(jù)。在業(yè)務(wù)啟動(dòng)時(shí),運(yùn)營程序需要讀取廣告推薦模型的文件。在運(yùn)行的過程中,系統(tǒng)根據(jù)用戶使用數(shù)據(jù)進(jìn)行廣告推薦。
騰訊云通過對(duì)業(yè)務(wù)流程的摸底,了解業(yè)務(wù)的存儲(chǔ)場(chǎng)景、存儲(chǔ)留存以及集成規(guī)模。關(guān)鍵性的含量指標(biāo)包括業(yè)務(wù)的性能需求,客戶容量的需求以及具體模型。CFS解決了特定場(chǎng)景下大文件、大吞吐的難題。
“總而言之,新基建為中國的產(chǎn)業(yè)升級(jí)清晰指明的方向,數(shù)字化技術(shù)廣泛的應(yīng)用以及隨之產(chǎn)生的需求,將帶來數(shù)據(jù)爆發(fā)式增長,海量數(shù)據(jù)蘊(yùn)含著巨大的價(jià)值,存儲(chǔ)作為新基建堅(jiān)實(shí)的支柱。更多樣化的數(shù)據(jù)模式、日益復(fù)雜的數(shù)據(jù)管理,以及高效的數(shù)據(jù)利用對(duì)存儲(chǔ)提出更高的要求,無論對(duì)傳統(tǒng)的吞吐廠商還是創(chuàng)新的吞吐廠商來說,這既是挑戰(zhàn)更是機(jī)遇,”陳宏亮表示。