數(shù)據(jù)流(data flow)是麻省理工學(xué)院(MIT)的Jack B.Dennis教授在20世紀(jì)70年代提出的一種計(jì)算機(jī)體系架構(gòu),這在當(dāng)時(shí)是很大膽的想法。此前,馮•諾依曼在1946年提出的以存儲(chǔ)程序和順序執(zhí)行為主要特征的體系結(jié)構(gòu)是人們唯一的選擇。相對(duì)于數(shù)據(jù)流,傳統(tǒng)的體系結(jié)構(gòu)被歸為控制流(control flow)一類。與控制流相比,數(shù)據(jù)流計(jì)算有天然的并行性,這使得它在早期超級(jí)計(jì)算機(jī)的發(fā)展歷史上產(chǎn)生了重要的影響。雖然數(shù)據(jù)流計(jì)算機(jī)至今沒有成為主流,但是在大數(shù)據(jù)時(shí)代,計(jì)算機(jī)有史以來的“以計(jì)算為中心”真正轉(zhuǎn)變成“以數(shù)據(jù)為中心”,數(shù)據(jù)流由于其自身的特點(diǎn)將重新煥發(fā)迷人的魅力。在我們承擔(dān)的國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目“面向異構(gòu)體系結(jié)構(gòu)的高性能分布式數(shù)據(jù)處理技術(shù)與系統(tǒng)”中,數(shù)據(jù)流是最重要的一個(gè)關(guān)鍵詞,從面向用戶的編程模型和工具到大數(shù)據(jù)處理的計(jì)算模型,再到GPU能力的充分發(fā)揮;從計(jì)算機(jī)集群資源管理到分布式緩存等數(shù)據(jù)管理,數(shù)據(jù)流計(jì)算的思想和技術(shù)是貫穿其中的一條主線。通過兩年來的深入研究和比較,尤其是在系統(tǒng)開發(fā)和應(yīng)用實(shí)踐的過程中,項(xiàng)目組對(duì)于數(shù)據(jù)流在大數(shù)據(jù)處理中的應(yīng)用有了較為深刻的認(rèn)識(shí),我們把涉及數(shù)據(jù)流計(jì)算關(guān)鍵技術(shù)的5篇文章匯集成“面向大數(shù)據(jù)處理的數(shù)據(jù)流計(jì)算技術(shù)”專題,以饗讀者,懇請(qǐng)批評(píng)指正。
湖南大學(xué)鄒驍鋒等人將傳統(tǒng)軟件工程的面向數(shù)據(jù)流分析設(shè)計(jì)方法與當(dāng)前流行的大數(shù)據(jù)處理平臺(tái)的數(shù)據(jù)流編程模型的結(jié)構(gòu)定義和模型參考進(jìn)行了比較,給出了面向大數(shù)據(jù)處理的可視化數(shù)據(jù)流編程工具的基本框架和編程模式。
華東師范大學(xué)畢倪飛等人的文章介紹了大數(shù)據(jù)處理中的數(shù)據(jù)流計(jì)算模型,包括用以直觀描述復(fù)雜的數(shù)據(jù)處理邏輯的執(zhí)行引擎層面的數(shù)據(jù)流圖,以及實(shí)現(xiàn)批、流統(tǒng)一處理的統(tǒng)一編程層面的數(shù)據(jù)流編程模型,分析了Spark批處理和Flink流計(jì)算中數(shù)據(jù)流圖和數(shù)據(jù)流編程模型的具體實(shí)現(xiàn)。
西北工業(yè)大學(xué)湯小春等人的文章討論了數(shù)據(jù)流編程模型在大數(shù)據(jù)處理領(lǐng)域應(yīng)用帶來的計(jì)算作業(yè)類型復(fù)雜化的問題,探討了如何保證各種數(shù)據(jù)流計(jì)算作業(yè)對(duì)集群資源的共享使用,研究了數(shù)據(jù)流計(jì)算環(huán)境下的集群資源管理和調(diào)度。
東北大學(xué)袁旭初等人的文章討論了數(shù)據(jù)流計(jì)算環(huán)境下的數(shù)據(jù)緩存問題。在Google Dataflow、Flink、Spark、TensorFlow等異構(gòu)/分布式數(shù)據(jù)流計(jì)算系統(tǒng)中,算子和數(shù)據(jù)不再統(tǒng)一存在于單機(jī)內(nèi)存,容易造成數(shù)據(jù)堆積或者算子閑置等問題。設(shè)計(jì)面向數(shù)據(jù)流的緩存系統(tǒng),通過消息隊(duì)列系統(tǒng)進(jìn)行支持是未來的方向之一。
國(guó)防科技大學(xué)蘇華友等人的文章從數(shù)據(jù)流模型的角度分析了英偉達(dá)GPU的體系結(jié)構(gòu)以及CUDA編程模型,闡述了數(shù)據(jù)流模型在GPU軟硬件系統(tǒng)中的應(yīng)用,并分析了如何將數(shù)據(jù)流計(jì)算思想和GPU應(yīng)用于大數(shù)據(jù)處理。
面向大數(shù)據(jù)處理的數(shù)據(jù)流計(jì)算技術(shù)具有廣闊的發(fā)展前景。以上5篇文章自頂向下系統(tǒng)地介紹了數(shù)據(jù)流計(jì)算的關(guān)鍵技術(shù),可以建構(gòu)支持大數(shù)據(jù)分布式處理的全棧式數(shù)據(jù)流計(jì)算框架。但由于本專題篇幅有限,難以涵蓋數(shù)據(jù)流計(jì)算技術(shù)的各個(gè)方面,期待通過分享我們的基本認(rèn)識(shí)和實(shí)踐經(jīng)驗(yàn),推動(dòng)數(shù)據(jù)流計(jì)算技術(shù)在大數(shù)據(jù)應(yīng)用領(lǐng)域更深入地開發(fā)和應(yīng)用。
作者簡(jiǎn)介
周傲英(1965-),男,博士,華東師范大學(xué)副校長(zhǎng)、“智能+”研究院院長(zhǎng)、數(shù)據(jù)科學(xué)與工程學(xué)院教授?,F(xiàn)任第七屆國(guó)務(wù)院學(xué)位委員會(huì)學(xué)科評(píng)議組成員,中國(guó)計(jì)算機(jī)學(xué)會(huì)會(huì)士,上海市計(jì)算機(jī)學(xué)會(huì)副理事長(zhǎng),《計(jì)算機(jī)學(xué)報(bào)》《大數(shù)據(jù)》期刊副主編。曾入選“長(zhǎng)江學(xué)者計(jì)劃”特聘教授,曾獲國(guó)家杰出青年基金項(xiàng)目資助,主要研究方向?yàn)閿?shù)據(jù)庫、數(shù)據(jù)管理、數(shù)據(jù)驅(qū)動(dòng)的計(jì)算教育學(xué),以及教育科技(EduTech)、物流科技(LogTech)等基于數(shù)據(jù)的應(yīng)用科技 。
于戈(1962-),男,博士,東北大學(xué)計(jì)算機(jī)學(xué)院教授、博士生導(dǎo)師,中國(guó)計(jì)算機(jī)學(xué)會(huì)會(huì)士?,F(xiàn)任中國(guó)計(jì)算機(jī)學(xué)會(huì)信息系統(tǒng)專業(yè)委員會(huì)主任、數(shù)據(jù)庫專業(yè)委員會(huì)委員、系統(tǒng)軟件專業(yè)委員會(huì)委員,《計(jì)算機(jī)學(xué)報(bào)》《軟件學(xué)報(bào)》《計(jì)算機(jī)研究與發(fā)展》等期刊編委。曾獲得“教育部跨世紀(jì)人才基金”和“中國(guó)高校青年教師獎(jiǎng)”。主要研究方向?yàn)榉植际綌?shù)據(jù)庫系統(tǒng)、數(shù)據(jù)科學(xué)與大數(shù)據(jù)管理、區(qū)塊鏈技術(shù)與應(yīng)用等 。
大數(shù)據(jù)期刊
《大數(shù)據(jù)(Big Data Research,BDR)》雙月刊是由中華人民共和國(guó)工業(yè)和信息化部主管,人民郵電出版社主辦,中國(guó)計(jì)算機(jī)學(xué)會(huì)大數(shù)據(jù)專家委員會(huì)學(xué)術(shù)指導(dǎo),北京信通傳媒有限責(zé)任公司出版的期刊,已成功入選中文科技核心期刊、中國(guó)計(jì)算機(jī)學(xué)會(huì)會(huì)刊、中國(guó)計(jì)算機(jī)學(xué)會(huì)推薦中文科技期刊,并被評(píng)為2018年國(guó)家哲學(xué)社會(huì)科學(xué)文獻(xiàn)中心學(xué)術(shù)期刊數(shù)據(jù)庫“綜合性人文社會(huì)科學(xué)”學(xué)科最受歡迎期刊。