大數(shù)據(jù)軟件產(chǎn)品研發(fā)進(jìn)展及挑戰(zhàn)

明日情報(bào)
目前,大數(shù)據(jù)產(chǎn)品無論是在形態(tài)、關(guān)系上,還是在應(yīng)用的領(lǐng)域上,已經(jīng)發(fā)展成為一個龐大而復(fù)雜的生態(tài)系統(tǒng)?!洞髷?shù)據(jù)軟件產(chǎn)品研發(fā)進(jìn)展及挑戰(zhàn)》從目前大數(shù)據(jù)的核心技術(shù)展開論述,結(jié)合當(dāng)前中國大數(shù)據(jù)產(chǎn)品的現(xiàn)狀,闡述了其所面臨的問題和挑戰(zhàn)。

雖然中國大數(shù)據(jù)產(chǎn)品和解決方案眾多,但是仍然存在很大的挑戰(zhàn)。在產(chǎn)品方面,國產(chǎn)大數(shù)據(jù)產(chǎn)品核心技術(shù)仍然沒有實(shí)現(xiàn)自主,從業(yè)人員的開源社區(qū)參與度很低;在市場方面,中國大數(shù)據(jù)產(chǎn)品還需要進(jìn)一步針對細(xì)分市場改進(jìn);在人才方面,具備獨(dú)立工作能力的跨專業(yè)復(fù)合型人才十分稀缺;在產(chǎn)業(yè)方面,圍繞大數(shù)據(jù)、軟件、半導(dǎo)體等領(lǐng)域的協(xié)同創(chuàng)新機(jī)制還需進(jìn)一步培育。

目前,大數(shù)據(jù)產(chǎn)品無論是在形態(tài)、關(guān)系上,還是在應(yīng)用的領(lǐng)域上,已經(jīng)發(fā)展成為一個龐大而復(fù)雜的生態(tài)系統(tǒng)?!洞髷?shù)據(jù)軟件產(chǎn)品研發(fā)進(jìn)展及挑戰(zhàn)》從目前大數(shù)據(jù)的核心技術(shù)展開論述,結(jié)合當(dāng)前中國大數(shù)據(jù)產(chǎn)品的現(xiàn)狀,闡述了其所面臨的問題和挑戰(zhàn)。

大數(shù)據(jù)產(chǎn)品的核心技術(shù)

數(shù)據(jù)管理和數(shù)據(jù)分析技術(shù)是大數(shù)據(jù)產(chǎn)品的兩大核心技術(shù)。

1、數(shù)據(jù)管理技術(shù)

數(shù)據(jù)是信息的存儲,而信息通過媒介傳播,大數(shù)據(jù)概念的誕生,背后反映了新媒介的發(fā)展。在數(shù)據(jù)管理技術(shù)的早期,占統(tǒng)治地位的是關(guān)系數(shù)據(jù)庫技術(shù)。隨著新的數(shù)字化技術(shù)發(fā)展,一系列以非關(guān)系數(shù)據(jù)庫為基礎(chǔ)的大數(shù)據(jù)技術(shù)應(yīng)運(yùn)而生,這些數(shù)據(jù)庫被統(tǒng)稱為NoSQL數(shù)據(jù)庫。

NoSQL的縮寫通常被理解為“不僅是SQL(not only SQL)”,和傳統(tǒng)關(guān)系數(shù)據(jù)庫相比具有更高的性能、更好的可擴(kuò)展性和容錯性以及應(yīng)用開發(fā)更靈活的優(yōu)勢。公認(rèn)的一些NoSQL數(shù)據(jù)庫包括:鍵值數(shù)據(jù)庫、寬列數(shù)據(jù)庫、文檔數(shù)據(jù)庫、內(nèi)容存儲、搜索引擎、圖數(shù)據(jù)庫、資源描述數(shù)據(jù)庫、時間序列數(shù)據(jù)庫、面向?qū)ο蟮臄?shù)據(jù)庫。

NoSQL數(shù)據(jù)庫的蓬勃發(fā)展并未宣告?zhèn)鹘y(tǒng)關(guān)系數(shù)據(jù)庫技術(shù)的終結(jié),受大量傳統(tǒng)關(guān)系數(shù)據(jù)庫用戶的需求驅(qū)動,NewSQL數(shù)據(jù)庫的概念應(yīng)運(yùn)而生。主要有3種技術(shù)流派:基于NoSQL技術(shù)體系發(fā)展而來的、基于傳統(tǒng)關(guān)系數(shù)據(jù)庫引擎改進(jìn)而來的分布式版本和完全自行研發(fā)的產(chǎn)品。

2、大數(shù)據(jù)分析框架

在大數(shù)據(jù)存儲技術(shù)突破的同時,數(shù)據(jù)分析技術(shù)也伴隨著發(fā)展起來。在互聯(lián)網(wǎng)環(huán)境下,數(shù)據(jù)分析的工作重點(diǎn)從以往孤立的研究存儲如何分布、計(jì)算任務(wù)如何分布,轉(zhuǎn)向研究如何根據(jù)數(shù)據(jù)的特點(diǎn)有效將計(jì)算任務(wù)分布到計(jì)算節(jié)點(diǎn)上,進(jìn)而直接完成分析。

在這個過程中,開源軟件社區(qū)起到了關(guān)鍵性的作用,比較有代表性的分析框架如:面向批處理的Hadoop項(xiàng)目,Spark項(xiàng)目,面向流處理的Kafka項(xiàng)目,Storm項(xiàng)目和Flink項(xiàng)目等。

批處理和流處理分析框架的提出,為分布式計(jì)算提供了可操作性的途徑,改變了以往以單一節(jié)點(diǎn)為基礎(chǔ)實(shí)施數(shù)據(jù)分析的工作方式。一些分析庫,例如機(jī)器學(xué)習(xí)庫Mahout、機(jī)器學(xué)習(xí)庫MLlib和面向圖計(jì)算的Pregel、GraphX等,將傳統(tǒng)的統(tǒng)計(jì)分析、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的算法進(jìn)行改進(jìn),以便充分發(fā)揮分布式計(jì)算集群的效能。

近年來,通過深度神經(jīng)網(wǎng)絡(luò)算法在圖像識別、語音視頻和自然語言理解領(lǐng)域大放異彩,谷歌、亞馬遜、百度等大型互聯(lián)網(wǎng)公司紛紛推出自己的深度學(xué)習(xí)算法庫。

中國大數(shù)據(jù)產(chǎn)品現(xiàn)狀

縱觀大數(shù)據(jù)各項(xiàng)關(guān)鍵技術(shù)的現(xiàn)狀可以看到,現(xiàn)在技術(shù)的發(fā)展呈現(xiàn)出一片欣欣向榮的局面,從積極的角度看,每項(xiàng)大數(shù)據(jù)技術(shù)各自解決了非常明確的問題。但如何針對某個特定業(yè)務(wù)需求構(gòu)建個性化的大數(shù)據(jù)系統(tǒng),仍然是各行業(yè)面臨的挑戰(zhàn),在國內(nèi)這個局面表現(xiàn)得非常突出。

目前中國市場上的大數(shù)據(jù)產(chǎn)品可以分為基礎(chǔ)類產(chǎn)品、數(shù)據(jù)管理類產(chǎn)品、分析應(yīng)用類產(chǎn)品以及解決方案類產(chǎn)品。

中國大數(shù)據(jù)產(chǎn)品發(fā)展面臨的挑戰(zhàn)

1、開源成為推動大數(shù)據(jù)核心技術(shù)發(fā)展的主導(dǎo)力量

從核心技術(shù)層面上看,雖然中國的大數(shù)據(jù)產(chǎn)品繁多,但是仔細(xì)觀察,這些產(chǎn)品的底層技術(shù)仍然是國外開源社區(qū)主導(dǎo)。之所以開源會成為大數(shù)據(jù)技術(shù)的發(fā)源地,筆者認(rèn)為,大數(shù)據(jù)軟件不直接面向用戶解決問題,在開發(fā)人者群體內(nèi)得到認(rèn)可是決定其生存發(fā)展的重要因素,通過開源拉低門檻,不僅可以限制同類產(chǎn)品低水平競爭,而且可以加快技術(shù)在全球范圍的開發(fā)者社區(qū)的傳播,進(jìn)一步促進(jìn)了其成熟,一旦最終成為事實(shí)標(biāo)準(zhǔn),開發(fā)者的使用習(xí)慣就固定了。

國內(nèi)目前的主流觀點(diǎn)很難理解開源社區(qū)的這種強(qiáng)調(diào)免費(fèi)和運(yùn)營的文化背后的邏輯,所以從理念上無法接受這種做法,再加上語言和文化差異,就更難融入國際開源社區(qū)的工作中,這已經(jīng)成為中國大數(shù)據(jù)發(fā)展的挑戰(zhàn)。

2、具備大數(shù)據(jù)技術(shù)的復(fù)合型人才培養(yǎng)困難

人才方面,則是中國發(fā)展大數(shù)據(jù)技術(shù)面臨的另一個挑戰(zhàn)。由于大數(shù)據(jù)系統(tǒng)自身的復(fù)雜性遠(yuǎn)超以往的軟件產(chǎn)品,加上數(shù)據(jù)的規(guī)模日益龐大,大數(shù)據(jù)系統(tǒng)管理員、大數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家等崗位分工愈發(fā)精細(xì),國內(nèi)市場對具備大數(shù)據(jù)運(yùn)維能力的人才缺口很大,高端人才目前仍然集中在處于頭部的互聯(lián)網(wǎng)公司,而傳統(tǒng)行業(yè)需要同時具備行業(yè)理解和大數(shù)據(jù)分析能力、能夠獨(dú)立分析問題人才,很難以通過簡單引進(jìn)方式完成人才隊(duì)伍建設(shè)。國外的頂尖大學(xué)已經(jīng)開始圍繞這一市場需求提供教育產(chǎn)品,國內(nèi)目前還處于起步狀態(tài)。

3、中國市場對大數(shù)據(jù)產(chǎn)品的需求差異顯著

需求側(cè)角度觀察,中國大數(shù)據(jù)產(chǎn)品的用戶對大數(shù)據(jù)產(chǎn)品的用途理解上仍然存在很大的差距,有的公司在大數(shù)據(jù)產(chǎn)品的運(yùn)用水平上已經(jīng)達(dá)到國際先進(jìn),可以熟練使用數(shù)據(jù)技術(shù)驅(qū)動業(yè)務(wù)的發(fā)展;處于第二梯隊(duì)的用戶,能做到運(yùn)用大數(shù)據(jù)技術(shù)解決已有的問題;更多行業(yè)的企業(yè)在采集數(shù)據(jù)的層面上還處于起步階段;中國大數(shù)據(jù)產(chǎn)品的研發(fā)者還需要進(jìn)一步深耕市場,更多關(guān)照處于不同發(fā)展階段的細(xì)分市場的用戶需求。

4、底層技術(shù)的協(xié)同創(chuàng)新機(jī)制尚未形成

從發(fā)展路徑上看,導(dǎo)致大數(shù)據(jù)技術(shù)持續(xù)創(chuàng)新的底層邏輯與芯片、軟件技術(shù)的突破密切相關(guān)。中國大數(shù)據(jù)核心技術(shù)還面臨尚未形成跨領(lǐng)域的協(xié)同創(chuàng)新的挑戰(zhàn),從體制機(jī)制上看半導(dǎo)體、軟件、數(shù)據(jù)及工業(yè)之間還是各自為戰(zhàn)的狀態(tài),并未形成配合的局面。雖然短期內(nèi)可能可以在大數(shù)據(jù)核心技術(shù)上實(shí)現(xiàn)局部性突破,但是長期來看,一旦底層技術(shù)隨著應(yīng)用發(fā)生變化,例如智能芯片、5G或者操作系統(tǒng),這些優(yōu)勢也會被迅速瓦解。

THEEND

最新評論(評論僅代表用戶觀點(diǎn))

更多
暫無評論