毫不夸張地說,數(shù)據(jù)中心是一個企業(yè)業(yè)務(wù)運營的神經(jīng)中樞,它對于提升企業(yè)競爭力與運營效率具有至關(guān)重要的作用。如今,隨著人工智能時代的到來,傳統(tǒng)的數(shù)據(jù)中心也在不斷的發(fā)生演變,人工智能技術(shù)正在不斷的融入到數(shù)據(jù)中心之中。
一方面是數(shù)據(jù)中心如何基于海量數(shù)據(jù),利用人工智能的技術(shù),進一步去優(yōu)化數(shù)據(jù)中心的運營;另個方面是數(shù)據(jù)中心會越來越多地去承載大數(shù)據(jù)的業(yè)務(wù),去承載人工智能訓(xùn)練的場景以及人工智能應(yīng)用的場景,在這個場景下數(shù)據(jù)中心自身需要去適應(yīng)新的智能化業(yè)務(wù)的需求。
智能化數(shù)據(jù)中心發(fā)展的三部曲
在中國電信北京研究院副總工程師楊明川看來,智能化的數(shù)據(jù)中心的發(fā)展可以被歸納為三個階段。
在當(dāng)前階段,除了傳統(tǒng)的以CPU為核心的數(shù)據(jù)中心外,還要考慮人工智能的需求,比如:建設(shè)CPU和GPU聯(lián)合的資源池以及建設(shè)開展面向邊緣計算場景的FPGA等計算的資源池。在這一過程中,AI驅(qū)動的數(shù)據(jù)中心節(jié)能、AI驅(qū)動的計算、存儲和網(wǎng)絡(luò)的自動化優(yōu)化和智慧運營以及AI驅(qū)動的巡檢機器人等等,特別是在面向運營商特有的NFV場景中的一些故障的監(jiān)測、排除等,這些都是當(dāng)前的智能化數(shù)據(jù)中心正在面臨的新需求、新挑戰(zhàn)。
到了下一個階段,則會提出更高的統(tǒng)一和融合化的需求,包括邊緣和核心的統(tǒng)一以及AI和各個系統(tǒng)的融合、標(biāo)準(zhǔn)化和物聯(lián)網(wǎng)化。尤其是未來整個數(shù)據(jù)中心在邊緣,甚至在邊緣的設(shè)備和邊緣的數(shù)據(jù)中心之間,它們進一步的統(tǒng)一和融合,也是未來我們需要重點考慮的地方。
而在最終階段,則是希望能夠?qū)崿F(xiàn)完全自動化的數(shù)據(jù)中心。
四方面助力智能化數(shù)據(jù)中心建設(shè)
對于運營商來講,現(xiàn)在這個階段去構(gòu)建智能化的數(shù)據(jù)中心也面臨著很多的挑戰(zhàn),包括在基礎(chǔ)設(shè)施層面的改造、如何去適應(yīng)人工智能和大數(shù)據(jù)一些新的業(yè)務(wù)需求、怎么提供更豐富的API接口以及更多的數(shù)據(jù)存儲。
對此,中國電信正在積極思考在未來智能化的數(shù)據(jù)中心里可以做一些什么樣的探索。“我所在的中國電信北京研究院做了一些嘗試,主要包括四大方面。”楊明川講到。
首先,第一個方面是智能化的數(shù)據(jù)中心節(jié)能技術(shù)。很多專家也都講過在物理基礎(chǔ)設(shè)施層面,可以開展很多節(jié)能方面的技術(shù)研發(fā),引入很多節(jié)能相關(guān)的設(shè)備,從而降低我們數(shù)據(jù)中心的能耗。
針對此,楊明川主要介紹了一個純軟件的方法,它的思路是對數(shù)據(jù)中心尤其是云數(shù)據(jù)中心的服務(wù)器資源進行調(diào)度,也就是說我們更多是考慮服務(wù)器在承載業(yè)務(wù)時,隨著業(yè)務(wù)需求的變化,怎么通過人工智能的方法去預(yù)測這些服務(wù)器資源使用的效率以及未來的負(fù)荷,進而通過智能化的調(diào)度來使得部分的服務(wù)器休眠得以降低其能耗。
“這里面我們需要大量的數(shù)據(jù)采集,從數(shù)據(jù)中心里面去采集各種各樣的包括從云主機、物理主機、能源消耗、業(yè)務(wù)變化層面上的各種各樣的數(shù)據(jù),然后去構(gòu)建基于深度學(xué)習(xí)的預(yù)測模型,使得我們能夠通過動態(tài)負(fù)載調(diào)整去降低能耗。”楊明川說。
據(jù)悉,中國電信已經(jīng)在幾個省公司做了智能化節(jié)能的嘗試,在這個過程中中國電信也采用了一些漸進式的方案,當(dāng)前已經(jīng)能夠在無人值守下實現(xiàn)節(jié)能。平均下來大概能實現(xiàn)20-30%的節(jié)能,而且對于云數(shù)據(jù)中心還能有更大的能源節(jié)省空間。
第二個方面的案例是服務(wù)器定制,服務(wù)器定制和智能化數(shù)據(jù)中心的演進是一脈相承的。其中,中國電信早期定制的是整機柜的服務(wù)器、單機的服務(wù)器,到2015、2016年則是超融合的定制化的服務(wù)器,以及低功耗的定制服務(wù)器。在2017年考慮的主要是ServerSAN領(lǐng)域的定制服務(wù)器、NFV的定制化服務(wù)器以及面向人工智能的GPU定制化服務(wù)器。今年,中國電信又拓展新的領(lǐng)域,比如說針對邊緣機房條件定制的服務(wù)器。
楊明川表示:“隨著數(shù)據(jù)中心業(yè)務(wù)的發(fā)展,服務(wù)器層面必須要適應(yīng)相應(yīng)的變化,開展新的類型的服務(wù)器定制工作。這塊工作和ODCC的工作是相互配合、相互促進的。”
第三個方面則是在數(shù)據(jù)中心里構(gòu)建人工智能的PaaS平臺,這塊工作目前主要是在中國電信的云計算實驗室做一些嘗試。面向人工智能的PaaS平臺有兩類:一類是面向公有云的,一類是面向行業(yè)的。
目前,中國電信已經(jīng)搭建了一個面向AI的能力中臺的基礎(chǔ)架構(gòu)。這個面向人工智能AI的PaaS平臺,在面向一些行業(yè)的智能化解決方案里就能夠去發(fā)揮作用,使得以AI為核心的行業(yè)解決方案成為可能。
第四個方面則是AI輔助智能運維。當(dāng)前,原有的運維方式正面臨很多挑戰(zhàn),比如:虛擬化之后的IT架構(gòu),跨計算、存儲、網(wǎng)絡(luò)的端到端運維工具,容器、微服務(wù)和虛擬化的應(yīng)用,以及多廠商集成等問題。
中國電信正在嘗試去構(gòu)建一個AI智能輔助運維系統(tǒng),研究如何從數(shù)據(jù)感知層面、故障診斷層面、故障預(yù)測和故障自愈層面,如何能夠更加充分的運用大數(shù)據(jù)、人工智能的技術(shù),使得整個數(shù)據(jù)中心的運維工作更加智能化、自動化。
當(dāng)然,數(shù)據(jù)中心智能化的道路剛剛開始,未來還有大量的工作,業(yè)界都需要進一步研究和進一步合作,相信未來的數(shù)據(jù)中心能夠具有更高的智能。
(原標(biāo)題:智能化的數(shù)據(jù)中心到底該如何建設(shè)?)