近兩年,抖音短視頻十分火爆。抖音的大火也給其背后的IT系統(tǒng)帶來了前所未有的挑戰(zhàn),迫使字節(jié)跳動(dòng)公司不得不放棄原有的數(shù)據(jù)中心租賃模式,開始建設(shè)屬于自己的數(shù)據(jù)中心,且速度還要快。
說起“字節(jié)跳動(dòng)”可能大多數(shù)人都不知所云,但如果說“今日頭條”或者“抖音”你一定非常熟悉。今日頭條和抖音只是字節(jié)跳動(dòng)公司旗下兩款最為人所熟知的產(chǎn)品,其他產(chǎn)品還包括西瓜視頻、火山小視頻以及悟空問答等等。
抖音,這個(gè)突然在今年火爆起來的App已經(jīng)成為諸多年輕人打發(fā)時(shí)間的首選。“刷抖音”這句時(shí)髦詞的后背是字節(jié)跳動(dòng)令人驚艷的成績:最新數(shù)據(jù)顯示,抖音在8月的日均視頻播放量超過10億次,日均活躍用戶數(shù)超過1.5億,月度活躍用戶數(shù)超過5億。
視頻上傳需要存儲(chǔ),并進(jìn)行合規(guī)性檢查;視頻播放需要編解碼,這需要消耗大量的計(jì)算資源;用戶體驗(yàn)需要恰當(dāng)?shù)耐扑]系統(tǒng)與CDN……等等,這些都對抖音背后的IT系統(tǒng)帶來了前所未有的挑戰(zhàn)。據(jù)數(shù)據(jù)顯示,字節(jié)跳動(dòng)在2017年初的時(shí)候只有2~3萬臺(tái)服務(wù)器,而今年服務(wù)器數(shù)量一下猛增到17萬臺(tái)。
僅7個(gè)月時(shí)間,字節(jié)跳動(dòng)就在懷來擁有了第一個(gè)屬于自己的數(shù)據(jù)中心,一系列新技術(shù)的采用讓這個(gè)數(shù)據(jù)中心擁有多項(xiàng)頭銜:國內(nèi)首個(gè)大規(guī)模分布式全預(yù)制、國內(nèi)首個(gè)大平層預(yù)制框架結(jié)構(gòu)、國內(nèi)首個(gè)整體電源模塊預(yù)制、國內(nèi)首個(gè)間接蒸發(fā)自然冷卻模塊、國內(nèi)首個(gè)計(jì)算模塊一體化預(yù)制。
先看一段視頻,數(shù)字中國萬里行團(tuán)隊(duì)帶你走進(jìn)頭條數(shù)據(jù)中心,體驗(yàn)身臨其境的感覺:
技術(shù)驅(qū)動(dòng)七個(gè)月提前交付
字節(jié)跳動(dòng)首個(gè)已經(jīng)交付使用的數(shù)據(jù)中心坐落在懷來官廳湖新媒體產(chǎn)業(yè)園。懷來是新能源輸出大縣,70%以上的電能都是水力發(fā)電、風(fēng)能發(fā)電和太陽能發(fā)電產(chǎn)生的清潔能源,但這之中有50%的清潔能源無法上網(wǎng),低廉的電價(jià)對于數(shù)據(jù)中心這種耗電大戶而言,具有莫大的吸引力。
而且,懷來年均氣溫只有6.5度,空氣質(zhì)量也好,利用新風(fēng)散熱有助于降低數(shù)據(jù)中心的PUE值,有效降低數(shù)據(jù)中心的運(yùn)營成本。高效應(yīng)用自然冷卻技術(shù),也是官廳湖新媒體產(chǎn)業(yè)基地的一大特點(diǎn),也是首個(gè)規(guī)模使用間接新風(fēng)制冷技術(shù)的數(shù)據(jù)中心產(chǎn)業(yè)基地。
字節(jié)跳動(dòng)最初規(guī)劃首個(gè)數(shù)據(jù)中心將在9個(gè)月內(nèi)完成,而得益于新媒體產(chǎn)業(yè)基地采用的大平層預(yù)制建筑結(jié)構(gòu)整體規(guī)劃,再加上為了追求快速建設(shè)以滿足字節(jié)跳動(dòng)服務(wù)器規(guī)模高速增長需求,字節(jié)跳動(dòng)采用了一系列新銳技術(shù),如大規(guī)模分布式全預(yù)制、整體電源模塊預(yù)制、間接蒸發(fā)自然冷卻模塊、計(jì)算模塊一體化預(yù)制等等技術(shù),讓一期數(shù)據(jù)中心在7個(gè)月內(nèi)就完成交付使用。
國內(nèi)首個(gè)實(shí)現(xiàn)整體電源模塊預(yù)制數(shù)據(jù)中心
字節(jié)跳動(dòng)數(shù)據(jù)中心采用大量預(yù)制和模塊化產(chǎn)品,體現(xiàn)了數(shù)據(jù)中心高度模塊化的未來發(fā)展趨勢。鋼平臺(tái)底座、變壓器、配電柜、UPS設(shè)備均采用在原廠設(shè)計(jì)、安裝和調(diào)試在20天內(nèi)分批交付,二次系統(tǒng)連接、監(jiān)控系統(tǒng)集成和電源模塊測試可以在7天內(nèi)完成,由40尺集裝箱整體運(yùn)輸?shù)浆F(xiàn)場,施工現(xiàn)場只需連接電纜,拼裝調(diào)試即可交付使用,這個(gè)過程需要十天左右。這一系列的細(xì)節(jié)時(shí)間控制,讓字節(jié)跳動(dòng)數(shù)據(jù)中心刷新了國內(nèi)數(shù)據(jù)中心建設(shè)交付的最短時(shí)間記錄。
據(jù)字節(jié)跳動(dòng)技術(shù)總監(jiān)王劍介紹,2017年12月字節(jié)跳動(dòng)開始在懷來數(shù)據(jù)中心放置服務(wù)器,目前一期園區(qū)約5萬臺(tái)服務(wù)器已經(jīng)投入使用,正在緊鄰一期園區(qū)建設(shè)二期,規(guī)模增加一半但預(yù)計(jì)工期相同,大概能容納9萬臺(tái)服務(wù)器。
字節(jié)跳動(dòng)預(yù)制件與模塊化建設(shè)數(shù)據(jù)中心示意圖數(shù)據(jù)驅(qū)動(dòng)基礎(chǔ)設(shè)施創(chuàng)新
大多數(shù)人對“今日頭條”的印象似乎都是一家泛媒體平臺(tái),但字節(jié)跳動(dòng)則認(rèn)為自己是一家AI(即人工智能)公司,因?yàn)椴还苁墙袢疹^條也好,抖音也好,字節(jié)跳動(dòng)很少自己生產(chǎn)內(nèi)容,而是鼓勵(lì)用戶進(jìn)行創(chuàng)作,并把用戶創(chuàng)作的內(nèi)容推薦給最適宜的用戶群體。
所以字節(jié)跳動(dòng)最核心的系統(tǒng)實(shí)際包括頭條推薦系統(tǒng)與廣告系統(tǒng)、評論系統(tǒng),以及內(nèi)容合規(guī)性審核系統(tǒng),這背后實(shí)際上就是AI技術(shù)在不同領(lǐng)域或場景的應(yīng)用。
比如在在推薦系統(tǒng)里面最核心的就是內(nèi)容推薦算法。用AI去做推薦,是字節(jié)跳動(dòng)重要戰(zhàn)略,目前也是應(yīng)用最廣的技術(shù),不管是今日頭條還是抖音等產(chǎn)品,AI都在里面發(fā)揮著重要作用。使用AI進(jìn)行推薦,需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練才能達(dá)到更好的效果,據(jù)介紹,僅今日頭條一款產(chǎn)品30天的訓(xùn)練模型,其數(shù)據(jù)量就會(huì)超過4PB,而正常訓(xùn)練一個(gè)完整的模型則需要至少一年的數(shù)據(jù)量。而在視頻的合規(guī)性審核方面,字節(jié)跳動(dòng)不但使用計(jì)算機(jī)視覺技術(shù)對視頻圖像進(jìn)行分析,同時(shí)利用語音識(shí)別技術(shù)對音頻進(jìn)行合規(guī)性分析。而這些技術(shù)的大規(guī)模應(yīng)用會(huì)對系統(tǒng)的基礎(chǔ)設(shè)施帶來極大的挑戰(zhàn),比如計(jì)算能力、網(wǎng)絡(luò)帶寬以及存儲(chǔ)性能等等。
隨著字節(jié)跳動(dòng)數(shù)據(jù)中心規(guī)模的擴(kuò)大,服務(wù)器數(shù)量的高速增長,為了最大化資源利用率,字節(jié)跳動(dòng)與Intel公司成立了創(chuàng)新實(shí)驗(yàn)室,全部采用Intel最新的可擴(kuò)展處理器平臺(tái),并根據(jù)不同應(yīng)用場景對軟件堆棧進(jìn)行深層次優(yōu)化。據(jù)介紹,成果非常顯著,能夠?qū)崿F(xiàn)大約30%的能力提升,更好的資源利用率意味著更好的購置成本和運(yùn)營成本節(jié)省。
并且,不管是推薦系統(tǒng),還是審核系統(tǒng),其每天都會(huì)處理海量的數(shù)據(jù),這對底層存儲(chǔ)系統(tǒng)的性能有著苛刻的需求,SSD已經(jīng)成為字節(jié)跳動(dòng)的必然選擇。但并不是說使用SSD就能直接解決問題,尤其NVMe SSD使用,通常會(huì)給計(jì)算、網(wǎng)絡(luò)系統(tǒng)帶來直接的壓力,將原本存儲(chǔ)的性能瓶頸轉(zhuǎn)移到計(jì)算或者網(wǎng)絡(luò)。
為了提升整體系統(tǒng)的綜合性能表現(xiàn),還需要站在更高層次對各個(gè)子系統(tǒng)進(jìn)行系統(tǒng)性優(yōu)化,比如在與Intel的合作中,雙方共同針對人工智能、Cascade Lake,最新64層Nand存儲(chǔ)技術(shù),高速網(wǎng)絡(luò)的產(chǎn)品以及FPGA在不同系統(tǒng)中應(yīng)用進(jìn)行了探索,并與DPDK、SPDK、BigData以及OS kernel等軟件層的優(yōu)化相結(jié)合,取得了極大的進(jìn)展,獲得了極為顯著的成功。
字節(jié)跳動(dòng)所取得的輝煌成績不僅意味著中國互聯(lián)網(wǎng)市場的巨大潛力,同時(shí)也意味著中國數(shù)據(jù)中心技術(shù)的飛速發(fā)展正逐步接近國際領(lǐng)先水平。
字節(jié)跳動(dòng)首個(gè)數(shù)據(jù)中心僅歷時(shí)7個(gè)月時(shí)間就已竣工,實(shí)現(xiàn)國內(nèi)首個(gè)整體電源模塊預(yù)制數(shù)據(jù)中心,足以看出字節(jié)跳動(dòng)高速擴(kuò)張背后的“硬”實(shí)力,同時(shí)也意味著中國數(shù)據(jù)中心技術(shù)的飛速發(fā)展。
(原標(biāo)題:走進(jìn)頭條數(shù)據(jù)中心:高速擴(kuò)張背后的“硬”實(shí)力)