數(shù)據(jù)中心運維時人與機器誰重要?阿里巴巴和騰訊高管展開辯論

HMC智能未來
人工智能(AI),機器學習(ML),大數(shù)據(jù)和其他增強學習技術如何在數(shù)據(jù)中心中應用?機器和人類如何合作管理基礎設施?

人工智能(AI),機器學習(ML),大數(shù)據(jù)和其他增強學習技術如何在數(shù)據(jù)中心中應用?機器和人類如何合作管理基礎設施?

6月25日,DCD數(shù)據(jù)中心國際峰會上海站在上海中心大廈舉行。針對上述議題的一場分論壇中,騰訊和阿里巴巴的高管分別對這一議題給出了不同的詮釋。

騰訊數(shù)據(jù)中心研發(fā)總監(jiān)岳上對騰訊研發(fā)的智能化管理數(shù)據(jù)中心軟件平臺——騰訊智維平臺做出了介紹,解釋了騰訊如何利用新技術管理巨大數(shù)據(jù),并保證數(shù)據(jù)準確性。阿里基礎設施一體化架構師汪剛則表示,在數(shù)據(jù)中心的運維中,AI只是手段,在梳理數(shù)據(jù)邏輯時,人起到的作用更大。

目前,騰訊智維管理了騰訊內(nèi)部約80個數(shù)據(jù)中心,超過百萬臺服務器設備。如今,騰訊的數(shù)據(jù)中心測點數(shù)超過600萬,每分鐘可收集千萬條現(xiàn)場數(shù)據(jù)、150G視頻數(shù)據(jù),從80個數(shù)據(jù)中心上送到平臺上,騰訊智維就是基于這些數(shù)據(jù)進行著管理工作。

談到具體實踐時,岳上介紹,騰訊在保證數(shù)據(jù)準確性上從五個方面入手。

1.測點側,監(jiān)控MDC測點接入率;2.網(wǎng)絡側,通過技術手段,自動識別問題并判斷根因,進而自動切換或者人工干預;3.視頻側,實時檢查視頻參數(shù)、視頻格式和碼率,發(fā)現(xiàn)問題及時告警;4.服務器側,一旦服務器進風溫度異常,及時告警;5.異常數(shù)值,對數(shù)值做了合理區(qū)間設定,系統(tǒng)算出異常值會預警開發(fā)者。

汪剛則認為,在數(shù)據(jù)中心的運維中,AI只是手段。“并不是說在一個數(shù)據(jù)中心里布點越多、數(shù)據(jù)越多就越好。在梳理數(shù)據(jù)邏輯時,人起到的作用更大。”

汪剛向參會觀眾介紹:“業(yè)界講AI有時會把AI當作一個目的,但它只是一個手段,更重要的是數(shù)據(jù)。在使用機器學習和AI等技術之前,首先要明確數(shù)據(jù)是為了解決什么問題,數(shù)據(jù)來源是否準確。”

汪剛介紹,在采集數(shù)據(jù)之后,怎么把數(shù)據(jù)邏輯梳理清楚非常重要。數(shù)據(jù)中心運維過程中會出現(xiàn)假報警的情況,這種情況數(shù)據(jù)可能本身是準確的,但對場景的解釋是有錯誤的。通過邏輯把報假警的情況輸送到機器學習之前提前剔除,機器學習的效率會提高很多。

汪剛總結道:“所以并不是說在一個數(shù)據(jù)中心里布點越多、數(shù)據(jù)越多就越好,把邏輯梳理清楚,明白在什么關鍵的地方布什么點,傳感器得到的數(shù)據(jù)才是對你來說最好的,這里面比起機器學習,人起到的作用更大。”

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論