邦盛科技王海漫:等保2.0時(shí)代政務(wù)信息安全保護(hù)與網(wǎng)絡(luò)自動(dòng)化攻擊防御

信息化觀察網(wǎng)
張楠
我們前后研究過10多個(gè)網(wǎng)絡(luò)爬蟲危害的領(lǐng)域,雖表現(xiàn)形式各不一樣,但是本質(zhì)都一樣,網(wǎng)絡(luò)爬蟲防范思路有共性特點(diǎn),總結(jié)下來需要在兩個(gè)方面發(fā)力。

日前,首屆中國(guó)電子政務(wù)安全大會(huì)在北京成功召開。本次大會(huì)由中國(guó)信息協(xié)會(huì)主辦,信息化觀察網(wǎng)、國(guó)潤(rùn)互聯(lián)信息技術(shù)研究院、中國(guó)信息協(xié)會(huì)傳媒中心承辦。邦盛科技合伙人王海漫受邀出席大會(huì),并發(fā)表了題為《等保2.0時(shí)代政務(wù)信息安全保護(hù)與網(wǎng)絡(luò)自動(dòng)化攻擊防御》主題演講。

邦盛科技合伙人王海漫

以下是根據(jù)大會(huì)現(xiàn)場(chǎng)演講內(nèi)容實(shí)錄:

20年前已經(jīng)有爬蟲了,不是新的東西,最早是黑客利用爬蟲來做拖庫、撞庫,成功之后把數(shù)據(jù)竊取在市場(chǎng)上轉(zhuǎn)賣,用來謀取利益。后來慢慢發(fā)展,有一些學(xué)生,也編制一個(gè)爬蟲放到網(wǎng)上,爬蟲論文相關(guān)的文章,完成自己的學(xué)業(yè)。學(xué)生畢業(yè)之后人走了,但是爬蟲留下了,所以互聯(lián)網(wǎng)爬蟲越來越多。慢慢發(fā)展出現(xiàn)了網(wǎng)上的黃牛黨,傳統(tǒng)黃牛在線下做,因?yàn)檎?wù)信息的公開,各種政府部門推出便民的舉措,像網(wǎng)上售票、網(wǎng)上掛號(hào)、網(wǎng)上自動(dòng)售賣等等,黃牛利用爬蟲在網(wǎng)上爬取數(shù)據(jù),謀取利益。直到四五年前,發(fā)展到數(shù)據(jù)的爬蟲,利用爬蟲爬取個(gè)人數(shù)據(jù)。

政府部門是爬蟲最大的受害方,這里有很多數(shù)字,政府組織每年遭受外部攻擊的次數(shù)都會(huì)達(dá)到700多億次,占整個(gè)行業(yè)受攻擊的比例是1/3,每天受到兩億次的攻擊,日高峰可以達(dá)到10億次。今年隨著等保2.0,主動(dòng)防御寫入法規(guī),互聯(lián)網(wǎng)和信息安全到了新的時(shí)代,我們必須用新的手段,新的方法來做信息安全的防護(hù)。

這是2018年上半年統(tǒng)計(jì)的數(shù)字,我們看到政府最受爬蟲關(guān)注的就是人民法院的公告,被執(zhí)行人的信息,都是大數(shù)據(jù)公司、信貸公司、征信公司所關(guān)注的,判決的案例也是律師事務(wù)所所關(guān)注的。所以這塊是占了整個(gè)爬蟲占比的50%,接下來是醫(yī)院專家掛號(hào)的號(hào)源,然后知識(shí)產(chǎn)權(quán),公積金等等,這些都是爬蟲關(guān)注的重點(diǎn)。

接下來會(huì)有三個(gè)案例跟大家分享一下,爬蟲在三個(gè)不同的行業(yè)是如何利用技術(shù)手段來做的。

第一個(gè)社保公積金的數(shù)據(jù)被爬,傳統(tǒng)都是登陸公積金的官網(wǎng)查社保數(shù)據(jù),這幾年因?yàn)榫€上授信業(yè)務(wù)發(fā)展,這部分?jǐn)?shù)據(jù)非常有價(jià)值,有很多公司做了一些APP,全國(guó)大概有上千種這樣的APP,通過廣告的手段,誘使社會(huì)大眾使用這個(gè)APP來查。這里的問題在于一次性授權(quán)這些公司,他在后臺(tái)就把你的帳號(hào)密碼存下來。全國(guó)有一家最大的APP,已經(jīng)積累了2200萬公積金的賬戶,背后是很大的。最大的危害是數(shù)據(jù)泄露的問題。

第二個(gè)黃牛在線哄搶稀缺資源,主要是掛號(hào)這塊。大家去過醫(yī)院,大家都知道,過去傳統(tǒng)黃牛都是在線下,雇一些人在醫(yī)院,有了爬蟲的工具,有了線上網(wǎng)絡(luò)掛號(hào)服務(wù)之后,他們?cè)诰W(wǎng)上手動(dòng)掛號(hào),現(xiàn)在利用搶號(hào)軟件,也就是爬蟲,本來大的醫(yī)院是提供了利用互聯(lián)網(wǎng)手段,給社會(huì)大眾提供一個(gè)很好的服務(wù)的手段,結(jié)果這些服務(wù)手段被社會(huì)上一些人利用來作為他自己謀利的手段,如果政務(wù)部門防控手段不能跟上,當(dāng)初的初心就沒有辦法實(shí)現(xiàn)。這里利用爬蟲,影響了社會(huì)公平性的問題,包括12306,都很難搶到票。

第三個(gè)工商名稱登記系統(tǒng)遭到攻擊,有過公司注冊(cè)的人都知道,公司注冊(cè)有一個(gè)環(huán)節(jié)是公司的名字要做名稱核驗(yàn),我們起公司名字的時(shí)候也有很多選擇,但是很多名字到工商登記系統(tǒng)一核實(shí),都被人家注冊(cè)過了,全國(guó)有很多公司名字都是相像的。這里有一家公司就想到一個(gè)辦法,用爬蟲把能想到最常用公司的名字,通過各種組合,組合出幾十萬種,批量的登錄工商登記系統(tǒng)去核實(shí),整理出來一些可用的公司的名稱的名單,向外提供服務(wù),一千塊錢,你到我這來,我直接告訴你可用的名字是哪些。這也是爬蟲使用的方式,這種和前者比危害性小一些,但是帶來的問題是工商名稱登記系統(tǒng)工作量負(fù)荷太大,運(yùn)維非常自立,而且需要不斷增加體系。

我們了解了爬蟲的衍生之后,我們看一下爬蟲對(duì)安全帶來的威脅以及防范的思路??偨Y(jié)一下有五類危害,第一種就是它會(huì)虛耗服務(wù)器資源,網(wǎng)絡(luò)資源,數(shù)據(jù)庫連接數(shù)量的資源,后面案例會(huì)有分享如何解決。第二個(gè)導(dǎo)致系統(tǒng)不穩(wěn)定,運(yùn)維的壓力大。第三個(gè)數(shù)據(jù)的泄露。第四個(gè)破壞公平,無論是購火車票還是醫(yī)院掛號(hào),因?yàn)榕老x的存在,我們的人是沒法跟他比,所以是不公平。第四個(gè)因?yàn)閿?shù)據(jù)的第三方爬蟲數(shù)據(jù),或者泄露數(shù)據(jù),導(dǎo)致老百姓不知道問題在哪里,政府部門的問題還是誰的問題,所以導(dǎo)致政府名譽(yù)受損。

怎么做防范?防范的思路跟傳統(tǒng)防范黑客攻擊的思路是完全不一樣的,因?yàn)榫W(wǎng)絡(luò)爬蟲具有這樣的特點(diǎn)。第一個(gè)訪問就是正常的訪問,只不過不是人的訪問,是一個(gè)軟件機(jī)器訪問,基本就像正常人,獲取數(shù)據(jù)。第二個(gè)數(shù)據(jù)包不做任何改造,不具備特征。第三個(gè)行為特點(diǎn),目標(biāo)很精準(zhǔn),今天認(rèn)準(zhǔn)了某個(gè)的網(wǎng)站,社保或者醫(yī)保網(wǎng)站,會(huì)持續(xù)的做,你今天識(shí)別它,他明天偽裝又來了。第四個(gè)傳統(tǒng)的思路是沒法去防范的,必須有新的思路,新的方法來防范。

這里總結(jié)了三個(gè)案例,政務(wù)客戶是如何防范網(wǎng)絡(luò)爬蟲的。第一個(gè)湖南某三甲醫(yī)院,首先爬蟲的防范,或者是做任何安全,都不能單純的依賴于技術(shù),必須從業(yè)務(wù)和技術(shù)兩塊一起做判斷。第一個(gè)掛號(hào)就診,要用實(shí)名制,這樣給黃牛黨制造困難。第二個(gè)剛開始會(huì)有積分,不良行為扣幾分,最后限制你掛號(hào)。第三個(gè)有人退號(hào)之后,或者自己先占了號(hào),自己退號(hào)之后,兩小時(shí)之內(nèi)隨機(jī)釋放號(hào),增加爬蟲獲取號(hào)的難度。第五個(gè)退號(hào)或者是退回票,扣你手續(xù)費(fèi),增加欺詐成本。這是業(yè)務(wù)層面上考慮。技術(shù)層面上考慮,增加IP運(yùn)維,加到黑名單里。第二個(gè)依賴于今天眾多公司提供的深度網(wǎng)絡(luò)安全的解決方案,大部分過去都是被動(dòng)的網(wǎng)絡(luò)安全解決方案。

第二個(gè)案例公積金如何防范第三方軟件的網(wǎng)絡(luò)爬蟲,也是業(yè)務(wù)層面到技術(shù)層面,過去公積金的查詢登陸沒有驗(yàn)證,現(xiàn)在慢慢開始出現(xiàn)了,未來公積金也會(huì)做實(shí)名驗(yàn)證。技術(shù)層面上,跟現(xiàn)在倡導(dǎo)的應(yīng)該差不多,除了密碼、驗(yàn)證碼最基本的防護(hù)之外,采用先進(jìn)的識(shí)別組織系統(tǒng)。

第三個(gè)12306的案例,我們?cè)?017年跟鐵路總公司的計(jì)算處,用爬蟲智能系統(tǒng)幫它解決了驗(yàn)證碼的問題。業(yè)務(wù)層面也是跟前面講到的一樣,落實(shí)實(shí)名購票,實(shí)名乘車,每個(gè)賬戶聯(lián)系人有限制,不能買多少張票,占票多長(zhǎng)時(shí)間要支付。每天退票次數(shù)不能超過3次,每天在8:00-18:00中間的15個(gè)時(shí)間點(diǎn)逐步放新票。

總結(jié)一下網(wǎng)絡(luò)爬蟲的防范思路,一定在業(yè)務(wù)層面和技術(shù)層面,兩手都要抓,而且都要做好。業(yè)務(wù)層面是依據(jù)不同的行業(yè),不同的業(yè)務(wù)制定不同的策略,技術(shù)上四個(gè)角度越來越高級(jí),第一個(gè)借助人工,列入黑名單,一旦列入黑名單可以阻斷。第二個(gè)安全防御要做好,第三個(gè)驗(yàn)證碼,這是做基本的防御,第四個(gè)利用先進(jìn)的技術(shù)區(qū)別正常人和網(wǎng)絡(luò)機(jī)器人。

邦盛的解決方案正是基于這樣的技術(shù)手段來做的爬蟲的實(shí)時(shí)防范。這樣的體系依賴先進(jìn)的技術(shù)做的。

第一個(gè)支撐技術(shù)是流立方,2017年底獲得了教育部的科技進(jìn)步一等獎(jiǎng),我們能支持低延時(shí),高并發(fā)。我們的技術(shù)之所以可以這么做到這么好,我們基于三個(gè)層面的創(chuàng)新做的,第一個(gè)理論創(chuàng)新,技術(shù)創(chuàng)新,持續(xù)處理技術(shù),數(shù)據(jù)的錄制,快速得到指標(biāo),這里有7項(xiàng)相關(guān)舉措。

第二個(gè)設(shè)備指紋,我們要第一時(shí)間能識(shí)別主動(dòng)抓取設(shè)備相關(guān)的信息,這個(gè)信息是絕對(duì)合規(guī)的,不涉及到任何個(gè)人的隱私,比如說都是設(shè)備的CPU的型號(hào),操作系統(tǒng)版本號(hào),瀏覽器版本號(hào),分辨率等等,結(jié)合網(wǎng)絡(luò)環(huán)境信息,基于這些信息生成設(shè)備唯一的指紋,目前這個(gè)技術(shù)在國(guó)內(nèi)應(yīng)用非常廣。

第三個(gè)人機(jī)識(shí)別,可以基于訪問,有沒有鼠標(biāo)軌跡,鼠標(biāo)點(diǎn)擊有沒有模式,是不是精準(zhǔn)的點(diǎn)擊某一個(gè)點(diǎn),還是非常有規(guī)律的在一個(gè)圖形的范圍之內(nèi)分布這些點(diǎn),這些都是網(wǎng)絡(luò)機(jī)器人和爬蟲和正常人的點(diǎn)擊鼠標(biāo)的不同,這些都能識(shí)別。

第四個(gè)關(guān)鍵技術(shù)是人工智能機(jī)器學(xué)習(xí),積累了海量數(shù)據(jù)之后,通過人工智能技術(shù)做模型,我前面也提到對(duì)抗,尤其跟爬蟲對(duì)抗是持續(xù)的,基于數(shù)據(jù)驅(qū)動(dòng)模型,不斷提升模型,不斷識(shí)別新的爬蟲,提升反爬蟲的能力,提高爬蟲跟我們對(duì)抗的成本,成本太高的時(shí)候他就放棄了。

掌握了IP地址,設(shè)備指紋,帳號(hào),就可以有很多規(guī)則。比如爬蟲公司設(shè)備都是有限的,掌握一臺(tái)設(shè)備,訪問的次數(shù),這個(gè)設(shè)備和帳號(hào),無論是公積金帳號(hào)還是醫(yī)保帳號(hào),最多關(guān)聯(lián)幾個(gè),可以從這些規(guī)則做防范。

我們分云端和本地化部署,在云端設(shè)備指紋,防御工作模型都在云端。這是智能防御的儀表盤,針對(duì)IP維度做分析,爬蟲使用的設(shè)備訪問量做分析,全國(guó)24是爬蟲地圖等等都有,這是更細(xì)化一點(diǎn)的分析,機(jī)器人、網(wǎng)絡(luò)詳情、地區(qū)等等都是可以做的。

最后一部分分享一下案例,這是我們做的12306購票系統(tǒng),過去12306是依照驗(yàn)證碼,或者模糊的圖片的驗(yàn)證碼來做防范的,最早初衷也是為了保證不被攻擊。我們?cè)?017年跟鐵路總公司汽車所一起合作,部署積極防御系統(tǒng),成功把驗(yàn)證碼拿掉了,在支撐春運(yùn)期間每天最高達(dá)到1500億的訪問,最大TPS達(dá)到180萬,99%的延時(shí)控制在1ms以內(nèi),擋住了機(jī)器黃牛請(qǐng)求。兩個(gè)春運(yùn),數(shù)個(gè)小長(zhǎng)假,黃金周的考驗(yàn),目前在穩(wěn)定運(yùn)行。

另外一個(gè)案例,浙江省工商局案例,工商局在2017年有升級(jí)的項(xiàng)目,要上政務(wù)公有云,最早的時(shí)候配置是16臺(tái)虛擬機(jī),上政務(wù)公有云之后訪問量從每天70萬PV,一下升到1200萬,整個(gè)服務(wù)一度中斷,用了事中控制,阻斷開關(guān)打開之后,每天訪問量一下從1200萬降到100萬,1100萬都是簡(jiǎn)單的爬蟲,100萬里面還有70萬被驗(yàn)證碼識(shí)別,所以真實(shí)的人的訪問量是很少的,達(dá)到的效果,后來把虛擬機(jī)從16臺(tái)降到8臺(tái),足夠支撐技術(shù)穩(wěn)定的運(yùn)行。無論是從公平性上,數(shù)據(jù)防護(hù)上,到運(yùn)維上,效果還是非常顯著的。

下面介紹下邦盛公司,我們是2010年成立的,我們背靠浙江大學(xué)給我們很多技術(shù)的支持,這也是為什么整個(gè)技術(shù)在業(yè)界都能非常領(lǐng)先,我們也在銀行第三方支付、政務(wù)類的都有上百家的客戶。最后是落地客戶的案例,前面講到的工商到公積金,到生態(tài)環(huán)境,到杭州市的住房保障管理局,基本上涵蓋了各個(gè)不同的政務(wù)部門。

我今天的演講就到這里,謝謝大家。

(本文是邦盛科技合伙人王海漫在首屆中國(guó)電子政務(wù)安全大會(huì)上的的演講內(nèi)容實(shí)錄,略有刪減,未經(jīng)本人確認(rèn)。)

THEEND