作者為南通大學(xué)電子信息學(xué)院、江蘇商貿(mào)職業(yè)學(xué)院電子與信息學(xué)院專家蔡艷婧,南通大學(xué)電子信息學(xué)院專家王強(qiáng),南通大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院專家程實(shí)。本篇節(jié)選自論文《基于分布式集群的網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)分析平臺(tái)構(gòu)建》,發(fā)表于《中國(guó)電子科學(xué)研究院學(xué)報(bào)》第14卷第1期。
摘 要:傳統(tǒng)網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺(tái),缺乏大數(shù)據(jù)分析能力,無法挖掘和管理用戶網(wǎng)絡(luò)瀏覽行為,分析效率較低,具有一定的局限性。構(gòu)建基于分布式集群的網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)分析平臺(tái),平臺(tái)總體結(jié)構(gòu)由視圖層、控制層、服務(wù)層、數(shù)據(jù)持久化層和數(shù)據(jù)層構(gòu)成,使用分布式存儲(chǔ)系統(tǒng)HDFS與分布式計(jì)算系統(tǒng)Spark組成的分布式集群存儲(chǔ)和管理網(wǎng)絡(luò)瀏覽行為產(chǎn)生的數(shù)據(jù),通過數(shù)據(jù)上傳流程將海量網(wǎng)絡(luò)瀏覽數(shù)據(jù)源存儲(chǔ)到分布式存儲(chǔ)系統(tǒng)HDFS中,在Spark分布集群內(nèi)運(yùn)算數(shù)據(jù)挖掘任務(wù),利用決策樹ID3算法準(zhǔn)確挖掘網(wǎng)絡(luò)瀏覽行為。實(shí)驗(yàn)結(jié)果說明,所設(shè)計(jì)平臺(tái)各項(xiàng)功能符合預(yù)期結(jié)果,平臺(tái)進(jìn)行數(shù)據(jù)源管理、用戶行為分析的整體響應(yīng)時(shí)間比基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺(tái)低508.25ms、836.5ms,說明所設(shè)計(jì)平臺(tái)具有較高的網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)分析效率。
關(guān)鍵詞:分布式集群;網(wǎng)絡(luò);瀏覽行為;大數(shù)據(jù)分析;決策樹;數(shù)據(jù)管理
1 引言
隨著互聯(lián)網(wǎng)快速發(fā)展,用戶利用網(wǎng)絡(luò)技術(shù)可體驗(yàn)到多樣化、高速率的網(wǎng)絡(luò)服務(wù)[1]。互聯(lián)網(wǎng)中的用戶呈現(xiàn)爆炸式增長(zhǎng),用戶在網(wǎng)絡(luò)上產(chǎn)生海量的數(shù)據(jù),構(gòu)建大數(shù)據(jù)分析平臺(tái)能夠從大量數(shù)據(jù)中分析出用戶上網(wǎng)的共性與個(gè)性特征,挖掘用戶上網(wǎng)內(nèi)容偏好等行為習(xí)慣規(guī)律[2],提升網(wǎng)絡(luò)資源配置。完整、高效的大數(shù)據(jù)分析平臺(tái)為大數(shù)據(jù)運(yùn)用提供一站式基本服務(wù)[3],對(duì)實(shí)現(xiàn)網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)的準(zhǔn)確分析具有重要意義。
文獻(xiàn)[4]基于大數(shù)據(jù)處理技術(shù)的AIS應(yīng)用研究,采用彈性數(shù)據(jù)規(guī)律提取,結(jié)合數(shù)據(jù)庫(kù)進(jìn)行高倍率數(shù)據(jù)比對(duì),安裝了時(shí)間控制模型用以達(dá)到實(shí)時(shí)特征比對(duì)的目的。只利用彈性數(shù)據(jù)集構(gòu)建分布式數(shù)據(jù)庫(kù)實(shí)現(xiàn)AIS數(shù)據(jù)分析,無法實(shí)時(shí)滿足大數(shù)據(jù)分析需求,不能挖掘出網(wǎng)絡(luò)瀏覽行為。
文獻(xiàn)[5]基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析系統(tǒng)模型,為了便于人們的交流,控制互聯(lián)網(wǎng)在輿論上的負(fù)面壓力,根據(jù)輿論關(guān)鍵字設(shè)計(jì)輿論數(shù)據(jù)概念和搜索模型,模型采用線性回歸算法,結(jié)合赫爾博斯轉(zhuǎn)換對(duì)離散數(shù)據(jù)進(jìn)行線性回歸,結(jié)合模型中各個(gè)功能,對(duì)用戶所需要的數(shù)據(jù)進(jìn)行匹配,最終完成輿論數(shù)據(jù)的分析。該方法只針對(duì)大數(shù)據(jù)技術(shù)處理網(wǎng)絡(luò)輿情數(shù)據(jù)進(jìn)行初步探索,缺乏大數(shù)據(jù)挖掘過程,分析網(wǎng)絡(luò)瀏覽行為存在一定的局限性。
文獻(xiàn)[6]提出大數(shù)據(jù)環(huán)境下的分布式數(shù)據(jù)流處理關(guān)鍵技術(shù),根據(jù)數(shù)據(jù)容錯(cuò)算法,分析系統(tǒng)的容錯(cuò)性,找到數(shù)據(jù)流的關(guān)鍵檢索內(nèi)容,對(duì)數(shù)據(jù)特征進(jìn)行線性和非線性的提取,結(jié)合時(shí)間管理模型,幫助系統(tǒng)做到實(shí)時(shí)反饋。對(duì)于子系統(tǒng)功能結(jié)合AHP分層評(píng)價(jià),求出其系統(tǒng)性能判定系數(shù),及時(shí)進(jìn)行邏輯修復(fù)。最后結(jié)合白化權(quán)算法,對(duì)數(shù)據(jù)特征進(jìn)行權(quán)重,從而完成實(shí)時(shí)、持續(xù)的數(shù)據(jù)計(jì)算,從而完成分布式數(shù)據(jù)流的處理技術(shù)。只分析分布式數(shù)據(jù)流處理技術(shù),同樣缺乏數(shù)據(jù)的挖掘和管理過程,分析網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)效果差。
為解決上述問題,本文構(gòu)建基于分布式集群的網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)分析平臺(tái),提高網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)分析的效率。
2基于分布式集群的網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)分析平臺(tái)
2.1平臺(tái)總體結(jié)構(gòu)設(shè)計(jì)
構(gòu)建的基于分布式集群的網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)分析平臺(tái)的結(jié)構(gòu)用圖1描述。
圖1平臺(tái)架構(gòu)圖
所構(gòu)建平臺(tái)層次結(jié)構(gòu)分明,針對(duì)大量用戶網(wǎng)絡(luò)瀏覽行為產(chǎn)生數(shù)據(jù)實(shí)施存儲(chǔ)與管理問題,平臺(tái)使用分布式存儲(chǔ)系統(tǒng)HDFS與分布式計(jì)算系統(tǒng)Spark組成的分布式集群。圖1描述平臺(tái)架構(gòu)圖分為五層,分別為:
(1)視圖層:將用戶請(qǐng)求操作發(fā)送至前端Web界面再發(fā)送至控制層,由前端Web界面呈現(xiàn)用戶請(qǐng)求操作結(jié)果。視圖層調(diào)用Echarts插件對(duì)數(shù)據(jù)概況和挖掘結(jié)果分別使用折線圖和柱狀圖等方式呈現(xiàn)給用戶,能夠直接了解用戶網(wǎng)絡(luò)瀏覽行為分析的數(shù)據(jù)結(jié)果。
(2)控制層:視圖層將數(shù)據(jù)上傳、清洗等請(qǐng)求發(fā)送到控制層??刂茖邮占晥D層用戶操作信息與數(shù)據(jù),再發(fā)送到服務(wù)層處理,同時(shí)接收服務(wù)層處理后的結(jié)果,將結(jié)果反饋到視圖層呈現(xiàn)在前端。控制層由四個(gè)模塊組成:采用數(shù)據(jù)管理控制模塊解決前端數(shù)據(jù)管理場(chǎng)景中數(shù)據(jù)上傳和數(shù)據(jù)清洗等相關(guān)請(qǐng)求,分析前端的文件名與文件流,調(diào)用數(shù)據(jù)管理服務(wù)模塊將數(shù)據(jù)上傳到HDFS中,這一過程為數(shù)據(jù)上傳請(qǐng)求;通過用戶特征分析控制模塊管理前端用戶網(wǎng)絡(luò)瀏覽行為特征,分析場(chǎng)景中數(shù)據(jù)多維與相關(guān)性等請(qǐng)求;采用數(shù)據(jù)挖掘計(jì)算控制模塊控制數(shù)據(jù)挖掘任務(wù)中分類分析的創(chuàng)建任務(wù),以及實(shí)施任務(wù)的生命周期,管理前端挖掘計(jì)算場(chǎng)景相關(guān)請(qǐng)求并調(diào)用數(shù)據(jù)挖掘計(jì)算服務(wù)模塊實(shí)現(xiàn)具體操作;利用用戶分群分析控制模塊管理前端用戶分群分析操作請(qǐng)求,并調(diào)用用戶分群分析服務(wù)模塊實(shí)現(xiàn)具體操作。
(3)服務(wù)層:管理控制層請(qǐng)求,依據(jù)控制層請(qǐng)求對(duì)應(yīng)的數(shù)據(jù)模型完成相關(guān)操作。數(shù)據(jù)模型的增減查改操作由服務(wù)層中對(duì)應(yīng)的四個(gè)服務(wù)模塊控制;Hadoop與Spark分布式集群的計(jì)算能力由服務(wù)層中兩個(gè)管理模塊與兩個(gè)腳本模塊調(diào)配使用,處理異步化的具體情況為:采用任務(wù)狀態(tài)管理模塊管理Hadoop與Spark任務(wù)創(chuàng)建與結(jié)果查詢等的生命周期;通過任務(wù)腳本管理模塊處理任務(wù)腳本信息與類型等對(duì)應(yīng)的不同分布式服務(wù),出現(xiàn)新的分布式服務(wù)時(shí)只需在任務(wù)腳本管理模塊直接注冊(cè)即可;為能夠讓用戶實(shí)時(shí)了解服務(wù)模塊的管理步驟,得到異步操作的目標(biāo),采用多線程把腳本發(fā)送至集群Spakk分布式集群中分析。
(4)數(shù)據(jù)持久化層:增減改查數(shù)據(jù)方式和封裝數(shù)據(jù)持久化方式通過Hibernate完成,確保數(shù)據(jù)模型映射到數(shù)據(jù)庫(kù)內(nèi)。
(5)數(shù)據(jù)層:在HDFS內(nèi)存儲(chǔ)用戶的網(wǎng)絡(luò)瀏覽數(shù)據(jù)源,在MySQL數(shù)據(jù)庫(kù)內(nèi)存儲(chǔ)特征數(shù)據(jù)與業(yè)務(wù)數(shù)據(jù),數(shù)據(jù)層管理HDFS和MySQL數(shù)據(jù)的存儲(chǔ)過程。使用HDFS分布式文件系統(tǒng)存儲(chǔ)海量網(wǎng)絡(luò)用戶瀏覽數(shù)據(jù)的數(shù)據(jù)源。特征數(shù)據(jù)庫(kù)利用MySQL緩存數(shù)據(jù)的統(tǒng)計(jì)分析挖掘運(yùn)算結(jié)果,將用戶網(wǎng)絡(luò)瀏覽數(shù)據(jù)狀況等相關(guān)內(nèi)容直接呈現(xiàn)在前端。
2.2 平臺(tái)動(dòng)態(tài)流程設(shè)計(jì)
以數(shù)據(jù)源上傳與數(shù)據(jù)挖掘計(jì)算為例,詳細(xì)介紹平臺(tái)的動(dòng)態(tài)流程。
(1)數(shù)據(jù)上傳流程設(shè)計(jì)
平臺(tái)把數(shù)據(jù)源上傳至HDFS內(nèi)的過程則是數(shù)據(jù)源上傳,該過程實(shí)現(xiàn)了海量網(wǎng)絡(luò)瀏覽數(shù)據(jù)源的存儲(chǔ)。平臺(tái)利用多線程方法和任務(wù)狀態(tài)管理模塊控制文件上傳任務(wù)的生命周期,減少文件上傳時(shí)I/O堵塞情況。圖2描述了數(shù)據(jù)源上傳流程圖。
圖2 數(shù)據(jù)源上傳流程圖
圖2描述的數(shù)據(jù)源上傳流程為:通過Web前端獲取用戶發(fā)出數(shù)據(jù)上傳請(qǐng)求的數(shù)據(jù)源文件;為得到數(shù)據(jù)上傳請(qǐng)求內(nèi)的文件名等參數(shù),管理控制層的數(shù)據(jù)管理控制模塊上傳數(shù)據(jù)請(qǐng)求,并調(diào)用服務(wù)層的數(shù)據(jù)管理服務(wù)模塊實(shí)施上傳;任務(wù)狀態(tài)管理模塊同數(shù)據(jù)管理服務(wù)模塊間的數(shù)據(jù)傳遞完成數(shù)據(jù)上傳任務(wù),并將上傳請(qǐng)求成功的結(jié)果返回控制層;文件狀態(tài)為上傳中時(shí),視圖層呈現(xiàn)出反饋成功的結(jié)果,由數(shù)據(jù)管理控制模塊轉(zhuǎn)換為json格式,用戶通過Web前端了解到該數(shù)據(jù)源的文件名、狀態(tài)等信息。
(2)數(shù)據(jù)挖掘計(jì)算流程設(shè)計(jì)
平臺(tái)使用數(shù)據(jù)挖掘計(jì)算功能,可以讓用戶直接在Web頁(yè)面通過決策樹方式挖掘數(shù)據(jù)。用戶為獲取可視化結(jié)果,選取已完成的數(shù)據(jù)源,利用數(shù)據(jù)挖掘與填入算法的參數(shù),在Spark分布集群內(nèi)運(yùn)算數(shù)據(jù)挖掘任務(wù)。平臺(tái)利用異步實(shí)施方式,提高用戶體驗(yàn)與平臺(tái)易用性。平臺(tái)管理用戶提交的數(shù)據(jù)挖掘任務(wù)信息,由前端頁(yè)面呈現(xiàn)該任務(wù)的實(shí)時(shí)情況,分布式聚類運(yùn)算由異步任務(wù)調(diào)用Spark,并在后臺(tái)運(yùn)算,任務(wù)完成后便可查看任務(wù)結(jié)果。圖3描述數(shù)據(jù)挖掘計(jì)算流程圖。
圖3 數(shù)據(jù)挖掘計(jì)算流程圖
分析圖3可得,數(shù)據(jù)源列表在前端頁(yè)面呈現(xiàn)的情況為:用戶進(jìn)入數(shù)據(jù)挖掘計(jì)算頁(yè)面后,數(shù)據(jù)源列表是由數(shù)據(jù)挖掘計(jì)算控制模塊對(duì)數(shù)據(jù)挖掘計(jì)算服務(wù)模塊發(fā)起請(qǐng)求,通過任務(wù)狀態(tài)管理模塊從業(yè)務(wù)數(shù)據(jù)庫(kù)中獲取數(shù)據(jù)源信息,并將該信息逐層返回到前端;用戶選取已存在數(shù)據(jù)源并點(diǎn)擊下一步,平臺(tái)支持的聚類算法信息列表由數(shù)據(jù)挖掘計(jì)算控制模塊對(duì)數(shù)據(jù)挖掘計(jì)算服務(wù)模塊發(fā)出請(qǐng)求,聚類算法的類型、參數(shù)列表等信息可從業(yè)務(wù)數(shù)據(jù)庫(kù)內(nèi)獲取,并逐層返回到前端;用戶選取與填寫對(duì)應(yīng)的算法與參數(shù),將聚類計(jì)算任務(wù)提交到數(shù)據(jù)挖掘計(jì)算控制模塊內(nèi),數(shù)據(jù)挖掘計(jì)算服務(wù)模塊接收挖掘計(jì)算控制模塊的任務(wù)請(qǐng)求,將任務(wù)信息通過挖掘計(jì)算服務(wù)模塊加入業(yè)務(wù)數(shù)據(jù)庫(kù)內(nèi);聚類計(jì)算任務(wù)由挖掘計(jì)算服務(wù)模塊調(diào)用任務(wù)狀態(tài)管理模塊實(shí)施,聚類計(jì)算任務(wù)完成的結(jié)果發(fā)送至控制層;當(dāng)前用戶能夠在頁(yè)面了解到聚類任務(wù)名稱、類型等信息。
2.3 平臺(tái)實(shí)現(xiàn)
2.3.1平臺(tái)數(shù)據(jù)管理實(shí)現(xiàn)
平臺(tái)具有數(shù)據(jù)管理功能,通過數(shù)據(jù)上傳功能能確保用戶上傳數(shù)據(jù)集到分布式系統(tǒng)HDFS中,數(shù)據(jù)管理在Web頁(yè)面內(nèi)查詢對(duì)應(yīng)信息,數(shù)據(jù)文件上傳、數(shù)據(jù)文件刪除、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分布特征統(tǒng)計(jì)組成數(shù)據(jù)管理,因篇幅有限,平臺(tái)描述了服務(wù)層中每個(gè)模塊中類的交互與調(diào)用關(guān)系,如圖4描述,上傳數(shù)據(jù)文件過程中,服務(wù)層數(shù)據(jù)源服務(wù)模塊管理用戶選取本地要上傳的數(shù)據(jù)文件,數(shù)據(jù)文件在Web頁(yè)面內(nèi),用戶將上傳數(shù)據(jù)任務(wù)請(qǐng)求發(fā)送到數(shù)據(jù)層,分析得到相關(guān)參數(shù)。
圖4 數(shù)據(jù)上傳
分析圖4數(shù)據(jù)上傳圖可得:HDFS接收用戶通過Web前端請(qǐng)求的上傳數(shù)據(jù),請(qǐng)求上傳數(shù)據(jù)源利用控制層數(shù)據(jù)源管理控制模塊調(diào)用服務(wù)層中SourceSvr類的uploadSource方式,上傳數(shù)據(jù)名稱等參數(shù);source實(shí)例是將要上傳的數(shù)據(jù)源,其由SourceSvr類的uploadSource方式初步形成,且業(yè)務(wù)數(shù)據(jù)庫(kù)內(nèi)接收更新的source,數(shù)據(jù)源名稱、上傳用戶等構(gòu)成記錄數(shù)據(jù)源的信息;平臺(tái)使用Hadoop類中增添upload方式調(diào)用HDFS內(nèi)的API,將數(shù)據(jù)上傳到HDFS中,通過Hadoop實(shí)例完成數(shù)據(jù)上傳;業(yè)務(wù)數(shù)據(jù)庫(kù)內(nèi)接收任務(wù)信息持久化、規(guī)劃上傳任務(wù)時(shí)間和狀態(tài)等信息、上傳數(shù)據(jù)任務(wù)由SourceSvr類調(diào)用JobManage類submitJob方式實(shí)現(xiàn)。
2.3.2網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)挖掘?qū)崿F(xiàn)
平臺(tái)通過決策樹算法準(zhǔn)確挖掘網(wǎng)絡(luò)瀏覽行為,決策樹算法能夠準(zhǔn)確挖掘海量數(shù)據(jù)中的易解析形式。決策樹能夠作為數(shù)值型數(shù)據(jù)與非數(shù)值型數(shù)據(jù)存在。決策樹ID3算法分析節(jié)點(diǎn)的檢測(cè)屬性由最大信息增益屬性決定,通過各網(wǎng)絡(luò)瀏覽行為檢測(cè)屬性已知值建立決策樹的分支,根節(jié)點(diǎn)屬性的各值都是一個(gè)子集,將該步驟規(guī)劃遞歸地使用在各子樹中,實(shí)現(xiàn)子集內(nèi)元素為同類后停止規(guī)劃,形成網(wǎng)絡(luò)瀏覽行為決策樹。(公式推算略)
3 實(shí)驗(yàn)分析
實(shí)驗(yàn)為了檢測(cè)所構(gòu)建平臺(tái)的有效性,對(duì)所構(gòu)建平臺(tái)的功能與性能進(jìn)行測(cè)試,詳細(xì)過程為:
3.1環(huán)境部署
構(gòu)建硬件環(huán)境中,所構(gòu)建平臺(tái)利用7臺(tái)設(shè)備為E5-2620V3 CUP、128G內(nèi)存和1TB硬盤的聯(lián)想服務(wù)器構(gòu)建底層分布式集群。HDFS分布式文件系統(tǒng)、Yarn分布式資源管理和Spark分布式集群部署在底層分布式集群內(nèi),在7臺(tái)服務(wù)器內(nèi)選取1臺(tái)服務(wù)器為主節(jié)點(diǎn),剩余6臺(tái)服務(wù)器為從節(jié)點(diǎn)。在構(gòu)建軟件環(huán)境內(nèi)選取適用性較高的軟件。
3.2 平臺(tái)功能測(cè)試
平臺(tái)功能測(cè)試由界面邏輯和整體結(jié)構(gòu)兩點(diǎn)出發(fā),檢測(cè)用例依據(jù)平臺(tái)要求撰寫,實(shí)驗(yàn)詳細(xì)研究所構(gòu)建平臺(tái)的功能,分析所構(gòu)建平臺(tái)的數(shù)據(jù)源上傳、數(shù)據(jù)預(yù)處理以及聚類分析功能的實(shí)際結(jié)果能否達(dá)到預(yù)期效果。
實(shí)驗(yàn)檢驗(yàn)所構(gòu)建平臺(tái)能否成功向HDFS反饋數(shù)據(jù)管理模塊內(nèi)數(shù)據(jù)集,數(shù)據(jù)源上傳功能測(cè)試用例由表1所示。
表1數(shù)據(jù)源上傳功能測(cè)試用例
實(shí)驗(yàn)檢驗(yàn)數(shù)據(jù)預(yù)處理功能經(jīng)過所構(gòu)建平臺(tái)的數(shù)據(jù)清洗能否達(dá)到規(guī)定條件,數(shù)據(jù)預(yù)處理功能測(cè)試用例由表2表示。
表2 數(shù)據(jù)預(yù)處理功能測(cè)試用例
檢驗(yàn)所構(gòu)建平臺(tái)能否成功實(shí)施數(shù)據(jù)挖掘計(jì)算內(nèi)的聚類分析,并準(zhǔn)確獲取結(jié)果,聚類分析功能測(cè)試用例由表3表示。
表3 聚類分析功能測(cè)試用例由
由表1、表2、表3了解到所構(gòu)建平臺(tái)進(jìn)行數(shù)據(jù)源上傳、數(shù)據(jù)預(yù)處理以及聚類分析的功能符合預(yù)期結(jié)果,說明所構(gòu)建平臺(tái)是一種有效的網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)分析平臺(tái)。
3.3平臺(tái)性能測(cè)試
3.3.1數(shù)據(jù)源管理的響應(yīng)時(shí)間測(cè)試
為了驗(yàn)證平臺(tái)數(shù)據(jù)源管理響應(yīng)效率,采用MWorks對(duì)所構(gòu)建平臺(tái)進(jìn)行性能仿真,MWorks軟件是一種多領(lǐng)域通用的CAE平軟件,集合系統(tǒng)工程建模、仿真和分析于一提,能夠達(dá)到可視化分析,保障分析結(jié)果的完整功能基礎(chǔ)上,支持多目標(biāo)優(yōu)化和多平臺(tái)聯(lián)合仿真。
listAllSources請(qǐng)求為數(shù)據(jù)源管理請(qǐng)求,數(shù)據(jù)源信息由listAllSources接口得到,在多用戶并發(fā)狀況下,利用工具M(jìn)Works模擬檢測(cè)所構(gòu)建平臺(tái)和基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺(tái)進(jìn)行數(shù)據(jù)源管理的響應(yīng)時(shí)間,用表4描述。
表4數(shù)據(jù)源管理的響應(yīng)時(shí)間/ms
由表4得知,在不同的并發(fā)數(shù)下,所構(gòu)建平臺(tái)對(duì)listAllSources請(qǐng)求與整體響應(yīng)時(shí)間的平均值分別為30.25ms與843.75ms;基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺(tái)對(duì)listAllSources請(qǐng)求與整體響應(yīng)時(shí)間的平均值分別為56.75ms與1352ms,對(duì)比分析可以得出,所構(gòu)建平臺(tái)對(duì)于listAllSources數(shù)據(jù)源管理請(qǐng)求的響應(yīng)時(shí)間以及整體響應(yīng)時(shí)間比基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺(tái)分別少26.5ms和508.25ms,說明所構(gòu)建平臺(tái)具有較高的數(shù)據(jù)源管理響應(yīng)效率。
3.3.2用戶行為特征分析的響應(yīng)時(shí)間測(cè)試
getSummary、perHourUser、topApp、topWeb和serviceType這5個(gè)請(qǐng)求是較為關(guān)鍵的網(wǎng)絡(luò)用戶行為特征分析請(qǐng)求,每個(gè)維度的統(tǒng)計(jì)結(jié)果分別由這5個(gè)接口得到,各接口接收各維度返回結(jié)果,并由前端并行管理5個(gè)接口。在多用戶并發(fā)狀況下,利用工具M(jìn)Works模擬檢測(cè)所構(gòu)建平臺(tái)和基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺(tái)進(jìn)行用戶行為特征分析的響應(yīng)時(shí)間,用表5描述。
表5 用戶行為特征分析的響應(yīng)時(shí)間/ms
由表5了解到,隨著并發(fā)數(shù)的不斷提升,兩種平臺(tái)對(duì)于5種不同用戶行為特征分析請(qǐng)求的響應(yīng)時(shí)間也逐漸提升,但是所構(gòu)建平臺(tái)的響應(yīng)時(shí)間始終低于基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺(tái),并且在相同的并發(fā)數(shù)下,所構(gòu)建平臺(tái)的整體響應(yīng)時(shí)間遠(yuǎn)遠(yuǎn)低于基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺(tái),所構(gòu)建平臺(tái)的整體響應(yīng)平均時(shí)間比基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺(tái)少836.5ms,說明所構(gòu)建平臺(tái)分析用戶行為特征時(shí)具有較高的響應(yīng)效率。
3.3.3數(shù)據(jù)挖掘及用戶流量分群分析的響應(yīng)時(shí)間測(cè)試
所構(gòu)建平臺(tái)進(jìn)行數(shù)據(jù)挖掘與用戶流量分群分析的工作機(jī)制相同,需要向Spark分布式集群內(nèi)反饋任務(wù)腳本,用戶以任務(wù)方式請(qǐng)求提交形成的子線程向任務(wù)腳本反饋,主要包括同步的任務(wù)提交與異步的分布式計(jì)算任務(wù),用戶體驗(yàn)會(huì)受到同步任務(wù)提交的影響,其中submitDMJob請(qǐng)求和submitUserAnaJob請(qǐng)求分別是數(shù)據(jù)挖掘和用戶流量分群分析請(qǐng)求。
在多用戶并發(fā)狀況下,利用工具M(jìn)Works模擬檢測(cè)所構(gòu)建平臺(tái)和基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺(tái)進(jìn)行數(shù)據(jù)挖掘和用戶流量分群的響應(yīng)時(shí)間,用表6描述。
表6數(shù)據(jù)挖掘及用戶流量分群分析的響應(yīng)時(shí)間/ms
通過表6了解到,所構(gòu)建平臺(tái)對(duì)于數(shù)據(jù)挖掘submitDMJob請(qǐng)求和用戶流量分群行為分析submitUserAnaJob請(qǐng)求的平均時(shí)間響應(yīng)分別為62.25ms和55.25ms,而基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺(tái)對(duì)于兩種請(qǐng)求的平均響應(yīng)時(shí)間分別為239.25ms和232ms,對(duì)比分析這些數(shù)據(jù)可以看出,所構(gòu)建平臺(tái)具有較高的數(shù)據(jù)挖掘和用戶流量分群響應(yīng)分析效率。
總 結(jié)
本文構(gòu)建了基于分布式集群的網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)分析平臺(tái),通過分布式存儲(chǔ)系統(tǒng)HDFS與分布式計(jì)算系統(tǒng)Spark組成的分布式集群存儲(chǔ)與管理網(wǎng)絡(luò)瀏覽行為產(chǎn)生的數(shù)據(jù),為用戶提供了一站式網(wǎng)絡(luò)用戶瀏覽行為分析服務(wù),利用決策樹ID3算法挖掘用戶網(wǎng)絡(luò)瀏覽行為。
實(shí)驗(yàn)分別測(cè)試了本平臺(tái)的功能與性能,得出所構(gòu)建平臺(tái)的數(shù)據(jù)源上傳、數(shù)據(jù)預(yù)處理以及聚類分析功能符合預(yù)期結(jié)果,所構(gòu)建平臺(tái)對(duì)數(shù)據(jù)源管理listAllSources請(qǐng)求與整體響應(yīng)時(shí)間的平均值比基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺(tái)低26.5ms和508.25ms,具有較高的數(shù)據(jù)源管理效率;所構(gòu)建平臺(tái)進(jìn)行用戶行為特征分析的整體響應(yīng)時(shí)間比基于在線學(xué)習(xí)的網(wǎng)絡(luò)瀏覽行為數(shù)據(jù)分析平臺(tái)低836.5ms,具有較高的用戶行為特征分析效率;所構(gòu)建平臺(tái)具有較高的數(shù)據(jù)挖掘與用戶流量分群分析的響應(yīng)效率,綜合分析可得,所構(gòu)建平臺(tái)可完成高效率的網(wǎng)絡(luò)瀏覽行為分析,取得了令人滿意的效果。