大數(shù)據(jù)識別電信罪案中的統(tǒng)計(jì)學(xué)原理

極速聊科技
數(shù)據(jù)網(wǎng)絡(luò)等各個(gè)領(lǐng)域?qū)乙姴货r。傳統(tǒng)的統(tǒng)計(jì)學(xué)場景和現(xiàn)代統(tǒng)計(jì)學(xué)已經(jīng)相去甚遠(yuǎn)。更進(jìn)一步,隨著數(shù)據(jù)量的增加,計(jì)算機(jī)科學(xué)成為了比傳統(tǒng)統(tǒng)計(jì)學(xué)更為適合處理大數(shù)據(jù)計(jì)算的方式,數(shù)據(jù)可視化的應(yīng)用挑戰(zhàn)也成為計(jì)算機(jī)科學(xué)發(fā)展的重要方面。

本文將淺談統(tǒng)計(jì)學(xué)原理在數(shù)據(jù)信息提取、數(shù)據(jù)處理和現(xiàn)實(shí)應(yīng)用場景中的研究意義。

通常而言,談及統(tǒng)計(jì)學(xué),人們認(rèn)為就是將數(shù)據(jù)通過簡單的樣本計(jì)算和傳統(tǒng)的數(shù)學(xué)模型將其中有用的信息提取出來。然而,放到現(xiàn)代的觀念來說,這些認(rèn)知偏頗狹隘了。

當(dāng)今,大量的動(dòng)態(tài)數(shù)組,千兆、億兆的數(shù)據(jù),在商業(yè)、制造業(yè)、環(huán)境科學(xué)、航天航空

數(shù)據(jù)網(wǎng)絡(luò)等各個(gè)領(lǐng)域?qū)乙姴货r。傳統(tǒng)的統(tǒng)計(jì)學(xué)場景和現(xiàn)代統(tǒng)計(jì)學(xué)已經(jīng)相去甚遠(yuǎn)。

更進(jìn)一步,隨著數(shù)據(jù)量的增加,計(jì)算機(jī)科學(xué)成為了比傳統(tǒng)統(tǒng)計(jì)學(xué)更為適合處理大數(shù)據(jù)計(jì)算的方式,數(shù)據(jù)可視化的應(yīng)用挑戰(zhàn)也成為計(jì)算機(jī)科學(xué)發(fā)展的重要方面。

這篇文章,將淺談統(tǒng)計(jì)學(xué)原理在數(shù)據(jù)信息提取、數(shù)據(jù)處理和現(xiàn)實(shí)應(yīng)用場景中的研究意義。

1.信息新定義

信息如何從數(shù)據(jù)中提取,取決于不同目標(biāo)主體。有時(shí),信息就是總結(jié)一下當(dāng)前數(shù)據(jù),不針對未來決策、過程、實(shí)驗(yàn)做推斷。

但即使是總結(jié)也不容易,如果數(shù)據(jù)量龐大則需要使用特殊函數(shù)來處理。更為隱晦的是,目標(biāo)可能是推斷未知參數(shù)或關(guān)聯(lián)關(guān)系。

例如,目標(biāo)可能是理解一項(xiàng)未知或無法獲取的事物,例如性能輸出量,這類數(shù)據(jù)沒有誤差變量則無法衡量,

因此,難點(diǎn)就是從實(shí)驗(yàn)數(shù)據(jù)中提取關(guān)聯(lián)行和參數(shù)來解釋這類數(shù)據(jù)?;蛘撸繕?biāo)或許是預(yù)測當(dāng)前抵押貸款未來可能會(huì)有拖欠情況的部分人員。

預(yù)測未來價(jià)值,而不是推斷隱藏的關(guān)聯(lián)關(guān)系和參數(shù)。

舉例來說:某一項(xiàng)貸款已經(jīng)下放,那么目標(biāo)函數(shù)可能需要確定某部分?jǐn)?shù)據(jù)應(yīng)用用來預(yù)測還款是否會(huì)有拖欠,所以目前的貸款數(shù)據(jù)只是可用數(shù)據(jù)的訓(xùn)練集。

推斷數(shù)據(jù)和預(yù)測數(shù)據(jù)都需要數(shù)據(jù)分析,而不僅僅是數(shù)據(jù)歸集。

2.基礎(chǔ)統(tǒng)計(jì)概念

基礎(chǔ)統(tǒng)計(jì)學(xué)模型很簡單:

數(shù)據(jù)=主體數(shù)據(jù)+噪聲數(shù)據(jù)

主體數(shù)據(jù)代表主要的數(shù)據(jù)形態(tài),噪聲數(shù)據(jù)表示圍繞主要模型的變量,兩者都具有高度復(fù)雜性。主體可能是參數(shù)類型的,這組參數(shù)可能是線性數(shù)據(jù)、非線性數(shù)據(jù)、復(fù)數(shù)、積性函數(shù)等。

另外,主體數(shù)據(jù)也可以是非參數(shù)類型的,例如:階梯函數(shù)、賦值函數(shù)或一連串解釋型變量。噪聲數(shù)據(jù)表示變量數(shù)據(jù),會(huì)影響預(yù)測和評估的可靠程度。噪聲數(shù)據(jù)是相對獨(dú)立、標(biāo)準(zhǔn)、相關(guān)、持續(xù)期間偏差抽樣,用于計(jì)算非隨機(jī)樣本或結(jié)構(gòu)化數(shù)據(jù)。例如:如果噪聲數(shù)據(jù)沒有附加影響數(shù)據(jù)源,那更合適的模型就是

Data~Fθ

Mean=g

Fθ是圍繞在決策模型g周邊的分布函數(shù),解釋數(shù)據(jù)的冗余變量。Fθ也可以是著名的分布函數(shù),例如伯努利分布,邏輯回歸。其包括了計(jì)算非冗余樣本,通過解析性變量和關(guān)聯(lián)關(guān)系來預(yù)測持續(xù)期間樣本變差等情況。主要參數(shù)θ有賴于解釋型變量和預(yù)測型變量。數(shù)據(jù)歸集的過程越復(fù)雜則,同濟(jì)模型的復(fù)雜程度越高。

統(tǒng)計(jì)學(xué)理念認(rèn)為,噪聲數(shù)據(jù)建模與主要數(shù)據(jù)建模同樣重要。我們可以從噪聲數(shù)據(jù)中獲取可能偏差的預(yù)測情況、通過噪聲屬于的統(tǒng)計(jì),我們可以知道這類屬于可用于目標(biāo)推斷或問題預(yù)測。

3.反詐騙行為統(tǒng)計(jì)模型

我們的目標(biāo)在于盡快地獲取每一次通話記錄,并且記錄詐騙電話的活躍和終止階段的信息,更新采集樣本。如果通過采集樣本,我們可以精準(zhǔn)預(yù)測出下一次的合規(guī)來電,通過已經(jīng)捕獲的來電號碼對比預(yù)測出來的數(shù)據(jù)校驗(yàn)精準(zhǔn)性。我們將采集對比的合規(guī)電話標(biāo)記為0,而非0的預(yù)測來電則有可能為詐騙電話。

通過數(shù)據(jù)預(yù)處理的方法,我們可以定義出樣本為0的數(shù)據(jù)為主體數(shù)據(jù)。而非0數(shù)據(jù)為噪聲數(shù)據(jù)。通過邏輯回歸等分布函數(shù)等噪聲數(shù)據(jù)的處理,可以預(yù)測出在一周或者一日之內(nèi)非0數(shù)據(jù)的可能來電情況。

但是實(shí)際情況遠(yuǎn)比樣本計(jì)算復(fù)雜得多。我們很難通過簡單的狀態(tài)判斷來決策主體變量和非主體變量的預(yù)測情況一定是符合現(xiàn)實(shí)場景的。

從統(tǒng)計(jì)學(xué)角度來說,我們將一通電話定義為:一組隨機(jī)向量X=

X 1表示通話持續(xù)時(shí)長、X 2表示通話頻次X 3表示通話率,X 4表示號碼歸屬地。

當(dāng)所有可以采集的通話歷史信息收集到后。一個(gè)合法的呼叫者i在通訊數(shù)據(jù)上會(huì)出現(xiàn)一個(gè)多元分布視圖,y軸為C i,n,x軸為X i,n.詐騙分子有個(gè)a數(shù)據(jù)與多元分布矩陣F完全不同。

4.結(jié)語

計(jì)算是處理海量數(shù)據(jù)分析的關(guān)鍵,統(tǒng)計(jì)學(xué)還有很多計(jì)算處理海量數(shù)據(jù)的方法要向計(jì)算機(jī)科學(xué)學(xué)習(xí)。

與此同時(shí),統(tǒng)計(jì)學(xué)也將新的要求提出給了計(jì)算機(jī)學(xué)科。例如計(jì)算機(jī)的數(shù)據(jù)挖掘需要提高。

統(tǒng)計(jì)學(xué)原理是推動(dòng)數(shù)據(jù)挖掘提取分析的關(guān)鍵原則。但是這不代表統(tǒng)計(jì)學(xué)具有數(shù)據(jù)探索意義。

數(shù)據(jù)分塊,尤其是當(dāng)數(shù)據(jù)量巨大的時(shí)候,如何更好地利用數(shù)據(jù),使數(shù)據(jù)更為有意義有作用是需要計(jì)算機(jī)科學(xué)采用更為有力的技術(shù)和模型構(gòu)建方法的。

大量數(shù)據(jù)產(chǎn)生的更多問題遠(yuǎn)遠(yuǎn)不止分析能夠解決,需要統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)雙方一同發(fā)展,兩者結(jié)合應(yīng)用來處理。傳統(tǒng)統(tǒng)計(jì)學(xué)與數(shù)學(xué)緊密相連,數(shù)學(xué)對于分析海量數(shù)據(jù)有重要作用。概率學(xué)則在每一步統(tǒng)計(jì)分析建模中起到關(guān)鍵作用。

總之,我們還有很多需要進(jìn)步和研究的空間,更高效合理的結(jié)合統(tǒng)計(jì)學(xué)與計(jì)算機(jī)科學(xué)兩者,將數(shù)據(jù)智能的應(yīng)用場景結(jié)合到現(xiàn)實(shí)生活。

THEEND

最新評論(評論僅代表用戶觀點(diǎn))

更多
暫無評論