大數(shù)據(jù)征信已經(jīng)被廣泛應(yīng)用于信貸科技,其實(shí)現(xiàn)分為五個(gè)階段。
首先,通過各種交互接口,自動(dòng)高速地采集和傳輸各種形態(tài)的數(shù)據(jù)。其中,來源于客戶自身的數(shù)據(jù)既包括其自主錄入的個(gè)體基本信息,也包含其上傳提交或主動(dòng)授權(quán)訪問的公共信息。來自平臺(tái)自身積累的數(shù)據(jù)主要是平臺(tái)自身基于各類線上場景獲取的消費(fèi)、支付、社交和信用活動(dòng)等線上行為數(shù)據(jù)。而采自第三方平臺(tái)的數(shù)據(jù)來源既有線上各類電商平臺(tái)、銀行卡和第三方支付機(jī)構(gòu)、即時(shí)通訊和網(wǎng)絡(luò)社交平臺(tái)、公共服務(wù)機(jī)構(gòu)等,也有來自于各類線下渠道。
其次,對(duì)相關(guān)原始數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,從而完成數(shù)據(jù)清洗和變換。各類渠道獲取的原始數(shù)據(jù)并非都能直接用于征信模型。有些可能是冗余的;有些則是非結(jié)構(gòu)化的多媒體數(shù)據(jù),需要提取、加工、轉(zhuǎn)換成數(shù)量或分類特征;還有些可能需要進(jìn)行函數(shù)變換或與其它數(shù)據(jù)整合,才能顯示與客戶信用相關(guān)的行為特征和預(yù)測效果。
因而需先對(duì)所獲取的原始數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,再將無效的原始變量通過函數(shù)變換或與其他變量進(jìn)行整合,并再次分析新變量的關(guān)聯(lián)特征。進(jìn)而淘汰無效數(shù)據(jù),保留初始有效以及經(jīng)過變換有效的那部分原始數(shù)據(jù)。
再次,將相關(guān)原始數(shù)據(jù)進(jìn)行深度整合,形成更為集成、具有經(jīng)濟(jì)含義的新變量。即使所有數(shù)據(jù)都已經(jīng)有效但若維度太大,即使已經(jīng)有成熟的大規(guī)模計(jì)算技術(shù),也不一定適合將所有數(shù)據(jù)同時(shí)用于建模。通過變量整合,能夠有效降低數(shù)據(jù)維度,在保證模型計(jì)算精度的同時(shí),減輕計(jì)算負(fù)擔(dān),加快計(jì)算進(jìn)程。
同時(shí),將原始數(shù)據(jù)整合成具備經(jīng)濟(jì)含義、便于解釋的新變量,能幫助開發(fā)人員更好地理解信用風(fēng)險(xiǎn)形成和演化本質(zhì),加快模型迭代。這些新變量很可能直接反映借款人的某一特性,如欺詐、團(tuán)案、洗錢、長短期信用等,進(jìn)而輸出和應(yīng)用到特定模型和場景。
其后,構(gòu)建定制化的子模型和并行模型,利用機(jī)器學(xué)習(xí)等前沿算法對(duì)指標(biāo)化的變量進(jìn)行深度學(xué)習(xí)。通常構(gòu)造的模型并非單一,但具關(guān)聯(lián)性和系統(tǒng)性。需根據(jù)不同風(fēng)險(xiǎn)管理環(huán)節(jié)、不同特征客群和特定場景等的需要,在一般化模型的基礎(chǔ)上,構(gòu)建多樣化、逐步演進(jìn)的征信子模型或并行模型。這不僅能夠降低對(duì)輸入數(shù)據(jù)維度和頻度的要求,還能提高模型預(yù)測精度和實(shí)施效率,更好地服務(wù)特定目標(biāo)。同時(shí)意味著輸入到特定模型中的變量或指標(biāo)存在差異,需依模型特性定制。
另外,在數(shù)據(jù)應(yīng)用和模型設(shè)計(jì)時(shí),除了邏輯回歸和支持向量機(jī)等傳統(tǒng)計(jì)量方法外,更多地會(huì)運(yùn)用復(fù)雜網(wǎng)絡(luò)、NLP、神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)等前沿機(jī)器學(xué)習(xí)技術(shù)。
最后,利用模型投票原則,篩選最優(yōu)的幾個(gè)模型,并載入數(shù)據(jù)合成分析結(jié)論,輸出最終的信用得分和評(píng)級(jí)。
由于各子、并行模型的結(jié)構(gòu)差異,對(duì)同一個(gè)體在同一或不同時(shí)期的信用評(píng)分和評(píng)級(jí)往往存在差異。這就需要通過模型投票原則,確定最佳模型或模型組合,并載入數(shù)據(jù),綜合分析結(jié)論,進(jìn)而使各模型輸出結(jié)果統(tǒng)一,得到連貫、最優(yōu)的信用評(píng)分或評(píng)級(jí)。
模型投票原則的依據(jù)通??紤]預(yù)測精度、過擬合和誤判的容忍度等各種類型,在機(jī)器學(xué)習(xí)領(lǐng)域通常指ROC、AUC等指標(biāo)。同時(shí),為將分類概率轉(zhuǎn)為評(píng)分或評(píng)級(jí),一般還用到得分轉(zhuǎn)換函數(shù)。