本文來自微信公眾號“twt企業(yè)IT社區(qū)”,趙海,某金融系統(tǒng)高級主管。
金融行業(yè)的存量數(shù)據(jù)管理水平在各行業(yè)當中應該算是相對比較高的,IT基礎架構當中的存儲架構也相對穩(wěn)定成熟,但是隨著近些年的信息化大浪潮的不斷涌動,其實已經悄然發(fā)生或者正在醞釀著即將來臨的系列變革,相應的存儲架構也會面臨著挑戰(zhàn)和機遇,透過對金融企業(yè)存量數(shù)據(jù)的梳理分析看到未來的變革趨勢是我們的初衷。
一、金融企業(yè)存量數(shù)據(jù)現(xiàn)狀是什么樣的?
1.數(shù)據(jù)標準方面
以銀行業(yè)為例,通過90年代的數(shù)據(jù)大集中變革,在架構、數(shù)據(jù)、接口等各方面都有了系列的標準化指導。例如,2014年發(fā)布的《銀行數(shù)據(jù)標準定義規(guī)范》,類似這樣的標準幾乎每年都會有所更新。有了這些規(guī)范的約束,無論是誰在開發(fā)銀行的金融系統(tǒng),它的數(shù)據(jù)模型設計基本上都要遵循這樣的標準進行。因此大多數(shù)銀行企業(yè)都已經具備了一套以核心系統(tǒng)賬戶及客戶為中心,以各交易各渠道系統(tǒng)簽約信息為擴展的結構化數(shù)據(jù)標準體系,以客戶為中心的結構化數(shù)據(jù)體系具備了后續(xù)挖掘和分析的基本條件。與銀行相比而言,保險和證券的標準化程度可能會差一些,但隨著監(jiān)管口徑的統(tǒng)一化發(fā)展,整個金融行業(yè)基本都沿著這個方向在前行。
2.數(shù)據(jù)挖掘方面
在數(shù)據(jù)挖掘方面,銀行業(yè)有著已經穩(wěn)定運行很多年并且架構、模型、算法都很成熟的數(shù)據(jù)倉庫應用。但是這么多年來似乎業(yè)務領域擴展也非常穩(wěn)定,幾乎都集中在監(jiān)管報送、反洗錢分析、信貸風險評估等這幾個方面,而且這些數(shù)據(jù)分析都是基于已經經過標準化洗禮的結構化數(shù)據(jù)進行。隨著大數(shù)據(jù)技術的發(fā)展,越來越多的銀行開始評估非結構化數(shù)據(jù)和結構化數(shù)據(jù)結合起來的價值挖掘,在拓深原有業(yè)務領域的同時,增加了新的價值挖掘領域的應用,例如:精準營銷、風險評估、智能運維等各個方面。在保險行業(yè),越來越多的企業(yè)開始探索數(shù)據(jù)在客戶畫像、精算模型等方面的探討。
3.數(shù)據(jù)管理方面
數(shù)據(jù)管理一方面是要對數(shù)據(jù)全生命周期進行管理,另外一方面是要對數(shù)據(jù)利用的各個維度進行精準有效的管理。從數(shù)據(jù)源的管理上來講,現(xiàn)狀還是比較分散獨立,各個系統(tǒng)沒有統(tǒng)一的數(shù)據(jù)下沉接口,大多數(shù)場景都是基于特定數(shù)據(jù)分析系統(tǒng)的需求分別向各數(shù)據(jù)源頭請數(shù);從數(shù)據(jù)管理工具上來講,基本上還沒有成型的工具可以實現(xiàn)數(shù)據(jù)的資源分配、過程控制、動態(tài)調整、服務計算等方面的整合;從數(shù)據(jù)生命周期上來講,基于在線數(shù)據(jù)的管理和利用有基本的框架,基于離線或歸檔的歷史數(shù)據(jù)管理只有比較單一的存儲功能。
4.數(shù)據(jù)擴展方面
大多數(shù)金融企業(yè)對數(shù)據(jù)價值的利用基本都是集中在自己企業(yè)內部的存量結構化數(shù)據(jù),比如基于各系統(tǒng)內的源數(shù)據(jù)以及歷史數(shù)據(jù)進行再次加工,從而形成具備特定業(yè)務特性的匯總類、分析類、抽象類延申數(shù)據(jù)。但是對于系統(tǒng)外的數(shù)據(jù)利用相對比較少,比如:互聯(lián)網渠道的客戶動態(tài)行為屬性類數(shù)據(jù)的獲取和利用、外部企業(yè)或實體的數(shù)據(jù)利用、IT運維維度的數(shù)據(jù)利用等,對于非結構化類數(shù)據(jù)的挖掘程度沒有開始或者還在探索當中。
二、金融企業(yè)數(shù)據(jù)發(fā)展面臨的問題
1.標準化需要向非結構化數(shù)據(jù)拓展
從數(shù)據(jù)治理的角度來看,數(shù)據(jù)標準化體系的建設不僅僅要落在結構化數(shù)據(jù)上,更需要建立在非結構化以及半結構化的數(shù)據(jù)上,從數(shù)據(jù)模型設計、數(shù)據(jù)存儲管理、數(shù)據(jù)挖掘利用等各方面都迫切需要對結構化之外的數(shù)據(jù)進行治理。金融企業(yè)目前保存最多的可能就是影像平臺里面的票據(jù)、單據(jù)、證件等業(yè)務相關的圖片數(shù)據(jù),以及系統(tǒng)運行過程中留下的各類賬務類以及運行類日志數(shù)據(jù),未來還會有更多的網頁類數(shù)據(jù)以及視頻媒體類數(shù)據(jù)會積淀下來。那么這些數(shù)據(jù)要想在后期的數(shù)據(jù)挖掘和分析上起到與結構化數(shù)據(jù)同等重要的作用,從數(shù)據(jù)本身的模型標準、存取過程以及再生產過程等各個維度,都需要建立一套標準化體系以備存在的和潛在的數(shù)據(jù)價值挖掘所用。
2.非結構化數(shù)據(jù)的價值挖掘深度不夠
從數(shù)據(jù)挖掘的角度來看,金融企業(yè)對結構化數(shù)據(jù)的挖掘深度和廣度在不斷發(fā)展。但是對于非結構化及半結構化數(shù)據(jù)的價值挖掘深度遠遠不夠。以銀行的影像系統(tǒng)為例,可能90%的數(shù)據(jù)行為是寫,而只有少量的讀取行為,這少量的數(shù)據(jù)讀取也是為了信貸類、票據(jù)類業(yè)務的復核。而透過這些半結構化數(shù)據(jù)的元數(shù)據(jù)本身以及還沒有提取的結構化信息,結合結構化數(shù)據(jù)線索,其實是可以進行再分析和再利用的。以金融行業(yè)的互聯(lián)網業(yè)務為例,更多的客戶網絡行為數(shù)據(jù)以及線上產品相關的線上效應數(shù)據(jù)應該被沉淀下來,這些非結構化數(shù)據(jù)應該被不斷提取信息,不斷放到特定分析場景中提煉價值。
3.數(shù)據(jù)源的向外擴展程度不夠
基于安全的要求,金融企業(yè)的數(shù)據(jù)相對比較敏感,這也就決定了這類數(shù)據(jù)的獨特性。因此金融企業(yè)無論是做風險評估也好,還是做精準營銷也好,還是做監(jiān)管報送也好,基本上都是基于自己的存量數(shù)據(jù)和少數(shù)具備資質的數(shù)據(jù)源渠道進行交互。實際上對于很多評估類的業(yè)務以及精準營銷類的業(yè)務,它是需要大量的不同維度的數(shù)據(jù)來支持的。相信政策面會逐步放開對某些具備資質的數(shù)據(jù)源的限制,這些數(shù)據(jù)雖然不是客戶直接的金融行為,但是可以間接映射客戶的金融風險承受能力以及金融產品需求的變化情況。因此金融企業(yè)有必要做好接口,迎接廣泛的、合理合法的數(shù)據(jù)源輸入。
4.數(shù)據(jù)價值利用的維度擴展性不夠
以銀行為例,對數(shù)據(jù)價值的利用基本停留在監(jiān)管報送、信貸風險評估等有限的幾個領域;以保險為例,對數(shù)據(jù)價值的利用也基本停留在保險定價模型的分析;以證券為例,可能現(xiàn)階段對數(shù)據(jù)價值的利用最多的就在于金融產品的精準營銷方面,客戶風險評估還主要采用問答式?;ヂ?lián)網企業(yè)針對客戶的行為數(shù)據(jù)分析利用的思路在金融企業(yè)基本上沒有得到廣泛應用,利用數(shù)據(jù)分析代替人工審核提高評估準確度和效率的思路在少數(shù)企業(yè)開始應用,IT運營過程中積淀的運維數(shù)據(jù)沒有在業(yè)務量級、規(guī)模、頻率方面的優(yōu)化和應急方面提供太多支持。因此數(shù)據(jù)利用的維度有待進一步擴展。
三、金融企業(yè)存儲平臺需求及未來發(fā)展趨勢
1.分布式存儲架構比重不斷提升
數(shù)據(jù)的變化趨勢必然決定數(shù)據(jù)存儲平臺的變化,上文我們分析到數(shù)據(jù)變化的一個重要趨勢就是非結構化和半結構化數(shù)據(jù)的不斷增加,無論從數(shù)據(jù)規(guī)模上,還是從數(shù)據(jù)存取行為方式都會面臨巨大的變化。那么這種變化必然帶來對存儲系統(tǒng)本身的架構設計、存取規(guī)劃、服務管理等方面的挑戰(zhàn)。截至目前為止,IT存儲界爭論了很多關于分布式存儲架構和集中式存儲架構的選擇,其實從技術層面本身已經有了一個明確的答案:分布式存儲架構是大規(guī)模非結構化數(shù)據(jù)產生后的最佳解決方案。傳統(tǒng)的集中式文件系統(tǒng)架構可以支持一定規(guī)模下的非結構化數(shù)據(jù)存儲,但是面對海量的非結構化數(shù)據(jù)量級,樹狀元數(shù)據(jù)的掃描機制就顯得力不從心了。面對需要通過各種維度對數(shù)據(jù)進行再加工、再分析的數(shù)據(jù)價值挖掘場景,從并發(fā)量控制、數(shù)據(jù)基礎加工、數(shù)據(jù)動態(tài)流動等各方面都提出了挑戰(zhàn),這也是分布存儲架構粉墨登場的重要原因。
2.存儲技術與數(shù)據(jù)業(yè)務場景的精準化匹配
無論數(shù)據(jù)存取服務的上層遵循什么樣的思路設計,但對于底層數(shù)據(jù)存儲技術的選型設計應該遵循技術最優(yōu)思路。
首先我們先明確一個結論:底層設計上,集中式存儲架構適合金融企業(yè)存量結構化數(shù)據(jù)場景和高可用、高性能要求的半結構化/結構化數(shù)據(jù)場景,分布式存儲架構適合金融企業(yè)存量及增量的多樣化、海量非結構化數(shù)據(jù)和半結構化數(shù)據(jù)場景。至于集中式存儲架構存在的原因,有兩個重要方面:其一,分布式存儲產品有很多,但歸根結底就那么幾種技術流派出身,只有基于Ceph的流派在原理上是要求強一致性的,其他的基本為了性能會舍棄事務特性的強烈追求,這與交易類業(yè)務場景需求相悖;其二,無論是分布式文件系統(tǒng)派系,還是去中心化分布式對象派系,從其讀寫和并發(fā)控制的原理上看,對具有熱點的隨機讀寫交易業(yè)務應用都是不太友好的。至于分布式存儲架構不斷增比的原因,同樣有兩個。其一,分布式存儲架構設計初衷就是基于大規(guī)模非結構或者半結構化數(shù)據(jù)存儲場景設計的,比如計算尋址和掃描尋址在小規(guī)模場景下是分不出高低的,只有當數(shù)據(jù)量達到一定程度才能顯示出計算尋址的性能。其二,互聯(lián)網企業(yè)的實踐證明了分布式存儲架構最擅長的場景。
因此,金融企業(yè)未來的數(shù)據(jù)結構、規(guī)模特性以及交易行為固有的業(yè)務要求就決定了數(shù)據(jù)存儲系統(tǒng)底層的技術架構必然是精準匹配模式。把最適合的底層技術應用到需要的數(shù)據(jù)業(yè)務場景當中去,這是底層技術選型設計應該遵循的基本原則。
3.存儲管理上的云化融合
雖然底層存儲技術與數(shù)據(jù)業(yè)務場景需要精準匹配,因地制宜。但是從存儲的管理上來講,其實又提出了新的需求。
數(shù)據(jù)規(guī)模越來越大,尤其是非結構化數(shù)據(jù)增量發(fā)展趨勢會越來越明顯;數(shù)據(jù)形態(tài)越來越多元化,結構化的二維表、非結構化的圖片、日志、文本、視頻、網頁等等各類數(shù)據(jù)最終需要融合到一起,又需要從不同的維度抽絲剝繭;數(shù)據(jù)性能要求越來越細分化,隨機讀寫、順序讀寫這幾種行為方式必然形成多元化的需求組合對存儲系統(tǒng)本身提出性能需求。這一系列的數(shù)據(jù)變革必然要求存儲管理上的自動化、動態(tài)化、服務化。所謂自動化就需要統(tǒng)一的管理接口和各類的技術模塊能夠有標準化的接口渠道和調用機制,無論底層是什么架構和技術,管理上都可以通過標準接口實現(xiàn)功能上的整合管理;所謂動態(tài)化就需要底層架構和數(shù)據(jù)上層應用解耦,底層的節(jié)點、容量、配置變化對上層無感知;所謂服務化就是簡化存儲管理的復雜度,提高運營的效率和成本,這就要求存儲底層技術和上層應用之間進行功能上的聚類和包裝,把簡單的接口提供給應用,把復雜的聚合包裝留在存儲管理平臺內部。
說到這里,這不就是很多人看到的存儲云化的一些關鍵功能么?
四、結語
經過上述的梳理和分析,基本可以得出幾個觀點:
1)企業(yè)數(shù)據(jù)本身的結構、量級、用途變革必然帶來存儲技術元素的多元化調整。
2)企業(yè)數(shù)據(jù)業(yè)務特性及數(shù)據(jù)多元化戰(zhàn)略發(fā)展必然要求存儲技術選型設計按照精準定位的原則執(zhí)行。
3)企業(yè)數(shù)據(jù)發(fā)展變化需求必然要求數(shù)據(jù)存儲管理向自動化、動態(tài)化、服務化方向邁進。