小螞蟻說:
在金融行業(yè),風(fēng)險(xiǎn)防控能力的重要性不言而喻。而螞蟻金服可實(shí)現(xiàn)高達(dá)99.999%的異地多活容災(zāi),千億級(jí)資金秒級(jí)實(shí)時(shí)核對(duì)“賬、證、實(shí)”等能力也讓業(yè)界有目共睹。 今年位于杭州的螞蟻金服ATEC科技大會(huì)上,螞蟻金服正式推出技術(shù)風(fēng)險(xiǎn)防控平臺(tái)TRaaS(Technological Risk-defense as a Service)。經(jīng)歷過無數(shù)考驗(yàn)的 TRaaS是把螞蟻金服整個(gè)分布式架構(gòu)和相應(yīng)的技術(shù)風(fēng)險(xiǎn)能力組合在一起的免疫系統(tǒng),它將高可用和資金安全能力結(jié)合AIOps,使系統(tǒng)實(shí)現(xiàn)故障自愈,具有免疫能力。
本文將為大家全面解讀螞蟻金服的技術(shù)風(fēng)險(xiǎn)防控平臺(tái)TRaaS。與 IaaS、PaaS、SaaS 都同屬于“aaS”輩的 TRaaS 聽起來就給人一種高科技的感覺,這個(gè)在今年螞蟻金服ATEC 科技大會(huì)上一鳴驚人的名詞的中文釋義非常令人尋味,Technological Risk-defense as a Service,技術(shù)風(fēng)控即服務(wù)。而按照 ATEC 大會(huì)主辦方螞蟻金服解釋,TRaaS 是螞蟻金服內(nèi)部沉淀已久推出的“技術(shù)風(fēng)險(xiǎn)防控平臺(tái)”,它將高可用和資金安全能力結(jié)合 AIOps,使系統(tǒng)實(shí)現(xiàn)了主動(dòng)發(fā)現(xiàn)風(fēng)險(xiǎn)和自我恢復(fù)的能力,進(jìn)而形成了更智能化、精細(xì)化的技術(shù)風(fēng)險(xiǎn)防控體系。
而實(shí)際上,螞蟻金服醞釀 TRaaS 已經(jīng)有幾年之久,在經(jīng)過四年的精心打磨和無數(shù)次嚴(yán)酷考驗(yàn)之后,螞蟻金服才在此次ATEC 大會(huì)上將之公布與眾,由此足見 TRaaS 對(duì)于螞蟻金服的重要性,因此,筆者覺得有必要對(duì) TRaaS 進(jìn)行一番深入的剖析和解讀。
- 1.TRaaS 的前世今生
“螞蟻有一個(gè)團(tuán)隊(duì),他們?cè)诒澈竽刈o(hù)著我們的系統(tǒng),為保障業(yè)務(wù)連續(xù)性付出十二分的努力。他們就是螞蟻的技術(shù)風(fēng)險(xiǎn)團(tuán)隊(duì)。大家知道,風(fēng)險(xiǎn)防控能力對(duì)于金融系統(tǒng)而言是第一位的,如何保障金融系統(tǒng)的高可用?如何保障金融業(yè)務(wù)的0資損?這就是技術(shù)風(fēng)險(xiǎn)團(tuán)隊(duì)需要解決的兩大課題,隨著金融行業(yè)日新月異的發(fā)展,這兩大課題逐漸發(fā)展成為包含容量彈性管控、變更風(fēng)險(xiǎn)預(yù)測(cè)、資金風(fēng)險(xiǎn)識(shí)別與故障智能決策等在內(nèi)的技術(shù)風(fēng)險(xiǎn)防控領(lǐng)域,最終成長(zhǎng)為更智能化、精細(xì)化的技術(shù)風(fēng)險(xiǎn)中臺(tái)架構(gòu)。當(dāng)前我們已經(jīng)在螞蟻金融云上開放了技術(shù)風(fēng)險(xiǎn)領(lǐng)域最為成熟,并在螞蟻內(nèi)部得到廣泛應(yīng)用的技術(shù)風(fēng)險(xiǎn)防控產(chǎn)品。我們將繼續(xù)在 AIOps 運(yùn)維方向上探索,通過數(shù)據(jù)、算法、經(jīng)驗(yàn)沉淀支撐 7×24h 智能運(yùn)維。因此,我們將技術(shù)風(fēng)險(xiǎn)這層能力持續(xù)地抽象出來,形成 TRaaS,輸出給數(shù)字化轉(zhuǎn)型的金融機(jī)構(gòu),在分布式架構(gòu)改造升級(jí)的同時(shí)提高技術(shù)風(fēng)險(xiǎn)防控能力,真正做到讓不確定的事變成確定!”螞蟻金服如此講述TRaaS 的來龍去脈。
正如上所述,TRaaS 誕生于支付寶系統(tǒng)千錘百煉的實(shí)戰(zhàn)經(jīng)驗(yàn)之中,是在經(jīng)歷了嚴(yán)酷的“雙十一”等多次考驗(yàn)下一步一步逐漸成長(zhǎng)起來的技術(shù)風(fēng)險(xiǎn)防控平臺(tái)。
2015 年,在支付寶經(jīng)歷了慘痛的527事件以后,螞蟻金服痛定思痛,組建了技術(shù)風(fēng)險(xiǎn) SRE 團(tuán)隊(duì),負(fù)責(zé)螞蟻金服整個(gè)金融系統(tǒng)的風(fēng)險(xiǎn)防控。在這一年,螞蟻完成了資金安全防控體系建設(shè),并實(shí)現(xiàn)了異地多活的容災(zāi)架構(gòu),還建立了容災(zāi)演練機(jī)制。
2016 年,螞蟻金服成立高可用&資金安全架構(gòu)組,這也是日后 TRaaS 為用戶提供高可用和資金安全兩大能力背后的強(qiáng)大技術(shù)支撐團(tuán)隊(duì)。同年,螞蟻金服開始進(jìn)行斷網(wǎng)突襲演練,構(gòu)建自適應(yīng)容災(zāi)架構(gòu),這也為 TRaaS 具備的業(yè)務(wù)連續(xù)性和高可用性打下了堅(jiān)實(shí)的基礎(chǔ)。同在這一年,支付寶資金業(yè)務(wù)核對(duì)由 T+H 提升到實(shí)時(shí)。
2017 年,支付寶系統(tǒng)實(shí)現(xiàn)了故障定位精細(xì)化,這為日后的故障自愈提供了前提條件,而灰度仿真的支持,則進(jìn)一步提升了系統(tǒng)的健壯性。同年,螞蟻金服還引入了紅藍(lán)攻防,這為 TRaaS 注入了風(fēng)險(xiǎn)預(yù)測(cè)的能力。
2018 年,在故障定位精細(xì)化的基礎(chǔ)上,支付寶系統(tǒng)實(shí)現(xiàn)了故障自愈,容災(zāi)仿真回歸為系統(tǒng)提供了出色的容災(zāi)能力,而 AIOps,則將人工智能技術(shù)融合在了風(fēng)險(xiǎn)防控之中。
正是在這樣的基礎(chǔ)上,螞蟻金服在今年的云棲 ATEC 大會(huì)上正式推出了 TRaaS 技術(shù)風(fēng)險(xiǎn)防控平臺(tái)。
- 2.TRaaS 究竟強(qiáng)在哪里?
“TRaaS 這套架構(gòu),我們內(nèi)部稱之為”免疫系統(tǒng)“,它就好像人類的免疫系統(tǒng)。就像人們生病時(shí),免疫系統(tǒng)會(huì)幫助他們快速恢復(fù)健康一樣,我們把螞蟻金服整個(gè)分布式架構(gòu)和相應(yīng)的技術(shù)風(fēng)險(xiǎn)能力組合在一起,提供出來,這就是我們的免疫系統(tǒng)——TRaaS。通過 TRaaS,我們可以保證實(shí)現(xiàn) 99.999%的高可用性,這背后依靠的就是我們?nèi)匚逯行牡募軜?gòu)。另外,對(duì)于金融最關(guān)鍵的資金安全,TRaaS 可以做到實(shí)時(shí)化的內(nèi)部帳、證、時(shí)的核對(duì),速度達(dá)到秒級(jí)。此外,最關(guān)鍵的是 TRaaS 具有強(qiáng)大的”免疫能力“,可以使我們做到風(fēng)險(xiǎn)5分鐘發(fā)現(xiàn),5 分鐘自愈。”螞蟻金服副 CTO、副總裁、首席架構(gòu)師胡喜一針見血的指出了 TRaaS 系統(tǒng)的三大強(qiáng)點(diǎn),即高可用、資金安全、免疫能力。
強(qiáng)點(diǎn)之一:高達(dá) 99.999%的高可用性
高可用對(duì)于金融系統(tǒng)的重要性不言而喻,而對(duì)于支付寶這樣最高可達(dá)每秒 25.6 萬筆交易處理能力,擁有幾億行代碼、幾萬臺(tái)服務(wù)器以及未來可能由百億行代碼、百萬臺(tái)服務(wù)器構(gòu)成的龐大和動(dòng)態(tài)變化的系統(tǒng)而言,如何能夠合理地架構(gòu)與駕馭其復(fù)雜性,使其保持健壯、敏捷及高可用性對(duì)螞蟻金服而言是一個(gè)極大的挑戰(zhàn)。
為此,螞蟻金服通過自主研發(fā)的金融分布式架構(gòu) SOFAStack 以及金融分布式數(shù)據(jù)庫 OceanBase,為系統(tǒng)提供全方位的業(yè)務(wù)連續(xù)性和高可用保證。SOFAStack 將提供全棧式的金融分布式架構(gòu)能力,配合金融分布式數(shù)據(jù)庫 OceanBase,能夠在保證風(fēng)險(xiǎn)安全的同時(shí)幫助業(yè)務(wù)需求敏捷迭代,同時(shí)滿足異地容災(zāi)、低成本快速擴(kuò)容的需求。
但對(duì)于金融系統(tǒng)的高可用來說,容災(zāi)顯然更為關(guān)鍵,螞蟻金服在本次ATEC大會(huì)上重磅推出三地五中心架構(gòu),即在三座城市部署五個(gè)機(jī)房,一旦其中一個(gè)或兩個(gè)機(jī)房發(fā)生故障,支付寶的底層技術(shù)系統(tǒng)會(huì)將故障城市的流量全部切換到運(yùn)行正常的機(jī)房,并且能做到數(shù)據(jù)保持一致且零丟失,三地五中心架構(gòu)可實(shí)現(xiàn)低成本交易,無限可擴(kuò)展,恢復(fù)點(diǎn)目標(biāo)(RPO)接近 0,恢復(fù)時(shí)間目標(biāo)(RTO)小于 30 秒。
同時(shí),通過全鏈路壓測(cè),即將足夠的流量壓力,例如類似“雙十一”的流量壓力,載入整個(gè)系統(tǒng)之中,來測(cè)試系統(tǒng)系統(tǒng)在極限容量下的可用性,并通過測(cè)試結(jié)果對(duì)系統(tǒng)進(jìn)行不斷的調(diào)整和優(yōu)化。
依靠這種三地五中心的異地多活容災(zāi)架構(gòu)以及全鏈路壓測(cè)的考驗(yàn),TRaaS 最終實(shí)現(xiàn)了高達(dá) 99.999%的高可用性,即極高可用性,也就是說系統(tǒng)年度停機(jī)時(shí)間將不超過 5 分鐘。
強(qiáng)點(diǎn)之二:千億級(jí)資金秒級(jí)實(shí)時(shí)核對(duì)
資金安全對(duì)于金融系統(tǒng)的重要性不言而喻,尤其對(duì)于支付寶這種每秒能夠處理百億、千億級(jí)資金的平臺(tái)來說,資金安全則更是生死攸關(guān)的大事了。資金安全的本質(zhì)是要保證在整個(gè)業(yè)務(wù)交易的流水過程中,資金金額不能出現(xiàn)差錯(cuò)。而這則要涉及到人、應(yīng)用、數(shù)據(jù)三大對(duì)象以及故障應(yīng)急、數(shù)據(jù)支撐、風(fēng)險(xiǎn)度量、灰度演練、風(fēng)險(xiǎn)識(shí)別五大能力。
而這些方面能力的提升,只能是通過不斷的攻防演練來實(shí)現(xiàn),因此,從 2016 年開始,螞蟻金服就開始進(jìn)行斷網(wǎng)突襲演練,而到了 2017 年,螞蟻金服更是引入紅藍(lán)攻防,演練的頻率也從從一、兩個(gè)月一次逐漸過渡到現(xiàn)在的每天一次。
通過這樣的不斷演練,螞蟻金服的業(yè)務(wù)核對(duì)能力由最初的 T+1,逐步過渡 T+H,直到今天的實(shí)時(shí)業(yè)務(wù)核對(duì),而整個(gè)資金安全防控體系也包含了變更管控、自動(dòng)化回歸、流量仿真、資金安全監(jiān)控、應(yīng)急預(yù)案等更多的內(nèi)容。
TRaaS 平臺(tái)負(fù)責(zé)人,螞蟻金服研究員陳亮(花名:俊義)回憶道,在整個(gè)資金防控體系的演進(jìn)過程中,最初與很多銀行一樣,是靠人力做當(dāng)前的金額跟全天總賬的對(duì)賬。之后通過自動(dòng)的方式,將全量數(shù)據(jù)庫表導(dǎo)出后做計(jì)算來進(jìn)行核對(duì)。后來業(yè)務(wù)量更大了以后,就引入了 T+H,核對(duì)時(shí)間也從天變到小時(shí)級(jí),并在此過程中增加了異常管理。最后演進(jìn)到實(shí)時(shí)業(yè)務(wù)核對(duì)時(shí),又增加了熔斷決策、資金免疫以及智能監(jiān)控等方面的功能,從而形成了 TRaaS 強(qiáng)大的千億級(jí)資金秒級(jí)核對(duì)能力。
強(qiáng)點(diǎn)三:5 分鐘發(fā)現(xiàn),5 分鐘自愈的免疫能力
對(duì)于一個(gè)關(guān)鍵系統(tǒng),尤其是金融系統(tǒng)來說,如果系統(tǒng)不主動(dòng)出現(xiàn)問題,就幾乎不可能知道系統(tǒng)存在問題,因此,螞蟻金服對(duì)此的應(yīng)對(duì)方法是每天不斷的給系統(tǒng)注入各種故障,而且這些故障覆蓋螞蟻金服的一千多個(gè)應(yīng)用場(chǎng)景,這種注入故障的方法就好比軍事演習(xí)中的紅藍(lán)軍對(duì)抗,因此,稱為“紅藍(lán)攻防”。而在不斷的在對(duì)抗中,TRaaS 系統(tǒng)不斷的走向健壯,從而形成了自己所謂的“免疫能力”。
而通過引入AIOps,即智能運(yùn)維,不僅能夠幫助TRaaS在發(fā)現(xiàn)、定位和自愈能力上更加智能,而且可以大幅降低運(yùn)維人員的工作量。對(duì)此陳亮還舉了幾個(gè)例子,例如在高可用的監(jiān)控領(lǐng)域,由于需要監(jiān)控的點(diǎn)和數(shù)據(jù)非常多,這就會(huì)使數(shù)據(jù)的噪音增多。而這些噪音AI只要通過一定的訓(xùn)練和模式識(shí)別就可以輕松過濾掉,而對(duì)人來說這卻非常困難。又比如在支付寶內(nèi)部,僅僅監(jiān)控點(diǎn)就有五六萬個(gè)之多,而每個(gè)點(diǎn)都可以配置出一條數(shù)據(jù),如果再讓人把這些數(shù)據(jù)繪成可視化的圖表,這幾乎是不可能完成的任務(wù),而AI則可以輕松做到。陳亮還介紹說,通過AI的方式識(shí)別監(jiān)控?cái)?shù)據(jù)之間的關(guān)聯(lián),無論是對(duì)于資金監(jiān)控、故障發(fā)現(xiàn)、精確定位,還是風(fēng)險(xiǎn)預(yù)測(cè),快速止血以及自動(dòng)決策都是事半功倍的。
- 3.TRaaS 的未來會(huì)怎么樣?
作為螞蟻金服成立四年來,最為重磅的發(fā)布,TRaaS、分布式金融核心套件以及大數(shù)據(jù)+人工智能平臺(tái)實(shí)際上是螞蟻金服在金融系統(tǒng)多年積累和沉淀的技術(shù)能力、服務(wù)能力的對(duì)外輸出,它代表了螞蟻金服 3.0 時(shí)代的開放思想,也標(biāo)志著螞蟻金服在金融系統(tǒng)領(lǐng)域技術(shù)上的最高水平,實(shí)際上確立的是螞蟻金服在金融領(lǐng)域技術(shù)領(lǐng)先的地位,同時(shí)也是阿里巴巴董事會(huì)主席馬云所倡導(dǎo)的“五新”中的創(chuàng)新金融服務(wù)中的重要一環(huán)。TRaaS 之于支付寶、螞蟻金服、甚至整個(gè)阿里巴巴集團(tuán)都非常重要,因此,我們有理由相信 TRaaS 將會(huì)成為螞蟻金服在核心金融系統(tǒng)領(lǐng)域的殺手锏,而擺在它面前的征途,將是星辰和大海!(原文:https://blog.csdn.net/JIMOJUN/article/details/83713907 )