概述
互聯(lián)網(wǎng)應(yīng)用發(fā)展到今天,從單體應(yīng)用架構(gòu)到 SOA 以及今天的微服務(wù),隨著微服務(wù)化的不斷升級進(jìn)化,服務(wù)和服務(wù)之間的穩(wěn)定性變得越來越重要,分布式系統(tǒng)之所以復(fù)雜,主要原因是分布式系統(tǒng)需要考慮到網(wǎng)絡(luò)的延時和不可靠,微服務(wù)很重要的一個特質(zhì)就是需要保證服務(wù)冪等,保證冪等性很重要的前提需要分布式鎖控制并發(fā),同時緩存、降級和限流是保護(hù)微服務(wù)系統(tǒng)運(yùn)行穩(wěn)定性的三大利器。
隨著業(yè)務(wù)不斷的發(fā)展,按業(yè)務(wù)域的劃分子系統(tǒng)越來越多,每個業(yè)務(wù)系統(tǒng)都需要緩存、限流、分布式鎖、冪等工具組件, distributed-tools 組件(暫未開源)正式包含了上述分布式系統(tǒng)所需要的基礎(chǔ)功能組件。distributed-tools 組件基于 tair、redis 分別提供了 2 個 springboot starter ,使用起來非常簡單。以使用緩存使用 redis 為例, application.properties 添加如下配置:
接下來的篇幅,重點會介紹一下緩存、限流、分布式鎖、冪等的使用方式。
緩存
緩存的使用可以說無處不在,從應(yīng)用請求的訪問路徑來看,用戶 user -> 瀏覽器緩存 -> 反向代理緩存-> WEB服務(wù)器緩存 -> 應(yīng)用程序緩存 -> 數(shù)據(jù)庫緩存等,幾乎每條鏈路都充斥著緩存的使用,緩存最直白的解釋就是“用空間換時間”的算法。緩存就是把一些數(shù)據(jù)暫時存放于某些地方,可能是內(nèi)存,也有可能硬盤。
總之,目的就是為了避免某些耗時的操作。我們常見的耗時的操作,比如數(shù)據(jù)庫的查詢、一些數(shù)據(jù)的計算結(jié)果,或者是為了減輕服務(wù)器的壓力。其實減輕壓力也是因查詢或計算,雖然短耗時,但操作很頻繁,累加起來也很長,造成嚴(yán)重排隊等情況,服務(wù)器抗不住。distributed-tools 組件提供了一個 CacheEngine 接口,基于 Tair、Redis 分別有不同的實現(xiàn),具體 CacheEngine 定義如下:
get 方法針對 key 進(jìn)行查詢, put 存儲緩存數(shù)據(jù), invalid 刪除緩存數(shù)據(jù)。
限流
在分布式系統(tǒng)中,尤其面對一些秒殺、瞬時高并發(fā)場景,都需要進(jìn)行一些限流措施,保證系統(tǒng)的高可用。通常來說限流的目的是通過對并發(fā)訪問/請求進(jìn)行限速,或者一個時間窗口內(nèi)的的請求進(jìn)行限速來保護(hù)系統(tǒng),一旦達(dá)到限制速率則可以 拒絕服務(wù)(定向到錯誤頁或告知資源沒有了)、排隊 或 等待(比如秒殺、評論、下單)、降級(返回托底數(shù)據(jù)或默認(rèn)數(shù)據(jù),如商品詳情頁庫存默認(rèn)有貨)。常見的一些限流算法包括固定窗口、滑動窗口、漏桶、令牌桶,
distributed-tools 組件目前基于計數(shù)器只實現(xiàn)了固定窗口算法,具體使用方式如下:
基于 CacheEngine 的 rateLimit 方法可以實現(xiàn)限流, expireTime 只能設(shè)定固定窗口時間,非滑動窗口時間。
另外 distributed-tools 組件提供了模板 RateLimitTemplate 可以簡化限流的易用性,可以直接調(diào)用 RateLimitTemplate 的 execute 方法處理限流問題。
另外 distributed-tools 組件還提供了注解 @RateLimit 的使用方式,具體注解 RateLimit 定義如下:
基于注解的方式限流使用代碼如下:
任何方法添加上述注解具備了一定的限流能力(具體方法需要在 spring aop 指定攔截范圍內(nèi)),如上代碼表示以參數(shù) key 作為限流 key ,每 2 分鐘請求次數(shù)不超過 5 次,超過限制后阻塞 3 分鐘。
分布式鎖
在 Java 單一進(jìn)程中通過 synchronized 關(guān)鍵字和 ReentrantLock 可重入鎖可以實現(xiàn)在多線程環(huán)境中控制對資源的并發(fā)訪問,通常本地的加鎖往往不能滿足我們的需要,我們更多的面對場景是分布式系統(tǒng)跨進(jìn)程的鎖,簡稱為分布式鎖。分布式鎖實現(xiàn)手段通常是將鎖標(biāo)記存在內(nèi)存中,只是該內(nèi)存不是某個進(jìn)程分配的內(nèi)存而是公共內(nèi)存如 Redis、Tair ,至于利用數(shù)據(jù)庫、文件等做鎖與單機(jī)的實現(xiàn)是一樣的,只要保證標(biāo)記能互斥就行。分布式鎖相對單機(jī)進(jìn)程的鎖之所以復(fù)雜,主要原因是分布式系統(tǒng)需要考慮到網(wǎng)絡(luò)的延時和不可靠。 distributed-tools 組件提供的分布式鎖要具備如下特性:
互斥性:同本地鎖一樣具有互斥性,但是分布式鎖需要保證在不同節(jié)點進(jìn)程的不同線程的互斥。
可重入性:同一個節(jié)點上的同一個線程如果獲取了鎖之后那么也可以再次獲取這個鎖。
鎖超時:和本地鎖一樣支持鎖超時,防止死鎖,通過異步心跳 demon 線程刷新過期時間,防止特殊場景(如 FGC 死鎖超時)下死鎖。
高性能、高可用:加鎖和解鎖需要高性能,同時也需要保證高可用防止分布式鎖失效,可以增加降級。
支持阻塞和非阻塞:同 ReentrantLock 一樣支持 lock 和 trylock 以及 tryLock ( long timeOut )。
公平鎖和非公平鎖(不支持):公平鎖是按照請求加鎖的順序獲得鎖,非公平鎖就相反是無序的,目前 distributed-tools 組件提供的分布式鎖不支持該特性。
distributed-tools 組件提供的分布式鎖,使用起來非常簡單,提供了一個分布式鎖模板:DistributedLockTemplate ,可以直接調(diào)用模板提供的靜態(tài)方法(如下):
冪等
在分布式系統(tǒng)設(shè)計中冪等性設(shè)計中十分重要的,尤其在復(fù)雜的微服務(wù)中一套系統(tǒng)中包含了多個子系統(tǒng)服務(wù),而一個子系統(tǒng)服務(wù)往往會去調(diào)用另一個服務(wù),而服務(wù)調(diào)用服務(wù)無非就是使用 RPC 通信或者 restful ,分布式系統(tǒng)中的網(wǎng)絡(luò)延時或中斷是避免不了的,通常會導(dǎo)致服務(wù)的調(diào)用層觸發(fā)重試。具有這一性質(zhì)的接口在設(shè)計時總是秉持這樣的一種理念:調(diào)用接口發(fā)生異常并且重復(fù)嘗試時,總是會造成系統(tǒng)所無法承受的損失,所以必須阻止這種現(xiàn)象的發(fā)生。冪等通常會有兩個維度:
1. 空間維度上的冪等,即冪等對象的范圍,是個人還是機(jī)構(gòu),是某一次交易還是某種類型的交易。
2. 時間維度上的冪等,即冪等的保證時間,是幾個小時、幾天還是永久性的。在實際系統(tǒng)中有很多操作,不管操作多少次,都應(yīng)該產(chǎn)生一樣的效果或返回相同的結(jié)果。以下這些應(yīng)用場景也是通常比較常見的應(yīng)用場景:
1. 前端重復(fù)提交請求,且請求數(shù)據(jù)相同時,后臺需要返回對應(yīng)這個請求的相同結(jié)果。
2. 發(fā)起一次支付請求,支付中心應(yīng)該只扣用戶賬戶一次錢,當(dāng)遇到網(wǎng)絡(luò)中斷或系統(tǒng)異常時,也應(yīng)該只扣一次錢。
3. 發(fā)送消息,同樣內(nèi)容的短信發(fā)給用戶只發(fā)一次。
4. 創(chuàng)建業(yè)務(wù)訂單,一次業(yè)務(wù)請求只能創(chuàng)建一個,重試請求創(chuàng)建多個就會出大問題。
5. 基于 msgId 的消息冪等處理。在正式使用 distributed-tools 組件提供的冪等之前,我們先看下 distributed-tools 冪等組件的設(shè)計。
冪等 key 提取能力:獲取唯一冪等 key
冪等 key 的提取支持 2 中注解:IdempotentTxId、IdempotentTxIdGetter,任意方法添加以上 2 注解,即可提取到相關(guān)冪等 key ,前提條件是需要將 Idempotent 注解添加相關(guān)需要冪等的方法上。如果單純使用冪等模板進(jìn)行業(yè)務(wù)處理,需要自己設(shè)置相關(guān)冪等key,且要保證其唯一性。
分布式鎖服務(wù)能力:提供全局加鎖、解鎖的能力
distributed-tools 冪等組件需要使用自身提供的分布式鎖功能,保證其并發(fā)唯一性, distributed-tools 提供的分布式鎖能夠提供其可靠、穩(wěn)定的加鎖、解鎖能力。
高性能的寫入、查詢能力:針對冪等結(jié)果查詢與存儲
distributed-tools 冪等組件提供了基于 tair 、 redis 的存儲實現(xiàn),同時支持自定義一級、二級存儲通過 spring 依賴注入到 IdempotentService ,建議 distributed-tools 冪等存儲結(jié)果一級存儲 tair mdb ,二級存儲ldb或者 tablestore ,一級存儲保證其高性能,二級存儲保證其可靠性。二級存儲并行查詢會返回查詢最快的冪等結(jié)果。
二級存儲并行異步寫入,進(jìn)一步提高性能。高可用的冪等寫入、查詢能力:冪等存儲出現(xiàn)異常,不影響業(yè)務(wù)正常流程,增加容錯
distributed-tools 冪等組件支持二級存儲,為了保證其高可用,畢竟二級存儲出現(xiàn)故障的概率太低,不會導(dǎo)致業(yè)務(wù)上不可用,如果二級存儲同時出現(xiàn)故障,業(yè)務(wù)上做了一定的容錯,針對不確定性的異常采取重試策略,會執(zhí)行具體冪等方法。一級存儲與二級存儲的寫入與查詢處理進(jìn)行隔離,任何一級存儲的異常不會影響整體業(yè)務(wù)執(zhí)行。在了解了 distributed-tools 組件冪等之后,接下來我們來看下如何去使用冪等組件,首先了解下 common-api 提供的冪等注解,具體冪等注解使用方式如下:
冪等攔截器獲取冪等 ID 的優(yōu)先級:
首先判斷 Idempotent 的 spelKey 的屬性是否為空,如果不為空會根據(jù) spelKey 定義的 spring 表達(dá)式生成冪等 ID 。
其次判斷參數(shù)是否包含 IdempotentTxId 注解,如果有 IdempotentTxId ,會直接獲取參數(shù)值生成冪等 ID 。
再次通過反射獲取參數(shù)對象屬性是否包含 IdempotentTxId 注解,如果對象屬性包含 IdempotentTxId 注解會獲取該參數(shù)對象屬性生成冪等 ID 。
最后以上三種情況仍未獲取到冪等 ID ,會進(jìn)一步通過反射獲取參數(shù)對象的 Method 是否定義 IdempotentTxIdGetter 注解,如果包含該注解則通過反射生成冪等 ID 。
代碼使用示例:
如上述代碼表示從 request 獲取 requestId 作為冪等 key ,一級存儲有效期 7 天,二級存儲有效期 30 天。distributed-tools 除了可以使用冪等注解外,冪等組件還提供了一個通用冪等模板 IdempotentTemplate ,使用冪等模板的前提必須設(shè)置 tair.idempotent.enabled=true或者redis.idempotent.enabled=true ,默認(rèn)為 false ,同時需要指定冪等結(jié)果一級存儲,冪等結(jié)果存儲為可選項配置。具體使用冪等模板 IdempotentTemplate 的方法如下:
request:
冪等參數(shù) IdempotentRequest 組裝,可以設(shè)置冪等參數(shù)和冪等唯一 ID 。
executeSupplier:
具體冪等的方法邏輯,比如針對支付、下單接口,可以通過 JDK8 函數(shù)式接口 Supplier Callback 進(jìn)行處理。
resultBiConsumer:
冪等返回結(jié)果的處理,該參數(shù)可以為空,如果為空采取默認(rèn)的處理,根據(jù)冪等結(jié)果,如果成功、不可重試的異常錯誤碼,直接返回結(jié)果,如果失敗可重試異常錯誤碼,會進(jìn)行重試處理。如果該參數(shù)值不為空,可以針對返回冪等結(jié)果進(jìn)行特殊邏輯處理設(shè)置 ResultStatus(ResultStatus 包含三種狀態(tài)包括成功、失敗可重試、失敗不可重試)。
作者信息:
孔凡勇,花名云狄,阿里云-開放平臺高級技術(shù)家,對高并發(fā)、高性能、高可用、可伸縮的分布式系統(tǒng)架構(gòu)設(shè)計有豐富經(jīng)驗,Cloud Native堅定擁護(hù)者,堅守開發(fā)一線打磨匠藝的架構(gòu)師。