傳統(tǒng)的企業(yè)級應(yīng)用,其實很少會有海量應(yīng)用,因為企業(yè)的規(guī)模本身就擺在那里,能有多少數(shù)據(jù)?高并發(fā)?海量數(shù)據(jù)?不存在的!不過在互聯(lián)網(wǎng)公司中,因為應(yīng)用大多是面向廣大人民群眾,數(shù)據(jù)量動輒上千萬上億,那么這些海量數(shù)據(jù)要怎么存儲?光靠數(shù)據(jù)庫嗎?肯定不是。今天和大家簡單的聊一聊這個話題。海量數(shù)據(jù),光用數(shù)據(jù)庫肯定是沒法搞定的,即使不讀這篇文章,相信大家也能凝聚這樣的共識,海量數(shù)據(jù),不是說一種方案、兩種方案就能搞定,它是一攬子方案。那么這一攬子方案都包含哪些東西呢?從以下八個方面來和大家聊聊。
1. 緩存
首先第一種解決方案就是緩存了。
緩存,我們可以將數(shù)據(jù)直接緩存在內(nèi)從中,例如 Map、也可以使用緩存框架如 Redis 等,將一些需要頻繁使用的熱點數(shù)據(jù)保存在緩存中,每當(dāng)用戶來訪問的時候,就可以直接將緩存中的數(shù)據(jù)返回給用戶,這樣可以有效降低服務(wù)器的壓力??梢跃彺嫫饋硎褂玫臄?shù)據(jù),一般都不能對實時性要求太高。
2、頁面靜態(tài)化
頁面靜態(tài)化其實可以算作是緩存的另外一種形式,相當(dāng)于直接將相關(guān)的頁面渲染結(jié)果緩存起來。首先大家知道,在我們的 Web 項目中,資源分為兩大類:
靜態(tài)資源
動態(tài)資源
靜態(tài)資源就是我們常見的 HTML、CSS、JavaScript、圖片等資源,這些資源可以不經(jīng)過服務(wù)端處理,就可以直接返回給前端瀏覽器,瀏覽器就可以直接顯示出來。動態(tài)資源則是指我們項目中的 Servlet 接口、Jsp 文件、Freemarker 等,這些需要經(jīng)過服務(wù)端渲染之后,才可以返回前端的資源。在實際項目中,靜態(tài)資源的訪問速度要遠(yuǎn)遠(yuǎn)高于動態(tài)資源,動態(tài)資源往往很容易遇到服務(wù)器瓶頸、數(shù)據(jù)庫瓶頸,因此,對于一些不經(jīng)常更新的頁面,或者說更新比較緩慢的頁面,我們可以通過頁面靜態(tài)化,將一個動態(tài)資源保存為靜態(tài)資源,這樣當(dāng)服務(wù)端需要訪問的時候,直接將靜態(tài)資源返回,就可以避免去操作數(shù)據(jù)庫了,降低數(shù)據(jù)庫的壓力。例如我本人以前做過的一個電商項目,系統(tǒng)根據(jù)大數(shù)據(jù)統(tǒng)計,自動統(tǒng)計出用戶當(dāng)前搜索的熱點商品,這些熱點商品,10 分鐘更新一次,也就是說,在十分鐘內(nèi),用戶登錄上來看到的熱點商品都是相同的。那么就沒有必要每次都去查詢數(shù)據(jù)庫,而是將熱點數(shù)據(jù)的頁面,通過輸出流自動寫到服務(wù)器上,寫成一個普通的 HTML 文件,下次用戶來訪問,在 10 分鐘有效期內(nèi),直接將 HTML 頁面返回給用戶,就不必操作數(shù)據(jù)庫了。一般來說,F(xiàn)reemarker、Velocity 等都有相關(guān)的方法可以幫助我們快速將動態(tài)頁面生成靜態(tài)頁面。這就是頁面靜態(tài)化。
3、數(shù)據(jù)庫優(yōu)化
很多時候程序跑得慢,不是因為設(shè)備落后,而是因為數(shù)據(jù)庫 SQL 寫的太差勁。
要解決海量數(shù)據(jù)的問題,數(shù)據(jù)庫優(yōu)化肯定也是不可避免的。一般來說,我們可以從 SQL 優(yōu)化、表結(jié)構(gòu)優(yōu)化、以及數(shù)據(jù)庫分區(qū)分表等多個方面來對數(shù)據(jù)庫進(jìn)行優(yōu)化。
4、熱點數(shù)據(jù)分離
數(shù)據(jù)庫中的數(shù)據(jù),雖然是海量數(shù)據(jù),但是這些數(shù)據(jù)并不見得所有數(shù)據(jù)都是活躍數(shù)據(jù),例如用戶注冊,有的用戶注冊完就消失的無影無蹤了,而有的用戶則在不停的登錄,因此,對于這兩種不同的用戶,我們可以將活躍用戶分離出來,在主要操作的數(shù)據(jù)表中只保存活躍用戶數(shù)據(jù)。每次用戶登錄,先去主表中查看有沒有記錄,有的話,直接登錄,沒有的話,再去查看其他表。
通過判斷用戶在某一段時間內(nèi)的登錄次數(shù),就可以很快分離出熱點數(shù)據(jù)。
5、合并數(shù)據(jù)庫操作
這個方案的宗旨其實是減少數(shù)據(jù)庫操作的次數(shù),例如多次插入操作,我們可以合并成一條 SQL 搞定。多個不同條件的查詢,如果條件允許的話,也可以合并成為一個查詢,盡量減少數(shù)據(jù)庫的操作,減少在網(wǎng)絡(luò)上消耗,同時也降低數(shù)據(jù)庫的壓力。
6、數(shù)據(jù)庫讀寫分離
數(shù)據(jù)庫的讀寫分離其實在之前的 MyCat 中也和大伙聊過了(MyCat 系列),讀寫分離之后,一方面可以提高數(shù)據(jù)庫的操作效率,另一方面也算是對數(shù)據(jù)庫的一個備份。
7、分布式數(shù)據(jù)庫
數(shù)據(jù)庫讀寫分離之后,無形中增大了代碼的復(fù)雜度,所以一般還需要借助分布式數(shù)據(jù)庫中間件,這樣可以有效提高數(shù)據(jù)庫的彈性,可以方便的隨時為數(shù)據(jù)庫擴容,同時也降低代碼的耦合度。
8、NoSQL 和 Hadoop
另外,引入 NoSQL 和 Hadoop 也是解決方案之一。NoSQL 突破了關(guān)系型數(shù)據(jù)庫中對表結(jié)構(gòu)、字段等定義的條條框框,使用戶可以非常靈活方便的操作,另外 NoSQL 通過多個存儲塊存儲數(shù)據(jù)的特點,使得天然具備操作大數(shù)據(jù)的優(yōu)勢(快)。不過,老實說,NoSQL 目前還是在互聯(lián)網(wǎng)項目中比較常見,在傳統(tǒng)的企業(yè)級應(yīng)用中還是比較少見。