隨著物聯(lián)網(wǎng)、社交化、BYOD等技術(shù)的廣泛應(yīng)用,數(shù)據(jù)呈現(xiàn)爆炸性增長。不僅對存儲的性能及容量提出苛刻考驗(yàn),還要具備快速的數(shù)據(jù)檢索與分析能力以即時(shí)獲取關(guān)鍵價(jià)值信息;同時(shí),活躍數(shù)據(jù)歸檔需要更加簡便、成本效益的存儲方案。美國市場研究公司IDC認(rèn)為“在可預(yù)見的未來,存儲是大數(shù)據(jù)和分析領(lǐng)域最大的基礎(chǔ)設(shè)施開支之一。
Hadoop的數(shù)據(jù)是非常重要的一點(diǎn)。一般來說有三種方法來應(yīng)對處理和存儲,一種方法是實(shí)時(shí)的分析工具,同時(shí)還有一些數(shù)據(jù)的操作性的工作。也就是說得到了什么到底怎么做?同時(shí)還需要進(jìn)行對數(shù)據(jù)的操作,這需要處理多種不同的數(shù)據(jù)得到一個(gè)結(jié)果,這就是Hadoop在早期的時(shí)候超越其他工具的地方。而且我們必須要處理數(shù)據(jù),用這個(gè)數(shù)據(jù)來在培訓(xùn)過程中引用到,或者引用來進(jìn)行一些可視化,幫助來使用一些。
存儲和網(wǎng)絡(luò)也是Hadoop集群性能的重要保證。在Hadoop集群中,萬兆位以太網(wǎng)(10GbE)帶來的帶寬增長是導(dǎo)入和復(fù)制(在多臺服務(wù)器之間)大型數(shù)據(jù)集的關(guān)鍵,英特爾Ethernet10Gigabit融合網(wǎng)絡(luò)適配器提供了高吞吐量連接,同時(shí)英特爾SATA固態(tài)硬盤為原始存儲提供了高性能、高吞吐量存儲選擇。為提高效率,存儲往往需要支持其它高級能力,如壓縮、加密、自動(dòng)數(shù)據(jù)分層、重復(fù)數(shù)據(jù)刪除、糾刪碼和自動(dòng)精簡配置,現(xiàn)有的英特爾至強(qiáng)處理器都已經(jīng)支持這些功能。
隨著大量IT廠商的加入,Hadoop的商用版本正呈增長趨勢,眾多廠商都推出了自己的Hadoop版本,并集合了其他Hadoop項(xiàng)目的基本堆棧,可與數(shù)據(jù)倉庫、數(shù)據(jù)庫和其他數(shù)據(jù)管理產(chǎn)品集成。
讓Hadoop成為下一代數(shù)據(jù)分析平臺的“基石”。英特爾Hadoop發(fā)行版免費(fèi)版v2.2,為最終用戶和應(yīng)用提供商提供了一個(gè)功能強(qiáng)大、方便易用的大數(shù)據(jù)入門平臺。而且免費(fèi)版和企業(yè)版共用相同的核心代碼,免費(fèi)版也包含所有核心增強(qiáng)功能,不過免費(fèi)版在節(jié)點(diǎn)數(shù)和系統(tǒng)存儲容量上有所限制。
英特爾大數(shù)據(jù)Hadoop的版本特點(diǎn)有4個(gè)方面,一方面是穩(wěn)定性和易用性上做了優(yōu)化。第二方面對英特爾的平臺做了特殊的優(yōu)化,這個(gè)軟件包在英特爾平臺上從性能上和效率上是有優(yōu)勢的。第三方面在算法和結(jié)構(gòu)上做了調(diào)整,也就是對即時(shí)性的優(yōu)化,使得它能夠做到即時(shí)的數(shù)據(jù)處理。第四方面是和中國的用戶合作,對行業(yè)應(yīng)用做了特殊的調(diào)整和優(yōu)化。
最重要的還是是安全的優(yōu)化,要運(yùn)行各種不同的運(yùn)行,在某一個(gè)APP的環(huán)境Hadoop是一個(gè)獨(dú)立的集群,也許它管理起來并不是那么容易,雖然效率并不是很高,但它是獨(dú)立運(yùn)行的,把它放在一起可以看到是單一數(shù)據(jù)的分享。我們看到了很多的數(shù)據(jù),把它放到了云的計(jì)算中,比如說基礎(chǔ)設(shè)施可能是同一個(gè)基礎(chǔ)架構(gòu)對資源進(jìn)行分享。但在分享存儲這方面可以看到有一些大數(shù)據(jù)都可以有一些優(yōu)勢,但問題并不是完全需要這樣的。資源的分享、存儲的分享確實(shí)是可以的,你可以用SANorNAS進(jìn)行分享,你可以對集群進(jìn)行評論的工作,還可以幫助你不斷地改善虛擬的架構(gòu)。