數(shù)據(jù)分析是很多組織在云計(jì)算平臺(tái)進(jìn)行的一項(xiàng)主要計(jì)算工作,也許是因?yàn)镮T技術(shù)人員擅長(zhǎng)編程,或者也許是因?yàn)榭茖W(xué)家的實(shí)驗(yàn)室設(shè)備需要直接連接到計(jì)算機(jī)記錄數(shù)據(jù),或者也許是因?yàn)閿?shù)據(jù)集太大遷移它們非常耗時(shí)。
無論是什么原因,科學(xué)家和數(shù)據(jù)分析師都逐漸地接受了遠(yuǎn)程計(jì)算。用于機(jī)器學(xué)習(xí)、人工智能、數(shù)據(jù)分析的基于云計(jì)算的工具日前增多。其中的一些應(yīng)用是在基于云計(jì)算的文檔編輯和電子郵件,技術(shù)人員可以通過各種設(shè)備登錄中央存儲(chǔ)庫,并在遠(yuǎn)程位置,甚至在路上或海灘上進(jìn)行工作。云計(jì)算可以處理文件備份和同步,簡(jiǎn)化工作流程。
實(shí)際上,數(shù)據(jù)分析更適合采用云計(jì)算。當(dāng)數(shù)據(jù)集很大時(shí),云計(jì)算用戶可以在租用的硬件設(shè)施上運(yùn)行大型作業(yè),從而更快、更好地完成工作。用戶沒有必要啟動(dòng)電腦花費(fèi)大量時(shí)間進(jìn)行處理。而采用云計(jì)算,只需啟動(dòng)數(shù)十個(gè)裝有大量?jī)?nèi)存的云計(jì)算實(shí)例,并在幾分鐘內(nèi)觀察處理結(jié)果,因此可以節(jié)省時(shí)間和成本。
組織采用云計(jì)算也存在一定的風(fēng)險(xiǎn),而最大的風(fēng)險(xiǎn)是對(duì)用戶隱私的擔(dān)憂。一些數(shù)據(jù)分析涉及用戶的個(gè)人信息。人們已經(jīng)習(xí)慣了在實(shí)驗(yàn)室中處理數(shù)據(jù)的安全問題,很難知道云中發(fā)生了什么。
人們對(duì)云計(jì)算提供商使用的最佳實(shí)踐感到滿意之前還需要一段時(shí)間。人們已經(jīng)認(rèn)識(shí)到,云計(jì)算提供商可能會(huì)聘請(qǐng)更多的安全顧問。如果個(gè)人電腦連接到全球互聯(lián)網(wǎng),那么人們可能會(huì)說它已經(jīng)是云計(jì)算的一部分。
幸運(yùn)的是還有一些解決方法。最簡(jiǎn)單的方法是使用隨機(jī)ID替換個(gè)人信息等技術(shù)來匿名化數(shù)據(jù)。這種方法并不完美,但是它可以在很大程度上緩解黑客在突破云計(jì)算的防御之后可能造成的麻煩。
還有一些其他的優(yōu)點(diǎn)。一些提供商可以向公眾共享或開放源數(shù)據(jù)集,這可能生成更多的組合。一些云計(jì)算提供商正在策劃自己的數(shù)據(jù)集,并減少存儲(chǔ)成本以吸引用戶。如果用戶愿意,可以嘗試將產(chǎn)品銷售與天氣或太陽黑子等公共數(shù)據(jù)集中的任何其他信息相關(guān)聯(lián)。誰知道呢?這里有很多奇怪的相關(guān)性。
以下是七種不同的基于云計(jì)算的機(jī)器學(xué)習(xí)服務(wù),可幫助人們理解數(shù)據(jù)集中的相關(guān)性和信號(hào)。
(1)Amazon SageMaker
亞馬遜公司創(chuàng)建了SageMaker,以簡(jiǎn)化使用其機(jī)器學(xué)習(xí)工具的工作。Amazon SageMaker將不同的AWS存儲(chǔ)選項(xiàng)(S3、Dynamo、Redshift等)組合在一起,并將數(shù)據(jù)傳輸?shù)搅餍械臋C(jī)器學(xué)習(xí)庫(TensorFlow、MXNet、Chainer等)的Docker容器中。在最終模型作為自己的API部署之前,可以使用Jupyter記事本跟蹤所有工作。SageMaker將用戶的數(shù)據(jù)移動(dòng)到亞馬遜公共云的服務(wù)器中,因此用戶可以專注于思考算法而不是過程。如果要在本地運(yùn)行算法,可以隨時(shí)下載Docker鏡像以簡(jiǎn)化操作。
(2)微軟Azure機(jī)器學(xué)習(xí)
微軟公司已經(jīng)看到了機(jī)器學(xué)習(xí)的未來,并全力投入到Machine.ingStudio中,這是一種用于在數(shù)據(jù)中查找信號(hào)的復(fù)雜圖形工具。這就像人工智能的電子表格。有一個(gè)拖放界面,用于構(gòu)建流程圖以理解數(shù)字。文檔上表明“不需要編碼”,這在技術(shù)上是正確的,但用戶仍然需要像程序員一樣思考才能有效地使用它,而不會(huì)陷入構(gòu)建代碼的困境。但如果錯(cuò)過了語法錯(cuò)誤、數(shù)據(jù)類型以及編程的其他樂趣,用戶可以導(dǎo)入用Python、R或其他一些選項(xiàng)編寫的模塊。
最有趣的選擇是,微軟公司已添加基礎(chǔ)設(shè)施,以便從人工智能中學(xué)到的內(nèi)容,并將預(yù)測(cè)模型轉(zhuǎn)換為在Azure公共云中運(yùn)行的Web服務(wù)。因此,用戶可以構(gòu)建訓(xùn)練集,創(chuàng)建模型,然后只需點(diǎn)擊鍵盤和鼠標(biāo),就可以從Azure服務(wù)中提供JSON數(shù)據(jù)包的答案。
(3)BigML
BigML是一種用于數(shù)據(jù)分析的混合儀表板,可以在BigML云平臺(tái)中使用,也可以在本地安裝。其主界面是一個(gè)儀表板,列出了所有等待由幾十臺(tái)機(jī)器學(xué)習(xí)分類器、集群器、回歸器和異常檢測(cè)器分析的所有文件。單擊并顯示結(jié)果。
最近,該公司專注于新算法,增強(qiáng)了堆棧提供有用答案的能力。新的Fusion代碼可以集成多種算法的結(jié)果,以提高準(zhǔn)確性。
通過在BigML自己的服務(wù)器上采用大量免費(fèi)套餐。用戶還可以在AWS,Azure或谷歌云平臺(tái)上構(gòu)建私有部署。如果這仍然比較公開的話,他們會(huì)將其部署在用戶的私人服務(wù)器上。
(4)Databricks
Databricks工具集由Apache Spark的一些開發(fā)人員構(gòu)建,他們采用了開源分析平臺(tái),并增加了一些顯著的速度增強(qiáng)功能,通過一些巧妙的壓縮和索引來提高吞吐量。名為Delta的混合數(shù)據(jù)存儲(chǔ)是可以存儲(chǔ)大量數(shù)據(jù)然后快速分析的地方。當(dāng)新數(shù)據(jù)到達(dá)時(shí),它可以壓縮到原有的存儲(chǔ)器中以進(jìn)行快速重新分析。
Apache Spark的所有標(biāo)準(zhǔn)化分析程序都可以在這些數(shù)據(jù)上運(yùn)行,但對(duì)Spark基礎(chǔ)結(jié)構(gòu)進(jìn)行了一些急需的改進(jìn),例如用于分析代碼的集成記事本。
Databricks與AWS和Azure集成,并根據(jù)消費(fèi)和性能定價(jià)。每個(gè)計(jì)算引擎都在Databrick Units中測(cè)量。企業(yè)需要為更快的型號(hào)支付更多費(fèi)用。
(5)DataRobot
這里的許多方法都讓用戶只需點(diǎn)擊鍵盤即可構(gòu)建機(jī)器學(xué)習(xí)模型。DataRobot宣稱能夠同時(shí)構(gòu)建數(shù)百個(gè)模型,只需單擊一下鍵盤即可。在完成模型后,用戶可以通過它們進(jìn)行挑選,找出能夠做得更好的模型,并繼續(xù)進(jìn)行預(yù)測(cè)。其秘密是采用一個(gè)大規(guī)模的并行處理引擎,換句話說就是采用多臺(tái)機(jī)器進(jìn)行分析。
DataRobot正在通過實(shí)施新算法和擴(kuò)展當(dāng)前算法來擴(kuò)展。該公司最近收購了Nutonian,其Eureqa引擎應(yīng)該增強(qiáng)自動(dòng)化機(jī)器學(xué)習(xí)平臺(tái)創(chuàng)建時(shí)間序列和分類模型的能力。該系統(tǒng)還為更高級(jí)的用戶提供了Python API。
DataRobot可通過DataRobot Cloud或嵌入式工程師隨附的企業(yè)軟件版本獲得。
(6)谷歌云機(jī)器學(xué)習(xí)引擎
谷歌公司在TensorFlow上投入了大量資金,TensorFlow是用于在數(shù)據(jù)中查找信號(hào)的標(biāo)準(zhǔn)開源庫之一,現(xiàn)在用戶可以在谷歌云平臺(tái)中嘗試采用TensorFlow。谷歌云機(jī)器學(xué)習(xí)引擎中的一些工具是開源的,對(duì)于任何下載它們的用戶來說都是免費(fèi)的,有些工具是谷歌云平臺(tái)中商業(yè)選項(xiàng)的一部分。這使用戶可以自由地探索,并避免一些鎖定,因?yàn)榇蟛糠执a都是開源的,并且可以在任何Mac,Windows或Linux機(jī)器上運(yùn)行。
還有幾個(gè)不同的工具。采用最容易的工具可能是Colaboratory,它將Jupyter記事本連接到谷歌的TensorFlow后端,因此用戶可以編寫出代碼并查看它的運(yùn)行情況。谷歌公司還為希望進(jìn)行實(shí)驗(yàn)的科學(xué)家提供TensorFlow研究云。在合適的情況下,用戶可以使用GPU或TPU在谷歌公司的加速硬件上運(yùn)行機(jī)器學(xué)習(xí)模型。
(7)IBM Watson Studio
現(xiàn)在Watson將IBM公司的大部分資源都投入了人工智能。IBM Watson Studio是一種用于在云端或本地中探索數(shù)據(jù)和訓(xùn)練模型的工具。在數(shù)據(jù)傳入時(shí),其結(jié)果在公司的儀表板上顯示漂亮的圖表。
最大的區(qū)別可能是桌面版的Watson Studio。用戶可以使用基于云計(jì)算的版本來研究數(shù)據(jù),并享受彈性資源和集中式存儲(chǔ)庫帶來的所有功能?;蛘哂脩艨梢酝ㄟ^防火墻的隱私和桌面的便利做同樣的事情。
每個(gè)云平臺(tái)中的機(jī)器學(xué)習(xí)模型
雖然很多人都希望為他們的人工智能研究選擇一個(gè)儀表板,但是沒有理由不采用更多的選擇。一旦完成所有預(yù)處理和數(shù)據(jù)清理,用戶可以將相同的CSV格式數(shù)據(jù)提供給所有這些服務(wù),并比較結(jié)果以找到最佳選擇。其中一些服務(wù)已經(jīng)提供了算法之間的自動(dòng)比較。為什么不使用多個(gè)呢?
用戶還可以利用一些不斷發(fā)展的開放標(biāo)準(zhǔn)。例如,Jupyter記事本通常無需太多修改即可運(yùn)行。用戶可以在一個(gè)平臺(tái)上進(jìn)行開發(fā),然后將大部分代碼與數(shù)據(jù)一起移動(dòng),以測(cè)試不同平臺(tái)上的任何新算法或不同算法。
人們距離標(biāo)準(zhǔn)化還有很長(zhǎng)的路要走,很多算法之間存在著詭異和無法解釋的差異。因此,用戶不要僅僅考慮一種算法或一種訓(xùn)練方法,而是需要嘗試使用盡可能多的不同建模工具。