近十年來,隨著計(jì)算機(jī)處理能力和速度的顯著提高,我們逐漸能夠從繁瑣且耗時(shí)的手動(dòng)式數(shù)據(jù)分析,轉(zhuǎn)變成為快速便捷的自動(dòng)化方法。面對(duì)被收集到的數(shù)據(jù)集日趨增長(zhǎng),能夠發(fā)現(xiàn)的信息相關(guān)性也日益復(fù)雜,目前各大零售商、銀行、制造商、醫(yī)療保健公司,都在通過數(shù)據(jù)挖掘技術(shù),在發(fā)現(xiàn)價(jià)格變化、促銷策略、用戶偏好、消費(fèi)習(xí)慣、以及支付風(fēng)險(xiǎn)等方面,針對(duì)業(yè)務(wù)模型、收入、運(yùn)營(yíng)、以及客戶關(guān)系產(chǎn)生深遠(yuǎn)的影響。不過,隨著各個(gè)公司能夠獲取數(shù)據(jù)能力的增強(qiáng),它們會(huì)碰到如何充分利用好海量的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù),促進(jìn)業(yè)務(wù)增長(zhǎng)等新問題。而這些往往需要數(shù)據(jù)科學(xué)家的協(xié)助與實(shí)現(xiàn)。
什么是數(shù)據(jù)挖掘?
從業(yè)務(wù)角度而言,我們將分析大數(shù)據(jù),發(fā)現(xiàn)商業(yè)智能,協(xié)助公司解決現(xiàn)實(shí)問題,減輕風(fēng)險(xiǎn),以及抓住新機(jī)遇的過程,統(tǒng)稱為數(shù)據(jù)挖掘。而在計(jì)算機(jī)科學(xué)中,它是在大量數(shù)據(jù)中,發(fā)現(xiàn)實(shí)用的模式、及其相互關(guān)系的過程。它通常涉及到將統(tǒng)計(jì)學(xué)、人工智能(AI)工具、以及數(shù)據(jù)庫(kù)管理相結(jié)合,通過對(duì)大型數(shù)據(jù)集予以分析,查找潛藏的異常情況,發(fā)現(xiàn)數(shù)據(jù)模式與相關(guān)性,將原始數(shù)據(jù)轉(zhuǎn)化為實(shí)用信息,進(jìn)而實(shí)現(xiàn)結(jié)果預(yù)測(cè)。
數(shù)據(jù)挖掘過程的基本步驟
1.收集數(shù)據(jù),將其加載到數(shù)據(jù)倉(cāng)庫(kù)中。
2.在本地服務(wù)器或云端,存儲(chǔ)與管理數(shù)據(jù)。
3.業(yè)務(wù)分析師、管理團(tuán)隊(duì)和IT專業(yè)人員通過訪問數(shù)據(jù),以確定該如何規(guī)整數(shù)據(jù)。
4.應(yīng)用軟件根據(jù)特定的需求,對(duì)數(shù)據(jù)進(jìn)行排序。
5.以圖形或表格等形式,向最終用戶共享或展示數(shù)據(jù)。
為了及時(shí)獲取可靠的分析結(jié)果,我們通常需要通過如下六個(gè)步驟,對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化:
1.業(yè)務(wù)理解
全面了解當(dāng)前的業(yè)務(wù)狀況、項(xiàng)目的主要目標(biāo)、以及成功的標(biāo)準(zhǔn)等方面。
2.數(shù)據(jù)理解
確定解決問題所需的數(shù)據(jù),并從所有可用來源收集數(shù)據(jù)。
3.數(shù)據(jù)準(zhǔn)備
為滿足業(yè)務(wù)需求,準(zhǔn)備適當(dāng)?shù)臄?shù)據(jù)格式,防范數(shù)據(jù)出現(xiàn)丟失或重復(fù)等質(zhì)量問題。
4.建模
使用算法,識(shí)別出數(shù)據(jù)中的潛在模式。
5.評(píng)估
評(píng)估給定模型所產(chǎn)生的效果與業(yè)務(wù)目標(biāo)之間的差距。為了獲得最佳結(jié)果,我們通常需要一個(gè)迭代的過程,來找到最佳算法。
6.部署
將輸出的結(jié)果提供給決策者。
數(shù)據(jù)挖掘的技術(shù)
目前,企業(yè)可以使用如下多種數(shù)據(jù)挖掘技術(shù),來從原始數(shù)據(jù)中獲取有價(jià)值的洞見:
1.模式跟蹤
模式跟蹤是數(shù)據(jù)挖掘的一項(xiàng)基本技術(shù)。它旨在通過識(shí)別和監(jiān)視數(shù)據(jù)中的趨勢(shì)或模式,以對(duì)業(yè)務(wù)成果形成智能推斷。例如,企業(yè)可以用它來識(shí)別銷售數(shù)據(jù)的發(fā)展趨勢(shì)。如果發(fā)現(xiàn)某種產(chǎn)品在某些特定人群中的銷售情況,要好于其他產(chǎn)品,那么該企業(yè)便可以據(jù)此來創(chuàng)建類似的產(chǎn)品或服務(wù),甚至只是簡(jiǎn)單地為此類人群增加原始產(chǎn)品的庫(kù)存。
2.數(shù)據(jù)清理和準(zhǔn)備
作為數(shù)據(jù)挖掘過程中的一個(gè)重要環(huán)節(jié),我們必須對(duì)原始數(shù)據(jù)進(jìn)行清理和格式化,以用于各種后續(xù)的分析。具體而言,數(shù)據(jù)的清理和準(zhǔn)備工作包含了:數(shù)據(jù)建模,轉(zhuǎn)換,遷移,集成和聚合等各種元素。這是理解數(shù)據(jù)基本特征和屬性,進(jìn)而確定其最佳用途的必要步驟。
3.分類
基于分類的數(shù)據(jù)挖掘技術(shù),主要涉及到分析各種類型數(shù)據(jù)之間的關(guān)聯(lián)屬性。一旦確定了數(shù)據(jù)類型的關(guān)鍵特征,企業(yè)便可以對(duì)它們進(jìn)行分類。企業(yè)可以據(jù)此判定是該保護(hù),還是該刪除某些個(gè)人身份信息。
4.異常值(Outlier)檢測(cè)
異常值檢測(cè)可被用于識(shí)別數(shù)據(jù)集中的異常情況。企業(yè)在發(fā)現(xiàn)數(shù)據(jù)中異常值后,可以通過防范此類事件的發(fā)生,以順利實(shí)現(xiàn)業(yè)務(wù)目標(biāo)。例如,信用卡系統(tǒng)在某個(gè)特定時(shí)段出現(xiàn)使用和交易的高峰,那么企業(yè)便可以通過分析了解到,可能是由于“大促”所致,并為將來的此類活動(dòng)做好資源上的事先部署與準(zhǔn)備。
5.關(guān)聯(lián)
關(guān)聯(lián)是一種與統(tǒng)計(jì)學(xué)相關(guān)的數(shù)據(jù)挖掘技術(shù)。它旨在建立某些數(shù)據(jù)與其他數(shù)據(jù)、或數(shù)據(jù)驅(qū)動(dòng)型事件的聯(lián)系。它與機(jī)器學(xué)習(xí)中的“共現(xiàn)(co-occurrence)”概念相似,即:某個(gè)基于數(shù)據(jù)的事件的發(fā)生概率,是由另一個(gè)事件的存在性所標(biāo)識(shí)的。例如,用戶購(gòu)買漢堡這一行為,往往會(huì)伴隨著購(gòu)買薯片的可能性。兩者之間有著較強(qiáng)的關(guān)聯(lián)性,卻又不是絕對(duì)的伴生關(guān)系。
6.聚類
聚類是一種依靠可視化方法,來理解數(shù)據(jù)的分析技術(shù)。聚類機(jī)制使用圖形或顏色,來顯示數(shù)據(jù)在不同類別指標(biāo)下的分布情況。通過圖形式的聚類分析,用戶可以直觀地獲悉數(shù)據(jù)隨業(yè)務(wù)目標(biāo)發(fā)展的趨勢(shì)。
7.回歸
作為一種簡(jiǎn)單的白盒技術(shù),回歸技術(shù)可被用于識(shí)別出,數(shù)據(jù)集中變量之間的因果關(guān)系、或相關(guān)性質(zhì)。它在數(shù)據(jù)建模和預(yù)測(cè)等方面非常實(shí)用。
8.順序模式
此類數(shù)據(jù)挖掘技術(shù)關(guān)注于發(fā)現(xiàn)和挖掘一系列順序發(fā)生的事件,因此常被用于事務(wù)性的數(shù)據(jù)環(huán)境中。例如,它可以預(yù)測(cè)某個(gè)顧客在最初購(gòu)買了某種樣式的鞋后,最有可能去購(gòu)買哪些相配的服裝。順序模式可以幫助企業(yè)向客戶推薦并銷售其他增值項(xiàng)產(chǎn)品。
9.預(yù)測(cè)
預(yù)測(cè)分析是指在當(dāng)前或歷史的數(shù)據(jù)中,對(duì)發(fā)現(xiàn)到的模式進(jìn)行擴(kuò)展,以便企業(yè)根據(jù)現(xiàn)有數(shù)據(jù),洞察到即將發(fā)生的趨勢(shì)。我們既可以使用簡(jiǎn)單的算法,又可以運(yùn)用高級(jí)的機(jī)器學(xué)習(xí)和人工智能來實(shí)現(xiàn)預(yù)測(cè)分析。
10.決策樹
作為一種特定類型的預(yù)測(cè)模型,決策樹可以讓企業(yè)有效地提取所需的數(shù)據(jù)。從技術(shù)上說,決策樹屬于一種極其簡(jiǎn)單的“白盒”類機(jī)器學(xué)習(xí)技術(shù)。而從效果上說,決策樹能夠使用戶清楚地了解到,輸入數(shù)據(jù)是如何影響結(jié)果的。當(dāng)有多個(gè)決策樹模型被組合在一起時(shí),它們將創(chuàng)建所謂隨機(jī)森林的預(yù)測(cè)分析模型。由于輸入并不總能被輕易地猜測(cè)其輸出結(jié)果,因此復(fù)雜的隨機(jī)森林模型常被視為“黑盒”類機(jī)器學(xué)習(xí)技術(shù)。當(dāng)然,在大多數(shù)情況下,相比單純地使用決策樹,集成建模的基本形式要更為準(zhǔn)確一些。
11.神經(jīng)網(wǎng)絡(luò)
作為一種特定類型的機(jī)器學(xué)習(xí)模型,神經(jīng)網(wǎng)絡(luò)通常能夠與AI、以及深度學(xué)習(xí)協(xié)同使用。由于該網(wǎng)絡(luò)具有類似于人腦中神經(jīng)元的不同功能層,因此它被譽(yù)為目前最精確的機(jī)器學(xué)習(xí)模型之一。
12.可視化
數(shù)據(jù)可視化可以在數(shù)據(jù)挖掘的過程中,為用戶提供可查看到的數(shù)據(jù)視圖。目前,數(shù)據(jù)可視化可用于實(shí)時(shí)數(shù)據(jù)流的傳輸場(chǎng)景中,以不同的顏色、動(dòng)態(tài)地展示數(shù)據(jù)中的不同趨勢(shì)和模式。企業(yè)不僅能夠使用統(tǒng)計(jì)模型中的數(shù)值結(jié)果,還可以用基于不同指標(biāo)的儀表板,來可視化地突顯數(shù)據(jù)中的模式。
13.統(tǒng)計(jì)技術(shù)
作為數(shù)據(jù)挖掘過程的核心,統(tǒng)計(jì)技術(shù)基于統(tǒng)計(jì)的概念,利用不同的分析模型,產(chǎn)生適用于特定業(yè)務(wù)目標(biāo)的數(shù)值。例如,神經(jīng)網(wǎng)絡(luò)可以使用基于不同權(quán)重和度量的復(fù)雜統(tǒng)計(jì)信息,來確定被輸入到圖像識(shí)別系統(tǒng)中的圖片上,到底是狗、還是貓。
14.長(zhǎng)時(shí)記憶處理(Long-term Memory Processing)
長(zhǎng)時(shí)記憶處理是指能夠長(zhǎng)時(shí)間分析數(shù)據(jù)的能力。那些存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中的歷史數(shù)據(jù)可被用于此目的。企業(yè)需要通過長(zhǎng)時(shí)分析,來識(shí)別出原本難以檢測(cè)到的模式。例如,通過分析過去幾年的人員流失情況,企業(yè)可以找到可能導(dǎo)致賬務(wù)惡化的蛛絲馬跡。
15.數(shù)據(jù)倉(cāng)庫(kù)
從傳統(tǒng)上說,數(shù)據(jù)倉(cāng)庫(kù)是將結(jié)構(gòu)化的數(shù)據(jù),存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)中,以便對(duì)其進(jìn)行商業(yè)智能化分析、報(bào)告,并提供基本的儀表板顯示。目前,業(yè)界有基于云端的數(shù)據(jù)倉(cāng)庫(kù)、以及半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)倉(cāng)庫(kù)(如Hadoop)。過去,數(shù)據(jù)倉(cāng)庫(kù)主要處理的是歷史數(shù)據(jù)。如今,它也能夠利用各種現(xiàn)代化技術(shù)與方法,實(shí)時(shí)地提供對(duì)于數(shù)據(jù)的深入分析。
16.機(jī)器學(xué)習(xí)與人工智能
諸如深度學(xué)習(xí)之類的高級(jí)機(jī)器學(xué)習(xí)形式,在處理大規(guī)模的數(shù)據(jù)時(shí),可以提供較高準(zhǔn)確性的預(yù)測(cè)。因此,它們可以被用在實(shí)施AI過程中的數(shù)據(jù)處理,其中包括:計(jì)算機(jī)視覺、語(yǔ)音識(shí)別、以及使用自然語(yǔ)言處理的復(fù)雜文本分析等。此類數(shù)據(jù)挖掘技術(shù)有助于識(shí)別半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)價(jià)值。
數(shù)據(jù)挖掘的重要性
篩選并濾除數(shù)據(jù)中各種混雜與重復(fù)性“噪聲”。
識(shí)別相關(guān)數(shù)據(jù),并用其評(píng)估可能出現(xiàn)的結(jié)果。
加快企業(yè)做出明智決策的過程。
數(shù)據(jù)挖掘的優(yōu)勢(shì)
可協(xié)助企業(yè)獲取基于知識(shí)(knowledge-based)的信息。
可以被部署并實(shí)施在新的或既有的平臺(tái)上。
可協(xié)助企業(yè)在生產(chǎn)和運(yùn)營(yíng)中按需進(jìn)行調(diào)整。
促進(jìn)趨勢(shì)和行為的自動(dòng)化預(yù)測(cè),以及隱藏模式的自動(dòng)發(fā)現(xiàn)。
相比其他統(tǒng)計(jì)數(shù)據(jù)類型的應(yīng)用,更加經(jīng)濟(jì)高效。
有助于改進(jìn)決策的過程。
作為一個(gè)快速的過程,可以讓用戶輕松地在更少的時(shí)間內(nèi)分析大量數(shù)據(jù)。
十種數(shù)據(jù)挖掘工具
由于數(shù)據(jù)挖掘過程是在數(shù)據(jù)被獲取后立即執(zhí)行的,因此找到那些能夠針對(duì)不同數(shù)據(jù)結(jié)構(gòu)進(jìn)行分類、分析與挖掘的工具,是至關(guān)重要的。下面,讓我們來討論十種業(yè)界常用的挖掘工具。
1.Oracle Data Mining
Oracle Data Mining(也稱為ODM)是Oracle高級(jí)分析數(shù)據(jù)庫(kù)(Advanced Analytics Database)的一個(gè)模塊。該數(shù)據(jù)挖掘工具既能夠方便數(shù)據(jù)分析師生成詳細(xì)的數(shù)據(jù)見解,并做出預(yù)測(cè);又可以協(xié)助識(shí)別到交叉銷售(Cross-sells)的機(jī)會(huì),開發(fā)出用戶畫像(profiles),并最終預(yù)測(cè)用戶的行為。
2.Rapid Miner
由Java語(yǔ)言編寫的Rapid Miner,是目前最好的預(yù)測(cè)分析系統(tǒng)之一。它能夠?yàn)樯疃葘W(xué)習(xí)、文本挖掘、機(jī)器學(xué)習(xí)和預(yù)測(cè)分析,提供一套集成化的環(huán)境。其系列產(chǎn)品可以被用來構(gòu)建全新的數(shù)據(jù)挖掘過程,以及執(zhí)行預(yù)測(cè)性的設(shè)置分析。
3.Orange Data Mining
作為可用于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的完美軟件套件,Orange Data Mining通過基于組件的方式,來協(xié)助實(shí)現(xiàn)數(shù)據(jù)的可視化。它的組件常被稱為“widgets”,其中包括各種預(yù)處理、數(shù)據(jù)可視化、算法評(píng)估、以及預(yù)測(cè)建模等部件。它們可以協(xié)助實(shí)現(xiàn):顯示數(shù)據(jù)表,選擇不同的功能,讀取數(shù)據(jù),訓(xùn)練預(yù)測(cè)變量,比較學(xué)習(xí)算法,以及可視化數(shù)據(jù)元素等服務(wù)。
4.Weka
由Java語(yǔ)言編寫的Weka,通過提供GUI,以方便用戶輕松地訪問其所有功能。開發(fā)者可以在其圖形化的界面中執(zhí)行諸如:預(yù)處理、分類、回歸、聚類、以及可視化等各種數(shù)據(jù)挖掘任務(wù)。而作為一款開源的機(jī)器學(xué)習(xí)軟件,Weka為各種任務(wù)內(nèi)置并提供了大量可用于數(shù)據(jù)挖掘的機(jī)器學(xué)習(xí)算法。因此,您無需編寫任何代碼,即可快速地驗(yàn)證自己的數(shù)據(jù)猜測(cè),并部署出相應(yīng)的模型。
5.KNIME
基于模塊化數(shù)據(jù)管道的KNIME,是由KNIME AG開發(fā)的最佳數(shù)據(jù)分析與報(bào)告的集成化平臺(tái)。它不但免費(fèi)開源,而且?guī)в懈鞣N機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的相關(guān)組件。其直觀的界面,可方便用戶創(chuàng)建從建模到生產(chǎn)環(huán)境的端到端式數(shù)據(jù)科學(xué)工作流。作為一個(gè)通用的可擴(kuò)展平臺(tái),KNIME帶有強(qiáng)大的擴(kuò)展和集成功能,能夠通過各種高級(jí)算法,來處理復(fù)雜的數(shù)據(jù)類型。由于KNIME的不同預(yù)構(gòu)建組件,可以在無需輸入任何代碼的情況下,實(shí)現(xiàn)快速建模。因此,數(shù)據(jù)科學(xué)家可以用它來創(chuàng)建諸如:金融行業(yè)常用的信用評(píng)分系統(tǒng)等,以實(shí)現(xiàn)業(yè)務(wù)智能與分析的應(yīng)用與服務(wù)。
6.Sisense
作為一款非常實(shí)用的業(yè)務(wù)智能(BI)軟件,Sisense能夠根據(jù)不同企業(yè)的報(bào)告目的,開展數(shù)據(jù)處理與挖掘,并能夠?qū)Υ笮突蚍稚⒌臄?shù)據(jù)集,采用儀表板的形式,予以分析和可視化。它可以將各種來源的數(shù)據(jù)通過組合,構(gòu)建出公共存儲(chǔ)庫(kù),進(jìn)而生成完善且豐富的數(shù)據(jù)報(bào)告,以供各個(gè)部門享用。Sisense通過提供具有拖放功能的小部件,以方便非技術(shù)類型的用戶設(shè)計(jì)出餅圖、折線圖、以及條狀圖。用戶只需單擊,便可查看到詳細(xì)信息和數(shù)據(jù)全貌。
7.Dundas
作為一款出色的儀表板、報(bào)告和數(shù)據(jù)分析類工具,Dundas可以通過快速的集成方式,提供美觀的表格、圖表和圖形,不受限制的數(shù)據(jù)轉(zhuǎn)換模式,以及可靠的洞見。Dundas BI能夠以特定的方式,將數(shù)據(jù)放入已定義明確的結(jié)構(gòu)中,以簡(jiǎn)化用戶的后續(xù)處理。同時(shí),它通過各種關(guān)系型方法,方便用戶構(gòu)建多維的分析,并關(guān)注那些業(yè)務(wù)關(guān)鍵性(business-critical)的事項(xiàng)。此外,由它生成的報(bào)告,可以在降低成本的同時(shí),消除對(duì)于其他附加軟件的依賴。
8.Intetsoft
作為一種分析儀表板和報(bào)告類工具,Intetsoft可以提供針對(duì)數(shù)據(jù)報(bào)告與視圖的迭代式開發(fā),并生成像素級(jí)的完美報(bào)告。它能夠快速、靈活地轉(zhuǎn)換各種數(shù)據(jù)來源。
9.Qlik
作為一種數(shù)據(jù)挖掘和可視化工具,Qlik既能夠提供儀表板,又能夠支持多種數(shù)據(jù)源和文件類型。此外,它的豐富功能還包括:通過拖放界面可實(shí)現(xiàn)靈活的交互式數(shù)據(jù)可視化,即時(shí)響應(yīng)各種交互和更改,支持多種數(shù)據(jù)源與文件類型,可輕松、安全地保護(hù)各種設(shè)備上的數(shù)據(jù)和內(nèi)容,允許以集中式共享應(yīng)用與分析的故事線。
10.MonkeyLearn
作為一個(gè)專門研究文本挖掘的機(jī)器學(xué)習(xí)平臺(tái),MonkeyLearn通過友好的用戶界面,實(shí)現(xiàn)了與其他工具的輕松集成,并通過對(duì)數(shù)據(jù)的實(shí)時(shí)挖掘,基于預(yù)訓(xùn)練的文本挖掘模型,開展目標(biāo)情感分析,或通過構(gòu)建定制化的解決方案,以滿足更為具體的業(yè)務(wù)需求。從檢測(cè)主題、情感和意圖,到提取關(guān)鍵字和命名實(shí)體,MonkeyLearn能夠支持各種數(shù)據(jù)挖掘任務(wù)。此外,MonkeyLearn的文本挖掘功能還可以被用于,在客戶支持的場(chǎng)景中,自動(dòng)進(jìn)行任務(wù)單的標(biāo)記與路由,自動(dòng)檢測(cè)社交媒體中的負(fù)面反饋,以及提供細(xì)粒度的洞見,進(jìn)而做出更好的決策。
數(shù)據(jù)挖掘的典型用例
下面,我們通過各個(gè)行業(yè)中的典型用例,來討論數(shù)據(jù)挖掘是如何改變業(yè)務(wù)策略設(shè)計(jì),以及預(yù)測(cè)業(yè)務(wù)走向的。
市場(chǎng)
數(shù)據(jù)挖掘可用于檢索與日俱增的數(shù)據(jù)庫(kù),并改善當(dāng)前的市場(chǎng)細(xì)分。通過分析諸如客戶年齡、性別、口味等參數(shù)之間的關(guān)系,我們可以預(yù)測(cè)其行為,以推出個(gè)性化的用戶忠誠(chéng)度計(jì)劃。而在市場(chǎng)營(yíng)銷活動(dòng)中,數(shù)據(jù)挖掘還可以預(yù)測(cè)哪些用戶可能會(huì)取消已訂閱的服務(wù),獲悉他們的搜索偏好,進(jìn)而為實(shí)現(xiàn)更高的轉(zhuǎn)化率,而定制郵件內(nèi)容與列表。
銀行業(yè)
為了更好地獲悉市場(chǎng)上存在的風(fēng)險(xiǎn),銀行業(yè)可以將數(shù)據(jù)挖掘應(yīng)用到信用等級(jí)、以及智能反欺詐系統(tǒng)中,以分析卡密交易、購(gòu)買模式、以及客戶財(cái)務(wù)數(shù)據(jù)等方面。通過對(duì)銀行APP的數(shù)據(jù)挖掘,它們還可以更深入地了解用戶的在線習(xí)慣和偏好信息,研究銷售渠道的績(jī)效,以及合規(guī)管理的義務(wù),進(jìn)而提高其營(yíng)銷活動(dòng)的回報(bào)。
教育
教育工作者能夠在訪問學(xué)生數(shù)據(jù)的基礎(chǔ)上,通過數(shù)據(jù)挖掘,來預(yù)測(cè)他們的知識(shí)掌握水平,并針對(duì)某些成績(jī)較差的學(xué)生,提供額外的補(bǔ)習(xí)與關(guān)注。
電子商務(wù)
諸如亞馬遜之類的知名電商平臺(tái),通過使用數(shù)據(jù)挖掘技術(shù),不但可以實(shí)現(xiàn)推薦銷售(Up-sells)和交叉銷售,還能夠吸引更多的顧客訪問其平臺(tái)。
零售
超市既可以使用聯(lián)合采購(gòu)的模式(joint purchasing pattern),來識(shí)別各個(gè)產(chǎn)品之間的關(guān)聯(lián),進(jìn)而決定如何將它們放置在過道和貨架上;又可以通過數(shù)據(jù)挖掘,在結(jié)賬隊(duì)列中檢測(cè)出,哪些商品最受客戶的喜愛,以便提高進(jìn)貨量。
服務(wù)供應(yīng)商
手機(jī)和公用事業(yè)等服務(wù)提供商可以使用數(shù)據(jù)挖掘技術(shù),來分析賬單的詳細(xì)信息,與客戶服務(wù)的互動(dòng),并根據(jù)投訴的歷史記錄,為每個(gè)客戶分配一個(gè)概率分值,以便提供定制化的激勵(lì)計(jì)劃,或者判斷其流失的可能性。
醫(yī)藥業(yè)
通過數(shù)據(jù)挖掘,醫(yī)院和醫(yī)生可以掌握患者的全面信息(包括病歷、體檢報(bào)告和治療模式等),并據(jù)此制定出更加準(zhǔn)確且有效的診療方案。通過識(shí)別風(fēng)險(xiǎn),預(yù)測(cè)人群中的疾病傳播、以及預(yù)測(cè)住院時(shí)間,他們還可以更具成本效益地管理公共衛(wèi)生資源。而醫(yī)療機(jī)構(gòu)則能夠通過數(shù)據(jù)挖掘的優(yōu)勢(shì),及時(shí)發(fā)現(xiàn)各種欺詐和違規(guī)行為,加強(qiáng)與患者之間的聯(lián)系,進(jìn)而更好地滿足他們的需求。
保險(xiǎn)
保險(xiǎn)公司可以通過數(shù)據(jù)挖掘,來根據(jù)盈利目的對(duì)其產(chǎn)品進(jìn)行綜合定價(jià),進(jìn)而推廣給新、老客戶。
制造業(yè)
借助數(shù)據(jù)挖掘,制造商可以預(yù)測(cè)其生產(chǎn)資源的損耗速度,并能通過預(yù)防性的維護(hù),最大程度地減少停機(jī)時(shí)間。
犯罪調(diào)查
通過數(shù)據(jù)挖掘與分析,治安機(jī)構(gòu)可以預(yù)測(cè)犯罪多發(fā)的地點(diǎn)與時(shí)段,提前部署警力。
電視和廣播
憑借著針對(duì)網(wǎng)絡(luò)應(yīng)用和實(shí)時(shí)數(shù)據(jù)的挖掘,在線電視(如IPTV)和廣播可以實(shí)時(shí)收集和分析來自不同頻道與節(jié)目的觀看與收聽信息,實(shí)時(shí)了解觀眾與聽眾的興趣愛好,在更好地了解其習(xí)慣與行為的基礎(chǔ)上,更準(zhǔn)確地定位潛在客戶,并實(shí)現(xiàn)個(gè)性化的推送。
不同行業(yè)使用數(shù)據(jù)挖掘的成功案例:
拜耳幫助農(nóng)民實(shí)現(xiàn)可持續(xù)的糧食生產(chǎn)
在農(nóng)業(yè)耕種過程中,那些破壞農(nóng)作物的雜草一直是困擾農(nóng)民的難題。雖然農(nóng)民們可以使用窄譜除草劑,在盡可能減少不良副作用的前提下,有效地殺死田間的雜草。但是,他們首先需要準(zhǔn)確地識(shí)別出田間雜草的類型。拜耳數(shù)字農(nóng)業(yè)使用Talend實(shí)時(shí)大數(shù)據(jù),開發(fā)出了WEEDSCOUT應(yīng)用。在農(nóng)民們完成了免費(fèi)下載與安裝后,該APP使用機(jī)器學(xué)習(xí)和人工智能的方式,將拜耳數(shù)據(jù)庫(kù)中的雜草圖片,與農(nóng)民拍攝到的雜草照片進(jìn)行匹配,以便為他們的選種,作物保護(hù)產(chǎn)品,以及收割時(shí)機(jī)等環(huán)節(jié),給出更加準(zhǔn)確地預(yù)測(cè)與建議。
法航荷航滿足客戶旅行的偏好要求
該航空公司使用數(shù)據(jù)挖掘技術(shù),通過將旅行搜索、預(yù)訂、以及航班運(yùn)營(yíng)中的數(shù)據(jù),與互聯(lián)網(wǎng)、社交媒體、呼叫中心、以及候機(jī)廳的互動(dòng)相整合,進(jìn)而創(chuàng)建了360度的客戶視圖。它們憑借著這種深刻的客戶洞察力,創(chuàng)建了個(gè)性化的旅行體驗(yàn)。
Groupon協(xié)調(diào)營(yíng)銷活動(dòng)
每天,Groupon都需要實(shí)時(shí)處理超過TB量級(jí)的原始數(shù)據(jù),并將此類信息存儲(chǔ)在各種數(shù)據(jù)庫(kù)系統(tǒng)之中。而數(shù)據(jù)挖掘技術(shù)使得Groupon能夠?qū)崟r(shí)地分析海量的客戶數(shù)據(jù),將營(yíng)銷活動(dòng)與客戶的偏好更加緊密地結(jié)合起來,并協(xié)助公司識(shí)別出業(yè)務(wù)發(fā)展的趨勢(shì)。
達(dá)美樂打造完美的購(gòu)買體驗(yàn)
作為世界上最大的比薩公司,達(dá)美樂通過各種渠道(包括:短信、社交媒體、以及Amazon Echo)收集著85,000個(gè)結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)源,其中包括全球銷售點(diǎn)系統(tǒng)和26個(gè)供應(yīng)鏈中心。這種洞察能力在提高其業(yè)務(wù)績(jī)效的同時(shí),在各個(gè)銷售點(diǎn)之間實(shí)現(xiàn)一對(duì)一的客戶購(gòu)買體驗(yàn)。
總的說來,您可以根據(jù)自己的實(shí)際需求,使用數(shù)據(jù)挖掘技術(shù),來解決諸如:增加營(yíng)收,了解客戶群的特征和偏好,獲取新的客戶,改善交叉銷售和推薦銷售,留存客戶并提高忠誠(chéng)度,通過營(yíng)銷活動(dòng)來增加投資回報(bào)率,檢測(cè)與發(fā)現(xiàn)欺詐行為,識(shí)別信貸風(fēng)險(xiǎn),監(jiān)控運(yùn)營(yíng)績(jī)效等業(yè)務(wù)問題與需求。
原文標(biāo)題:Data Mining:Use Cases,Benefits,and Tools,作者:Ekaterina Novoseltseva