監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價(jià)咨詢管理系統(tǒng) | 工程設(shè)計(jì)管理系統(tǒng) | 簽約案例 | 購(gòu)買價(jià)格 | 在線試用 | 手機(jī)APP | 產(chǎn)品資料
X 關(guān)閉

數(shù)據(jù)挖掘的認(rèn)識(shí)誤區(qū)

申請(qǐng)免費(fèi)試用、咨詢電話:400-8352-114

來(lái)源:泛普軟件

對(duì)于普通人來(lái)說(shuō),數(shù)據(jù)挖掘可能是一個(gè)神秘的過(guò)程。沒(méi)有經(jīng)驗(yàn)的企業(yè)實(shí)施數(shù)據(jù)挖掘項(xiàng)目時(shí),錯(cuò)誤的認(rèn)識(shí)往往成為項(xiàng)目成功開展的重要障礙。因此及時(shí)矯正這些錯(cuò)誤的認(rèn)識(shí)也成為項(xiàng)目實(shí)施前一個(gè)重要的任務(wù)。

數(shù)據(jù)挖掘的所有內(nèi)容是關(guān)于算法

一談到算法就會(huì)想到通過(guò)歷史數(shù)據(jù)建立模型,數(shù)據(jù)挖掘算法是創(chuàng)建挖掘模型的機(jī)制,對(duì)產(chǎn)生的最終挖掘輸出結(jié)果有很大的決定性。隨著數(shù)據(jù)挖掘新技術(shù)的層出不窮和商業(yè)數(shù)據(jù)挖掘產(chǎn)品的成熟與完善。對(duì)同一商業(yè)問(wèn)題,通常在產(chǎn)品中有多種算法可供選擇,而為特定的任務(wù)選擇正確的算法很有挑戰(zhàn)性。

您可以使用不同的算法來(lái)執(zhí)行同樣的業(yè)務(wù)任務(wù),每個(gè)算法會(huì)生成不同的結(jié)果。而且算法可以進(jìn)行復(fù)合使用,在一個(gè)數(shù)據(jù)挖掘解決方案中可以使用一些算法來(lái)探析數(shù)據(jù),而使用其他算法基于該數(shù)據(jù)預(yù)測(cè)特定結(jié)果。例如,可以使用聚類分析算法來(lái)識(shí)別模式,將數(shù)據(jù)細(xì)分成多少有點(diǎn)相似的組,然后使用分組結(jié)果來(lái)創(chuàng)建更好的決策數(shù)模型。

也可以在一個(gè)解決方案中使用多個(gè)算法來(lái)執(zhí)行不同的任務(wù),例如,使用回歸樹算法來(lái)獲取財(cái)務(wù)預(yù)測(cè)信息,使用基于規(guī)則的算法來(lái)執(zhí)行市場(chǎng)籃子分析。

由此看出在數(shù)據(jù)挖掘項(xiàng)目中,在明確挖掘目標(biāo)和了解各種算法特點(diǎn)后,如何正確選擇使用算法,得到期望的結(jié)果才是關(guān)鍵環(huán)節(jié)。

在數(shù)據(jù)挖掘項(xiàng)目實(shí)施的過(guò)程中,業(yè)界有一個(gè)公認(rèn)的方法論CRISP-DM(Cross Industry Standard Process for Data Ming,跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程),從名稱上可以看到,此模型的定義比較通用,能夠應(yīng)用于不同的行業(yè)解決業(yè)務(wù)問(wèn)題。

CRISP-DM流程模型包括了六個(gè)步驟,涵蓋了數(shù)據(jù)挖掘的整個(gè)過(guò)程,它們是:商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、模型評(píng)估、模型部署。

在這六個(gè)步驟中,應(yīng)用數(shù)據(jù)挖掘算法的過(guò)程主要集中在建立模型階段,很顯然算法不是數(shù)據(jù)挖掘的所有內(nèi)容。建模所使用的數(shù)據(jù)準(zhǔn)備得如何,很大程度上決定了數(shù)據(jù)挖掘項(xiàng)目的成敗。

因此,在一個(gè)成功的數(shù)據(jù)挖掘項(xiàng)目中,60%-80%的時(shí)間都是集中在商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備階段。此外,在數(shù)據(jù)挖掘項(xiàng)目中,特別強(qiáng)調(diào)數(shù)據(jù)挖掘算法和實(shí)際業(yè)務(wù)的緊密結(jié)合,否則數(shù)據(jù)挖掘很可能會(huì)出現(xiàn)“垃圾進(jìn),垃圾出”(garbage in garbage out)的現(xiàn)象。

數(shù)據(jù)挖掘項(xiàng)目中,檢驗(yàn)?zāi)P偷奈ㄒ粯?biāo)準(zhǔn)是預(yù)測(cè)精確度

模型的預(yù)測(cè)精確度是檢驗(yàn)?zāi)P秃脡牡囊粋€(gè)重要指標(biāo),但不是唯一指標(biāo)。一個(gè)良好的數(shù)據(jù)挖掘模型,在投入實(shí)際應(yīng)用前,需要經(jīng)過(guò)多方面的評(píng)估,從而確定它完全地達(dá)到了商業(yè)目標(biāo)。評(píng)估數(shù)據(jù)挖掘模型優(yōu)劣的指標(biāo)有許多,比如精確度、LIFT、ROC、Gain圖等。

精確度是最基本和最簡(jiǎn)單的指標(biāo)。但是要讓用戶接受一個(gè)模型的結(jié)果,僅靠這些評(píng)估指標(biāo)卻是不夠的,還需要從模型結(jié)果的可用性上進(jìn)一步闡述,即數(shù)據(jù)挖掘模型到底能帶來(lái)什么業(yè)務(wù)上的價(jià)值。這實(shí)際上也就是數(shù)據(jù)挖掘模型的可解釋性。在實(shí)際數(shù)據(jù)挖掘項(xiàng)目中,模型的可解釋性往往比評(píng)估指標(biāo)更為重要。

在對(duì)模型進(jìn)行評(píng)估時(shí),既要參照評(píng)估標(biāo)準(zhǔn),同時(shí)也要考慮到商業(yè)目標(biāo)和商業(yè)成功的標(biāo)準(zhǔn)。片面的追求預(yù)測(cè)正確率就會(huì)忽視了數(shù)據(jù)挖掘的初衷。我們不是為了建立一個(gè)完美的數(shù)學(xué)模型而進(jìn)行挖掘,而是為了解決實(shí)際商業(yè)問(wèn)題。所以挖掘產(chǎn)生結(jié)果的可解釋性與實(shí)用性,才是最根本的標(biāo)準(zhǔn)。例如在解決客戶流失問(wèn)題中,預(yù)測(cè)模型捕捉越多的流失客戶,不一定就代表能夠協(xié)助挽留較多的客戶。關(guān)鍵在于預(yù)測(cè)結(jié)果對(duì)挽留營(yíng)銷活動(dòng)的制定有多大的幫助。

數(shù)據(jù)挖掘一定需要數(shù)據(jù)倉(cāng)庫(kù)

從定義上講,數(shù)據(jù)挖掘(Data Mining),又稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database, KDD),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過(guò)程,簡(jiǎn)單的說(shuō),數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識(shí)。

良好的數(shù)據(jù)源是數(shù)據(jù)挖掘成功的重要保證,所以說(shuō)數(shù)據(jù)挖掘需要有自己的數(shù)據(jù)集市,因?yàn)橥ǔ?shù)據(jù)倉(cāng)庫(kù)主要是為決策支持系統(tǒng)而建立的,數(shù)據(jù)在ETL過(guò)程中會(huì)有可能損失一些對(duì)數(shù)據(jù)挖掘有用的信息。

特別是在數(shù)據(jù)規(guī)約階段,針對(duì)數(shù)據(jù)集進(jìn)行匹配,發(fā)現(xiàn)重復(fù)異常,根據(jù)匹配結(jié)果進(jìn)行處理,刪除部分記錄或者將多個(gè)記錄合并為一個(gè)更完整信息的記錄的過(guò)程,對(duì)數(shù)據(jù)挖掘來(lái)講很可能是隱含信息丟失的過(guò)程。重復(fù)的記錄對(duì)決策支持系統(tǒng)可能沒(méi)有用處,但對(duì)數(shù)據(jù)挖掘來(lái)講可能是挖掘出隱含模式的重要來(lái)源。

數(shù)據(jù)挖掘應(yīng)由技術(shù)專家來(lái)完成

數(shù)據(jù)挖掘作為利用企業(yè)大量數(shù)據(jù)發(fā)現(xiàn)規(guī)律規(guī)則并在企業(yè)經(jīng)營(yíng)活動(dòng)中應(yīng)用從而產(chǎn)生商業(yè)價(jià)值的一個(gè)商業(yè)應(yīng)用過(guò)程,是由多方面的要素構(gòu)成的。

其中,非常重要的一部分就是要有高素質(zhì)的數(shù)據(jù)挖掘人員,這些人員包括:了解數(shù)據(jù)的人,例如數(shù)據(jù)庫(kù)管理員,對(duì)數(shù)據(jù)的存儲(chǔ)位置非常清楚;了解業(yè)務(wù)的人,能夠及時(shí)提出問(wèn)題,并協(xié)助分析員把商業(yè)問(wèn)題轉(zhuǎn)化稱為數(shù)據(jù)挖掘問(wèn)題,理解數(shù)據(jù)挖掘結(jié)果,并能夠把數(shù)據(jù)挖掘結(jié)果轉(zhuǎn)化為企業(yè)的實(shí)際商業(yè)行動(dòng)創(chuàng)造價(jià)值;分析人員,需要了解數(shù)據(jù)挖掘的算法和功能,熟練使用相關(guān)數(shù)據(jù)挖掘軟件產(chǎn)品,能夠和業(yè)務(wù)人員一起把商業(yè)問(wèn)題轉(zhuǎn)化為數(shù)據(jù)挖掘問(wèn)題并解決數(shù)據(jù)挖掘問(wèn)題。

因此,成功的數(shù)據(jù)挖掘項(xiàng)目是由業(yè)務(wù)專家和技術(shù)專家共同完成的。優(yōu)秀的數(shù)據(jù)挖掘工具應(yīng)該有利于業(yè)務(wù)專家也參與到數(shù)據(jù)挖掘項(xiàng)目中。只有將業(yè)務(wù)知識(shí)融入到數(shù)據(jù)挖掘項(xiàng)目中,才能使數(shù)據(jù)挖掘的結(jié)果真正為商業(yè)應(yīng)用服務(wù)。

需要海量的數(shù)據(jù)

在數(shù)據(jù)挖掘過(guò)程中,最初設(shè)定的商業(yè)目標(biāo)很容易淹沒(méi)在海量數(shù)據(jù)中,在項(xiàng)目進(jìn)行中,應(yīng)始終明確需解決的商業(yè)問(wèn)題,確保項(xiàng)目結(jié)果的最終完成。如果你只是在沒(méi)有項(xiàng)目計(jì)劃的情況下簡(jiǎn)單的開始分析一堆數(shù)據(jù),將會(huì)很容易迷失在數(shù)據(jù)里而且浪費(fèi)時(shí)間。

不要讓項(xiàng)目被大量數(shù)據(jù)單純驅(qū)動(dòng),集中精力在商業(yè)目標(biāo)上。你可能不需要使用系統(tǒng)中的所有數(shù)據(jù),僅僅使用和項(xiàng)目相關(guān)的數(shù)據(jù)就可以了。

確保數(shù)據(jù)挖掘項(xiàng)目的成功實(shí)施

糾正了認(rèn)識(shí)的誤區(qū),那我們接下來(lái)該如何實(shí)施呢?前文提到的CRISP-DM方法論是一個(gè)很好的方法。

以終為始

為了能在項(xiàng)目終結(jié)時(shí)得到期望的ROI,你應(yīng)該在項(xiàng)目啟動(dòng)前已經(jīng)確定了如何評(píng)估最終的結(jié)果的標(biāo)準(zhǔn)(例如:使用什么樣的商業(yè)考核指標(biāo),它們是被如何計(jì)算或派生的)。

設(shè)定期望值

確保項(xiàng)目投資者明白數(shù)據(jù)挖掘不是解決商業(yè)問(wèn)題的魔術(shù)棒。數(shù)據(jù)挖掘是借助計(jì)算機(jī)技術(shù)輔助解決商業(yè)問(wèn)題的一種方法。就像任何商業(yè)問(wèn)題,投資者需要首先提出可解決的問(wèn)題,然后找尋方案。

例如你計(jì)劃為公司市場(chǎng)部做客戶細(xì)分,那么應(yīng)該與市場(chǎng)部的同事一起明確什么樣的結(jié)果是最終希望得到的,例如:“我們使用產(chǎn)品信息和人口統(tǒng)計(jì)數(shù)據(jù),所以希望得到基于客戶的收入、年齡等信息的細(xì)分,這樣能顯示不同層次客戶對(duì)產(chǎn)品的喜好”。

限定最初的項(xiàng)目范圍

以現(xiàn)實(shí)可行的目標(biāo)和日程表為開始,當(dāng)你獲得成功后,再轉(zhuǎn)向更復(fù)雜的項(xiàng)目。例如與其試圖立刻提高新客戶的獲取值,還不是集中精力在小的更實(shí)際的目標(biāo)如對(duì)某一區(qū)域進(jìn)行交叉銷售,客戶保留項(xiàng)目。

確保團(tuán)隊(duì)合作

數(shù)據(jù)挖掘項(xiàng)目是一個(gè)團(tuán)隊(duì)工作。數(shù)據(jù)挖掘需要商業(yè)使用者理解實(shí)際問(wèn)題和數(shù)據(jù),也需要數(shù)據(jù)分析家提供分析解決方案,以及數(shù)據(jù)庫(kù)管理者提供權(quán)限。而他們往往來(lái)自不同的部門,有著不同的利益訴求,所以找到可行的合作方式是很重要的。

避免陷入數(shù)據(jù)垃圾

在項(xiàng)目進(jìn)行中,始終明確需要解決的商業(yè)問(wèn)題,確保項(xiàng)目結(jié)果的最終完成。如果你只是在沒(méi)有項(xiàng)目計(jì)劃的情況下簡(jiǎn)單的開始分析一堆數(shù)據(jù),你將會(huì)很容易迷失在數(shù)據(jù)里而且浪費(fèi)時(shí)間。不要讓項(xiàng)目被大量數(shù)據(jù)單純驅(qū)動(dòng),集中精力在商業(yè)目標(biāo)上。你可能不需要使用系統(tǒng)中的所有數(shù)據(jù),僅僅使用和項(xiàng)目相關(guān)的數(shù)據(jù)就可以了。你甚至可能會(huì)發(fā)現(xiàn)現(xiàn)有的數(shù)據(jù)不能足以解決現(xiàn)實(shí)的商業(yè)問(wèn)題。即使海量數(shù)據(jù)也不能保證你就擁有準(zhǔn)確的用于建模的數(shù)據(jù).例如,使用最新的信息進(jìn)行預(yù)測(cè)客戶行為往往比用大量的歷史數(shù)據(jù)準(zhǔn)確。

(chinabi)

CRISP-DM方法

 

發(fā)布:2007-04-23 10:58    編輯:泛普軟件 · xiaona    [打印此頁(yè)]    [關(guān)閉]
相關(guān)文章:

泛普貴陽(yáng)OA快博其他應(yīng)用

貴陽(yáng)OA軟件 貴陽(yáng)OA新聞動(dòng)態(tài) 貴陽(yáng)OA信息化 貴陽(yáng)OA快博 貴陽(yáng)OA軟件行業(yè)資訊 貴陽(yáng)軟件開發(fā)公司 貴陽(yáng)門禁系統(tǒng) 貴陽(yáng)物業(yè)管理軟件 貴陽(yáng)倉(cāng)庫(kù)管理軟件 貴陽(yáng)餐飲管理軟件 貴陽(yáng)網(wǎng)站建設(shè)公司