監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價(jià)咨詢管理系統(tǒng) | 工程設(shè)計(jì)管理系統(tǒng) | 簽約案例 | 購(gòu)買價(jià)格 | 在線試用 | 手機(jī)APP | 產(chǎn)品資料
X 關(guān)閉

數(shù)據(jù)挖掘技術(shù)及其應(yīng)用現(xiàn)狀

申請(qǐng)免費(fèi)試用、咨詢電話:400-8352-114

文章來(lái)源:泛普軟件

近十幾年,隨著科學(xué)技術(shù)飛速的發(fā)展,經(jīng)濟(jì)和社會(huì)都取得了極大的進(jìn)步,與此同時(shí),在各個(gè)領(lǐng)域產(chǎn)生了大量的數(shù)據(jù),如人類對(duì)太空的探索,銀行每天的巨額交易數(shù)據(jù)。顯然在這些數(shù)據(jù)中豐富的信息,如何處理這些數(shù)據(jù)得到有益的信息,人們進(jìn)行了有益的探索。計(jì)算機(jī)技術(shù)的迅速發(fā)展使得處理數(shù)據(jù)成為可能,這就推動(dòng)了數(shù)據(jù)庫(kù)技術(shù)的極大發(fā)展,但是面對(duì)不斷增加如潮水般的數(shù)據(jù),人們不再滿足于數(shù)據(jù)庫(kù)的查詢功能,提出了深層次問(wèn)題:能不能從數(shù)據(jù)中提取信息或者知識(shí)為決策服務(wù)。就數(shù)據(jù)庫(kù)技術(shù)而言已經(jīng)顯得無(wú)能為力了,同樣,傳統(tǒng)的統(tǒng)計(jì)技術(shù)也面臨了極大的挑戰(zhàn)。這就急需有新的方法來(lái)處理這些海量般的數(shù)據(jù)。于是,人們結(jié)合統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、機(jī)器學(xué)習(xí)等技術(shù),提出數(shù)據(jù)挖掘來(lái)解決這一難題。

數(shù)據(jù)挖掘的含義和作用

數(shù)據(jù)挖掘的歷史雖然較短,但從20世紀(jì)90年代以來(lái),它的發(fā)展速度很快,加之它是多學(xué)科綜合的產(chǎn)物,目前還沒(méi)有一個(gè)完整的定義,人們提出了多種數(shù)據(jù)挖掘的定義,例如:

SAS研究所(1997):“在大量相關(guān)數(shù)據(jù)基礎(chǔ)之上進(jìn)行數(shù)據(jù)探索和建立相關(guān)模型的先進(jìn)方法”。

Bhavani(1999):“使用模式識(shí)別技術(shù)、統(tǒng)計(jì)和數(shù)學(xué)技術(shù),在大量的數(shù)據(jù)中發(fā)現(xiàn)有意義的新關(guān)系、模式和趨勢(shì)的過(guò)程”。

Hand et al(2000):“數(shù)據(jù)挖掘就是在大型數(shù)據(jù)庫(kù)中尋找有意義、有價(jià)值信息的過(guò)程”。

我們認(rèn)為:數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)中挖掘出可能有潛在價(jià)值的信息的技術(shù)。這些信息是可能有潛在價(jià)值的,支持決策,可以為企業(yè)帶來(lái)利益,或者為科學(xué)研究尋找突破口。

現(xiàn)今資料流通量之巨大已到了令人咂舌地步,就實(shí)際限制而言,便遇到了諸如巨量的紀(jì)錄,高維的資料增加的傳統(tǒng)分析技術(shù)上的困難,搜集到的資料僅有5%至10%用來(lái)分析,以及資料搜集過(guò)程中并不探討特性等問(wèn)題,這就讓我們不得不利用Data Mining技術(shù)。

數(shù)據(jù)挖掘綜合了各個(gè)學(xué)科技術(shù),有很多的功能,當(dāng)前的主要功能如下:

1. 分類:按照分析對(duì)象的屬性、特征,建立不同的組類來(lái)描述事物。例如:銀行部門(mén)根據(jù)以前的數(shù)據(jù)將客戶分成了不同的類別,現(xiàn)在就可以根據(jù)這些來(lái)區(qū)分新申請(qǐng)貸款的客戶,以采取相應(yīng)的貸款方案。

2. 聚類:識(shí)別出分析對(duì)內(nèi)在的規(guī)則,按照這些規(guī)則把對(duì)象分成若干類。例如:將申請(qǐng)人分為高度風(fēng)險(xiǎn)申請(qǐng)者,中度風(fēng)險(xiǎn)申請(qǐng)者,低度風(fēng)險(xiǎn)申請(qǐng)者。

3. 關(guān)聯(lián)規(guī)則和序列模式的發(fā)現(xiàn):關(guān)聯(lián)是某種事物發(fā)生時(shí)其他事物會(huì)發(fā)生的這樣一種聯(lián)系。例如:每天購(gòu)買啤酒的人也有可能購(gòu)買香煙,比重有多大,可以通過(guò)關(guān)聯(lián)的支持度和可信度來(lái)描述。與關(guān)聯(lián)不同,序列是一種縱向的聯(lián)系。例如:今天銀行調(diào)整利率,明天股市的變化。

4. 預(yù)測(cè):把握分析對(duì)象發(fā)展的規(guī)律,對(duì)未來(lái)的趨勢(shì)做出預(yù)見(jiàn)。例如:對(duì)未來(lái)經(jīng)濟(jì)發(fā)展的判斷。

5. 偏差的檢測(cè):對(duì)分析對(duì)象的少數(shù)的、極端的特例的描述,揭示內(nèi)在的原因。例如:在銀行的100萬(wàn)筆交易中有500例的欺詐行為,銀行為了穩(wěn)健經(jīng)營(yíng),就要發(fā)現(xiàn)這500例的內(nèi)在因素,減小以后經(jīng)營(yíng)的風(fēng)險(xiǎn)。

需要注意的是:數(shù)據(jù)挖掘的各項(xiàng)功能不是獨(dú)立存在的,在數(shù)據(jù)挖掘中互相聯(lián)系,發(fā)揮作用。

數(shù)據(jù)挖掘的方法及工具

作為一門(mén)處理數(shù)據(jù)的新興技術(shù),數(shù)據(jù)挖掘有許多的新特征。首先,數(shù)據(jù)挖掘面對(duì)的是海量的數(shù)據(jù),這也是數(shù)據(jù)挖掘產(chǎn)生的原因。其次,數(shù)據(jù)可能是不完全的、有噪聲的、隨機(jī)的,有復(fù)雜的數(shù)據(jù)結(jié)構(gòu),維數(shù)大。最后,數(shù)據(jù)挖掘是許多學(xué)科的交叉,運(yùn)用了統(tǒng)計(jì)學(xué),計(jì)算機(jī),數(shù)學(xué)等學(xué)科的技術(shù)。以下是常見(jiàn)和應(yīng)用最廣泛的算法和模型:

(1) 傳統(tǒng)統(tǒng)計(jì)方法:① 抽樣技術(shù):我們面對(duì)的是大量的數(shù)據(jù),對(duì)所有的數(shù)據(jù)進(jìn)行分析是不可能的也是沒(méi)有必要的,就要在理論的指導(dǎo)下進(jìn)行合理的抽樣。② 多元統(tǒng)計(jì)分析:因子分析,聚類分析等。③ 統(tǒng)計(jì)預(yù)測(cè)方法,如回歸分析,時(shí)間序列分析等。

(2) 可視化技術(shù):用圖表等方式把數(shù)據(jù)特征用直觀地表述出來(lái),如直方圖等,這其中運(yùn)用的許多描述統(tǒng)計(jì)的方法。可視化技術(shù)面對(duì)的一個(gè)難題是高維數(shù)據(jù)的可視化。

(3) 決策樹(shù):利用一系列規(guī)則劃分,建立樹(shù)狀圖,可用于分類和預(yù)測(cè)。常用的算法有CART、CHAID、ID3、C4.5、C5.0等。

(4) 神經(jīng)網(wǎng)絡(luò):模擬人的神經(jīng)元功能,經(jīng)過(guò)輸入層,隱藏層,輸出層等,對(duì)數(shù)據(jù)進(jìn)行調(diào)整,計(jì)算,最后得到結(jié)果,用于分類和回歸。

(5) 遺傳算法:基于自然進(jìn)化理論,模擬基因聯(lián)合、突變、選擇等過(guò)程的一種優(yōu)化技術(shù)。

(6) 關(guān)聯(lián)規(guī)則挖掘算法:關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)之間存在關(guān)系的規(guī)則,形式為“A1∧A2∧…An→B1∧B2∧…Bn”。一般分為兩個(gè)步驟:① 求出大數(shù)據(jù)項(xiàng)集。② 用大數(shù)據(jù)項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則。

除了上述的常用方法外,還有粗集方法,模糊集合方法,Bayesian Belief Netords ,最鄰近算法(k-nearest neighbors method(kNN))等。

由于數(shù)據(jù)挖掘一開(kāi)始就是面向應(yīng)用的,是為決策服務(wù),而決策者又不一定具備太多的技術(shù)的知識(shí),現(xiàn)許多公司和研究機(jī)構(gòu)開(kāi)發(fā)了一系列的工具用于數(shù)據(jù)挖掘,見(jiàn)表1

表1 常用數(shù)據(jù)挖掘工具及其比較

公司名 產(chǎn)品名 NN DT B kM kNN S Pred TS C A W32 U P A-S SQL
Angoss International Ltd. KnowledgeSEEKER Yes Yes Yes Yes Yes
Knowledge STUDIO Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes
Business Objects Business Miner Yes Yes
Cognos Incorporated  4Thought Yes Yes Yes Yes
Scenario Yes Yes
HNC Software DataBase Mining Marksman Yes Yes Yes Yes Yes
Informix Software Inc. Red Brick Data Mine Yes Yes Yes Yes Yes
International Business Machines Intelligent Miner Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes
Accrue Software Decision Series Yes Yes Yes Yes Yes Yes Yes Yes Yes
NeuralWare NeuralSIM Yes Yes Yes
Oracle Corp. Darwin Yes Yes Yes Yes Yes Yes
RightPoint Software DataCruncher Yes Yes Yes Yes
Salford Systems CART Yes Yes Yes Yes
SAS Institute Enterprise Miner Yes Yes Yes Yes Yes Yes Yes Yes Yes
SGI MineSet Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes
SPSS, Inc. Answer Tree Yes Yes Yes Yes Yes
Clementine Yes Yes Yes Yes Yes Yes Yes Yes
Neural Connection Yes Yes Yes Yes Yes
Tandem Computers Incorporated Object- Relational Technology Yes Yes Yes
Unica Technology Pattern Recognition Workbench Yes Yes Yes Yes Yes Yes Yes Yes Yes
Model 1 Yes Yes Yes Yes Yes Yes Yes Yes Yes



說(shuō)明:NN=Neural Net(神經(jīng)網(wǎng)絡(luò)); DT=Decision Tree(決策樹(shù));B=Bayes(貝葉斯方法); kM=k-Means(動(dòng)態(tài)聚類); kNN=k-Nearest Neighbor(最鄰近算法); S=Traditional Statistical Techniques(傳統(tǒng)統(tǒng)計(jì)技術(shù)); P=Prediction(預(yù)測(cè)); TS=Time Series(時(shí)間序列); C=Clustering(聚類方法); A=Association(關(guān)聯(lián)方法); W32=Windows 95/98/NT; U=UNIX; P=Parallel Scalability (in at least one OS)(并行方式); A-S=API or SDK available(API或SDK方法可用); SQL=Uses Special SQL Extensions

三、數(shù)據(jù)挖掘的實(shí)施步驟

前面我們討論了數(shù)據(jù)挖掘的定義,方法和工具,現(xiàn)在關(guān)鍵的問(wèn)題是如何實(shí)施,其一般的步驟如下:

問(wèn)題理解和提出 —> 數(shù)據(jù)準(zhǔn)備 —> 數(shù)據(jù)整理 —> 建立模型 —> 評(píng)價(jià)和解釋

1. 問(wèn)題理解和提出:在開(kāi)始數(shù)據(jù)挖掘之前最基礎(chǔ)的就是理解數(shù)據(jù)和實(shí)際的業(yè)務(wù)問(wèn)題,在這個(gè)基礎(chǔ)之上提出問(wèn)題,對(duì)目標(biāo)有明確的定義。

2. 數(shù)據(jù)準(zhǔn)備:獲取原始的數(shù)據(jù),并從中抽取一定數(shù)量的子集,建立數(shù)據(jù)挖掘庫(kù),其中一個(gè)問(wèn)題是如果企業(yè)原來(lái)的數(shù)據(jù)倉(cāng)庫(kù)滿足數(shù)據(jù)挖掘的要求,就可以將數(shù)據(jù)倉(cāng)庫(kù)作為數(shù)據(jù)挖掘庫(kù)。

3. 數(shù)據(jù)整理:由于數(shù)據(jù)可能是不完全的、有噪聲的、隨機(jī)的,有復(fù)雜的數(shù)據(jù)結(jié)構(gòu),就要對(duì)數(shù)據(jù)進(jìn)行初步的整理,清洗不完全的數(shù)據(jù),做初步的描述分析,選擇與數(shù)據(jù)挖掘有關(guān)的變量,或者轉(zhuǎn)變變量。

4. 建立模型:根據(jù)數(shù)據(jù)挖掘的目標(biāo)和數(shù)據(jù)的特征,選擇合適的模型。

5. 評(píng)價(jià)和解釋:對(duì)數(shù)據(jù)挖掘的結(jié)果進(jìn)行評(píng)價(jià),選擇最優(yōu)的模型,作出評(píng)價(jià),運(yùn)用于實(shí)際問(wèn)題,并且要和專業(yè)知識(shí)結(jié)合對(duì)結(jié)果進(jìn)行解釋。

以上的步驟不是一次完成的,可能其中某些步驟或者全部要反復(fù)進(jìn)行。

許多研究結(jié)構(gòu)和公司結(jié)合自己的數(shù)據(jù)挖掘軟件,提出數(shù)據(jù)挖掘過(guò)程模型,值得借鑒的是SAS研究所和SPSS公司提出的方案。

SAS研究所認(rèn)為數(shù)據(jù)挖掘是對(duì)數(shù)據(jù)進(jìn)行選擇,探索,調(diào)整和建模來(lái)揭示數(shù)據(jù)中未知的模式,開(kāi)發(fā)了圖形界面的SAS/EM來(lái)進(jìn)行數(shù)據(jù)挖掘:

(1)Sample —— 抽樣:從大量的數(shù)據(jù)中抽取與探索問(wèn)題有關(guān)的數(shù)據(jù)子集,這個(gè)樣本應(yīng)該包含足夠的信息,又易于處理。

(2)Explore —— 探索:對(duì)數(shù)據(jù)子集進(jìn)行探索,尋找出與期望的關(guān)系和未知的模式

(3)Modify —— 調(diào)整:對(duì)數(shù)據(jù)進(jìn)行探索后,有了初步的了解,就必須對(duì)數(shù)據(jù)進(jìn)行增減,選擇,轉(zhuǎn)化,量化,保證有效進(jìn)行

(4)Model —— 建模:應(yīng)用分析工具,建立模型,進(jìn)行預(yù)測(cè)

(5)Assess —— 評(píng)價(jià):評(píng)價(jià)數(shù)據(jù)挖掘結(jié)果的有效性和可靠性

SPSS公司提出了5A的模型,進(jìn)行數(shù)據(jù)挖掘,認(rèn)為任何數(shù)據(jù)挖掘方法學(xué)都由5個(gè)基本元素組成:

(1)Assess —— 正確、徹底的了解業(yè)務(wù)需求及數(shù)據(jù)

(2)Access —— 獲取數(shù)據(jù),做適當(dāng)?shù)恼{(diào)整

(3)Analyze —— 選擇適當(dāng)?shù)姆治?、?yàn)證方法和工具

(4)Act —— 推薦性、有說(shuō)服力的原型演示

(5)Automate —— 提供優(yōu)秀的自動(dòng)化軟件。

四、數(shù)據(jù)挖掘應(yīng)用現(xiàn)狀

數(shù)據(jù)挖掘所要處理的問(wèn)題,就是在龐大的數(shù)據(jù)庫(kù)中找出有價(jià)值的隱藏事件,并且加以分析,獲取有意義的信息,歸納出有用的結(jié)構(gòu),作為企業(yè)進(jìn)行決策的依據(jù)。其應(yīng)用非常廣泛,只要該產(chǎn)業(yè)有分析價(jià)值與需求的數(shù)據(jù)庫(kù),皆可利用Mining工具進(jìn)行有目的的發(fā)掘分析。常見(jiàn)的應(yīng)用案例多發(fā)生在零售業(yè)、制造業(yè)、財(cái)務(wù)金融保險(xiǎn)、通訊及醫(yī)療服務(wù):

(1)商從顧客購(gòu)買商品中發(fā)現(xiàn)一定的關(guān)系,提供打折購(gòu)物券等,提高銷售額

(2)保險(xiǎn)公司通過(guò)數(shù)據(jù)挖掘建立預(yù)測(cè)模型,辨別出可能的欺詐行為,避免道德風(fēng)險(xiǎn),減少成本,提高利潤(rùn)

(3)在制造業(yè)中,半導(dǎo)體的生產(chǎn)和測(cè)試中都產(chǎn)生大量的數(shù)據(jù),就必須對(duì)這些數(shù)據(jù)進(jìn)行分析,找出存在的問(wèn)題,提高質(zhì)量

(4)電子商務(wù)的作用越來(lái)越大,可以用數(shù)據(jù)挖掘?qū)W(wǎng)站進(jìn)行分析,識(shí)別用戶的行為模式,保留客戶,提供個(gè)性化服務(wù),優(yōu)化網(wǎng)站設(shè)計(jì)

一些公司運(yùn)用數(shù)據(jù)挖掘的成功案例,顯示了數(shù)據(jù)挖掘的強(qiáng)大生命力:

美國(guó)AutoTrader.com是世界上對(duì)大的汽車銷售站點(diǎn),每天都會(huì)有大量的用戶對(duì)網(wǎng)站上的信息點(diǎn)擊,尋求信息,其運(yùn)用了SAS軟件進(jìn)行數(shù)據(jù)挖掘,每天對(duì)數(shù)據(jù)進(jìn)行分析,找出用戶的訪問(wèn)模式,對(duì)產(chǎn)品的喜歡程度進(jìn)行判斷,并設(shè)特定服務(wù)娶,取得了成功。

Reuteres是世界著名的金融信息服務(wù)公司,其利用的數(shù)據(jù)大都是外部的數(shù)據(jù),這樣數(shù)據(jù)的質(zhì)量就是公司生存的關(guān)鍵所在,必須從數(shù)據(jù)中檢測(cè)出錯(cuò)誤的成分。Reuteres用SPSS的數(shù)據(jù)挖掘工具SPSS/Clementine,建立數(shù)據(jù)挖掘模型,極大地提高了錯(cuò)誤的檢測(cè),保證了信息的正確和權(quán)威性。

Bass Export是世界最大的啤酒進(jìn)出口商之一,在海外80多個(gè)市場(chǎng)從事交易,每個(gè)星期傳送23000份定單,這就需要了解每個(gè)客戶的習(xí)慣,如品牌的喜好等,Bass Export用IBM的Ineelligent Miner很好的解決了上述問(wèn)題。

五、數(shù)據(jù)挖掘中存在的問(wèn)題

盡管數(shù)據(jù)挖掘有如此多的優(yōu)點(diǎn),但數(shù)據(jù)挖掘也面臨著許多的問(wèn)題,這也為數(shù)據(jù)挖掘的未來(lái)的發(fā)展提供了更大的空間。

1. 數(shù)據(jù)挖掘的基本問(wèn)題就在于數(shù)據(jù)的數(shù)量和維數(shù),數(shù)據(jù)結(jié)構(gòu)也因此顯的非常復(fù)雜,如何進(jìn)行探索,選擇分析變量,也就成為首先要解決的問(wèn)題。

2. 面對(duì)如此大的數(shù)據(jù),現(xiàn)有的統(tǒng)計(jì)方法等都遇到了問(wèn)題,我們直接的想法就是對(duì)數(shù)據(jù)進(jìn)行抽樣,那么怎么抽樣,抽取多大的樣本,又怎樣評(píng)價(jià)抽樣的效果,這些都是值得研究的難題。

3. 既然數(shù)據(jù)是海量的,那么數(shù)據(jù)中就會(huì)隱含一定的變化趨勢(shì),在數(shù)據(jù)挖掘中也要對(duì)這個(gè)趨勢(shì)做應(yīng)有的考慮和評(píng)價(jià)。

4. 各種不同的模型如何應(yīng)用,其效果如何評(píng)價(jià)。不同的人對(duì)同樣的數(shù)據(jù)進(jìn)行挖掘,可能產(chǎn)生不同的結(jié)果,甚至差異很大,這就涉及到可靠性的問(wèn)題。

5. 當(dāng)前互聯(lián)網(wǎng)的發(fā)展迅速,如何進(jìn)行互聯(lián)網(wǎng)的的數(shù)據(jù)挖掘,還有文本等非標(biāo)準(zhǔn)數(shù)據(jù)的挖掘,都引起了極大的興趣。

6. 數(shù)據(jù)挖掘涉及到數(shù)據(jù)也就碰到了數(shù)據(jù)的私有性和安全性。

7. 數(shù)據(jù)挖掘的結(jié)果是不確定的,要和專業(yè)知識(shí)相結(jié)合才能對(duì)其做出判斷。

總之,數(shù)據(jù)挖掘只是一個(gè)工具,不是萬(wàn)能的,它可以發(fā)現(xiàn)一些潛在的用戶,但是不會(huì)告訴你為什么,也不能保證這些潛在的用戶成為現(xiàn)實(shí)。數(shù)據(jù)挖掘的成功要求對(duì)期望解決問(wèn)題的領(lǐng)域有深刻的了解,理解數(shù)據(jù),了解其過(guò)程,才能對(duì)數(shù)據(jù)挖掘的結(jié)果找出合理的解釋。例如曾經(jīng)用數(shù)據(jù)挖掘找出的啤酒和尿布的例子,如何去解釋這種現(xiàn)象,是應(yīng)該將兩者放在一起還是分開(kāi)銷售,這還需要對(duì)消費(fèi)心理學(xué)有所研究才能做出決定,而不是數(shù)據(jù)挖掘能力所及的了。

來(lái)源:情報(bào)官世界

發(fā)布:2007-04-22 10:21    編輯:泛普軟件 · xiaona    [打印此頁(yè)]    [關(guān)閉]
相關(guān)文章:
哈爾濱OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設(shè)南路160號(hào)1層9號(hào)

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢:400-8352-114

加微信,免費(fèi)獲取試用系統(tǒng)

QQ在線咨詢

泛普哈爾濱OA快博其他應(yīng)用

哈爾濱OA軟件 哈爾濱OA新聞動(dòng)態(tài) 哈爾濱OA管理信息化 哈爾濱OA快博 哈爾濱OA軟件行業(yè)資訊 哈爾濱軟件開(kāi)發(fā)公司 哈爾濱門(mén)禁系統(tǒng) 哈爾濱物業(yè)管理軟件 哈爾濱倉(cāng)庫(kù)管理軟件 哈爾濱餐飲管理軟件 哈爾濱網(wǎng)站建設(shè)公司