監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價(jià)咨詢管理系統(tǒng) | 工程設(shè)計(jì)管理系統(tǒng) | 簽約案例 | 購(gòu)買價(jià)格 | 在線試用 | 手機(jī)APP | 產(chǎn)品資料
X 關(guān)閉

粗糙集理論在商業(yè)數(shù)據(jù)挖掘中之應(yīng)用

申請(qǐng)免費(fèi)試用、咨詢電話:400-8352-114

來源:泛普軟件 粗糙集理論的概念

數(shù)據(jù)挖掘被稱為數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(Knowledge Discover Database,KDD)。在商業(yè)智能研究中,對(duì)業(yè)務(wù)數(shù)據(jù)密集型的大容量商業(yè)銷售數(shù)據(jù)的知識(shí)挖掘,國(guó)內(nèi)外均有成功案例,但受數(shù)據(jù)不完備的影響,許多數(shù)據(jù)挖掘技術(shù)在企業(yè)中無法取得實(shí)際應(yīng)用。波蘭學(xué)者Z.Pawlak提出的粗糙集(Rough Set)理論,近年來在知識(shí)發(fā)現(xiàn)等領(lǐng)域受到廣泛關(guān)注。面對(duì)當(dāng)前國(guó)內(nèi)企業(yè)商業(yè)數(shù)據(jù)普遍不完備的難題,本文改進(jìn)相關(guān)算法,通過粗糙集數(shù)據(jù)挖掘系統(tǒng)對(duì)各種商業(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,消去冗余屬性,抽取決策規(guī)則。

1 基于粗糙集理論的商業(yè)數(shù)據(jù)挖掘

CRISP-DM(Cross-Industry Standard Process for Data Mining)項(xiàng)目的實(shí)施步驟包括:商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建模、評(píng)估和發(fā)布。具體到商業(yè),基于CRIS-DM模型的數(shù)據(jù)挖掘處理可以細(xì)分為7個(gè)步驟:目標(biāo)確定、確認(rèn)數(shù)據(jù)源、數(shù)據(jù)收集、數(shù)據(jù)篩選、數(shù)據(jù)預(yù)處理、挖掘分析和結(jié)果評(píng)價(jià)。

一個(gè)完整的基于粗糙集理論的商業(yè)數(shù)據(jù)挖掘過程包括3個(gè)概念層:

(1)數(shù)據(jù)準(zhǔn)備層包括目標(biāo)確定、確認(rèn)數(shù)據(jù)源、數(shù)據(jù)收集、數(shù)據(jù)篩選,目的是從數(shù)據(jù)源中抽取出正確可靠的統(tǒng)一格式的數(shù)據(jù)。

(2)數(shù)據(jù)預(yù)處理層包括連續(xù)屬性值離散化、數(shù)據(jù)過濾、數(shù)據(jù)完備化,目的是將數(shù)據(jù)源里提取的數(shù)據(jù)轉(zhuǎn)化為完備信息系統(tǒng)表。

(3)挖掘評(píng)價(jià)層是整個(gè)挖掘過程的核心層,包括屬性約簡(jiǎn)、規(guī)則提取和結(jié)果評(píng)價(jià)。

2 關(guān)鍵環(huán)節(jié)算法設(shè)計(jì)

1)算法1:連續(xù)屬性離散化算法

運(yùn)用粗糙集理論,必須對(duì)商業(yè)業(yè)務(wù)數(shù)據(jù)庫中存在的大量連續(xù)屬性進(jìn)行離散化,而常規(guī)離散化方法易于導(dǎo)致決策表相容性的降低,使提取規(guī)則的能力下降。謝宏等的《基于信息熵的粗糙集連續(xù)屬性離散化算法》提出基于信息熵的粗糙集連續(xù)屬性離散化算法,能保持決策表相容性,但該算法對(duì)訓(xùn)練數(shù)據(jù)具有過度適應(yīng)性,實(shí)際應(yīng)用效果不理想。本文對(duì)此算法作相應(yīng)改進(jìn),增設(shè)用戶控制闕值,以避免過多斷點(diǎn)。

P為已選的斷點(diǎn)集合,L為P所劃分的等價(jià)類集合,B為候選斷點(diǎn)的集合,決策表信息熵H的初值為H(U)?;谛畔⒌盏拇植诩x散化算法如下:

 其中XU為子集,其實(shí)例個(gè)數(shù)為︱X︱。

輸入:U(Ai,d);Pi={φ}(決策屬性d,連續(xù)屬性Ai,Ai的對(duì)應(yīng)斷點(diǎn)集合Pi);用戶控制網(wǎng)值t

輸出:Pi

step 1:Pi={φ};L={U};H=H(U);

step 2:對(duì) 每一個(gè)c∈B,計(jì)算H(c,L);

step 3:若 H≤min{H(c,L)},則結(jié)束;

step 4:選擇使H(c,L)最小的斷點(diǎn)Cmin加到P中;

若P中斷點(diǎn)個(gè)數(shù)≥t2,則結(jié)束,否則H=H(c,L);B=B-{c};

step 5:對(duì)所有X∈L,若Cmin把X劃分為X1和X2,則用X1和X2替換L中的X;

step 6:如果L中各個(gè)等價(jià)類中的實(shí)例都具有相同的決策,則結(jié)束;否則轉(zhuǎn)到step2。

2)算法2:數(shù)據(jù)完備化算法

在目前的商業(yè)數(shù)據(jù)挖掘中,面臨比較突出的難題就是信息的不完備性。王國(guó)胤的《Rough集理論與知識(shí)獲取》給出一種基于Rough集理論中數(shù)據(jù)不可分辨關(guān)系的ROUSTIDA算法,張振華、劉文齊的《一種基于粗糙集理論不完備數(shù)據(jù)的改進(jìn)算法》則以決策規(guī)則獨(dú)立為基本思想,對(duì)條件屬性和決策屬J性區(qū)別對(duì)待,給出了一種ROUSTIDA改進(jìn)算法,朱小飛的《一種基于量化容差關(guān)系的不完備數(shù)據(jù)分析方法》提出的VTRIDA算法,在具有缺失值的對(duì)象容差類中,找出與該對(duì)象最相似且補(bǔ)缺能力較強(qiáng)的對(duì)象進(jìn)行缺失值補(bǔ)充,從而提高決策規(guī)則的支持度。本文采用《一種基于量化容差關(guān)系的不完備數(shù)據(jù)分析方法》中的VTRIDA算法。

MASi為對(duì)象xi的缺失屬性集、MOS為信息系統(tǒng)S的缺失對(duì)象集。

輸入:不完備信息系統(tǒng)S0=<U0,A,V,f0>

輸出:完備信息系統(tǒng)Sr=<Ur,A,V,fr>

step 1:計(jì)算初始擴(kuò)充的量化容差關(guān)系矩陣T0,MASi0和MOS0;令r=0。

step 2:①產(chǎn)生Sr+1。如果xi無缺失值,則使對(duì)象xir+1與對(duì)象xi的屬性值均相同:ak(xir+1)=ak(xir),k=1,2,…,m;否則根據(jù)擴(kuò)充的量化容差關(guān)系矩陣Tr,找到一個(gè)與xi最相似的xj,用其中的屬性值對(duì)xi中的缺失屬性值進(jìn)行補(bǔ)齊。②如果Sr+1=Sr,結(jié)束循環(huán),轉(zhuǎn)step3;否則先計(jì)算Tr+1,MASir+1和MOSr+1;然后r=r+1;最后轉(zhuǎn)step2。

Step 3:如果還有缺失值,則選用其它代價(jià)較大的算法(例如直接刪除缺失數(shù)據(jù)對(duì)象)。

3)算法3:屬性約簡(jiǎn)算法

屬性約簡(jiǎn)是在保持決策信息系統(tǒng)的分類和決策能力不變的前提下,根據(jù)屬性之間的依賴關(guān)系γ、屬性重要度SGF等,找出一個(gè)最佳約簡(jiǎn)集,刪除不相關(guān)或不重要的屬性。

輸入:具有條件屬性集C和決策屬性集D的相容決策信息系統(tǒng)S。

輸出:最佳約簡(jiǎn)集

step 1:計(jì)算決策信息系統(tǒng)S的核心集CORE;

step 2:REDU=CORE;C'=C-REDU;

step 3:計(jì)算γ(REDU,D)和γ(C,D);

step 4:if γ(REDU,D)≠γ(C,D)then選擇屬性α∈C',使

SGF(α,REDU,D)=max(SGF(αi,REDU,D))αi∈C',(i=1,2,…,m);

REDUR=REDU∩{α},C'=C'{α};計(jì)算新的γ(REDU,D),else轉(zhuǎn)step5。

step 5:︱REDU︱→N;

step 6:for(I=0 to N-1){if(αi不屬于CORE)REDU=REDU-{αi};計(jì)算γ(REDU,D);if(γ(REDU,D)≠γ(C,D)REDU=REDU∩{αi})}

4)算法4:規(guī)則提取算法

輸入:最佳約簡(jiǎn)集S(C,D),其中C是條件屬性集,D是決策屬性集。

輸出:決策規(guī)則集T

step 1:T={φ},n=︱S︱

step 2:for(I=0,I<n,I++){S中每個(gè)條件屬性的屬性值對(duì),形成規(guī)則前件(IF部分)的一個(gè)合取項(xiàng)Ci;每個(gè)決策屬性的屬性值對(duì),形成規(guī)則后件(THEN部分)的一個(gè)合取項(xiàng)從Di ti=if Ci then Di}

step 3:簡(jiǎn) 化、合并決策規(guī)則集T

發(fā)布:2007-04-24 12:07    編輯:泛普軟件 · xiaona    [打印此頁]    [關(guān)閉]
相關(guān)文章:
福州OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設(shè)南路160號(hào)1層9號(hào)

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢:400-8352-114

加微信,免費(fèi)獲取試用系統(tǒng)

QQ在線咨詢

泛普福州OA快博其他應(yīng)用

福州OA軟件 福州OA新聞動(dòng)態(tài) 福州OA信息化 福州OA快博 福州OA行業(yè)資訊 福州軟件開發(fā)公司 福州門禁系統(tǒng) 福州物業(yè)管理軟件 福州倉庫管理軟件 福州餐飲管理軟件 福州網(wǎng)站建設(shè)公司