當(dāng)前位置:工程項(xiàng)目OA系統(tǒng) > 泛普各地 > 福建OA系統(tǒng) > 福州OA系統(tǒng) > 福州OA快博
粗糙集理論在商業(yè)數(shù)據(jù)挖掘中之應(yīng)用
申請(qǐng)免費(fèi)試用、咨詢電話:400-8352-114
來源:泛普軟件 粗糙集理論的概念數(shù)據(jù)挖掘被稱為數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(Knowledge Discover Database,KDD)。在商業(yè)智能研究中,對(duì)業(yè)務(wù)數(shù)據(jù)密集型的大容量商業(yè)銷售數(shù)據(jù)的知識(shí)挖掘,國(guó)內(nèi)外均有成功案例,但受數(shù)據(jù)不完備的影響,許多數(shù)據(jù)挖掘技術(shù)在企業(yè)中無法取得實(shí)際應(yīng)用。波蘭學(xué)者Z.Pawlak提出的粗糙集(Rough Set)理論,近年來在知識(shí)發(fā)現(xiàn)等領(lǐng)域受到廣泛關(guān)注。面對(duì)當(dāng)前國(guó)內(nèi)企業(yè)商業(yè)數(shù)據(jù)普遍不完備的難題,本文改進(jìn)相關(guān)算法,通過粗糙集數(shù)據(jù)挖掘系統(tǒng)對(duì)各種商業(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,消去冗余屬性,抽取決策規(guī)則。
1 基于粗糙集理論的商業(yè)數(shù)據(jù)挖掘
CRISP-DM(Cross-Industry Standard Process for Data Mining)項(xiàng)目的實(shí)施步驟包括:商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建模、評(píng)估和發(fā)布。具體到商業(yè),基于CRIS-DM模型的數(shù)據(jù)挖掘處理可以細(xì)分為7個(gè)步驟:目標(biāo)確定、確認(rèn)數(shù)據(jù)源、數(shù)據(jù)收集、數(shù)據(jù)篩選、數(shù)據(jù)預(yù)處理、挖掘分析和結(jié)果評(píng)價(jià)。
一個(gè)完整的基于粗糙集理論的商業(yè)數(shù)據(jù)挖掘過程包括3個(gè)概念層:
(1)數(shù)據(jù)準(zhǔn)備層包括目標(biāo)確定、確認(rèn)數(shù)據(jù)源、數(shù)據(jù)收集、數(shù)據(jù)篩選,目的是從數(shù)據(jù)源中抽取出正確可靠的統(tǒng)一格式的數(shù)據(jù)。
(2)數(shù)據(jù)預(yù)處理層包括連續(xù)屬性值離散化、數(shù)據(jù)過濾、數(shù)據(jù)完備化,目的是將數(shù)據(jù)源里提取的數(shù)據(jù)轉(zhuǎn)化為完備信息系統(tǒng)表。
(3)挖掘評(píng)價(jià)層是整個(gè)挖掘過程的核心層,包括屬性約簡(jiǎn)、規(guī)則提取和結(jié)果評(píng)價(jià)。
2 關(guān)鍵環(huán)節(jié)算法設(shè)計(jì)
1)算法1:連續(xù)屬性離散化算法
運(yùn)用粗糙集理論,必須對(duì)商業(yè)業(yè)務(wù)數(shù)據(jù)庫中存在的大量連續(xù)屬性進(jìn)行離散化,而常規(guī)離散化方法易于導(dǎo)致決策表相容性的降低,使提取規(guī)則的能力下降。謝宏等的《基于信息熵的粗糙集連續(xù)屬性離散化算法》提出基于信息熵的粗糙集連續(xù)屬性離散化算法,能保持決策表相容性,但該算法對(duì)訓(xùn)練數(shù)據(jù)具有過度適應(yīng)性,實(shí)際應(yīng)用效果不理想。本文對(duì)此算法作相應(yīng)改進(jìn),增設(shè)用戶控制闕值,以避免過多斷點(diǎn)。
P為已選的斷點(diǎn)集合,L為P所劃分的等價(jià)類集合,B為候選斷點(diǎn)的集合,決策表信息熵H的初值為H(U)?;谛畔⒌盏拇植诩x散化算法如下:
其中XU為子集,其實(shí)例個(gè)數(shù)為︱X︱。
輸入:U(Ai,d);Pi={φ}(決策屬性d,連續(xù)屬性Ai,Ai的對(duì)應(yīng)斷點(diǎn)集合Pi);用戶控制網(wǎng)值t
輸出:Pi
step 1:Pi={φ};L={U};H=H(U);
step 2:對(duì) 每一個(gè)c∈B,計(jì)算H(c,L);
step 3:若 H≤min{H(c,L)},則結(jié)束;
step 4:選擇使H(c,L)最小的斷點(diǎn)Cmin加到P中;
若P中斷點(diǎn)個(gè)數(shù)≥t2,則結(jié)束,否則H=H(c,L);B=B-{c};
step 5:對(duì)所有X∈L,若Cmin把X劃分為X1和X2,則用X1和X2替換L中的X;
step 6:如果L中各個(gè)等價(jià)類中的實(shí)例都具有相同的決策,則結(jié)束;否則轉(zhuǎn)到step2。
2)算法2:數(shù)據(jù)完備化算法
在目前的商業(yè)數(shù)據(jù)挖掘中,面臨比較突出的難題就是信息的不完備性。王國(guó)胤的《Rough集理論與知識(shí)獲取》給出一種基于Rough集理論中數(shù)據(jù)不可分辨關(guān)系的ROUSTIDA算法,張振華、劉文齊的《一種基于粗糙集理論不完備數(shù)據(jù)的改進(jìn)算法》則以決策規(guī)則獨(dú)立為基本思想,對(duì)條件屬性和決策屬J性區(qū)別對(duì)待,給出了一種ROUSTIDA改進(jìn)算法,朱小飛的《一種基于量化容差關(guān)系的不完備數(shù)據(jù)分析方法》提出的VTRIDA算法,在具有缺失值的對(duì)象容差類中,找出與該對(duì)象最相似且補(bǔ)缺能力較強(qiáng)的對(duì)象進(jìn)行缺失值補(bǔ)充,從而提高決策規(guī)則的支持度。本文采用《一種基于量化容差關(guān)系的不完備數(shù)據(jù)分析方法》中的VTRIDA算法。
MASi為對(duì)象xi的缺失屬性集、MOS為信息系統(tǒng)S的缺失對(duì)象集。
輸入:不完備信息系統(tǒng)S0=<U0,A,V,f0>
輸出:完備信息系統(tǒng)Sr=<Ur,A,V,fr>
step 1:計(jì)算初始擴(kuò)充的量化容差關(guān)系矩陣T0,MASi0和MOS0;令r=0。
step 2:①產(chǎn)生Sr+1。如果xi無缺失值,則使對(duì)象xir+1與對(duì)象xi的屬性值均相同:ak(xir+1)=ak(xir),k=1,2,…,m;否則根據(jù)擴(kuò)充的量化容差關(guān)系矩陣Tr,找到一個(gè)與xi最相似的xj,用其中的屬性值對(duì)xi中的缺失屬性值進(jìn)行補(bǔ)齊。②如果Sr+1=Sr,結(jié)束循環(huán),轉(zhuǎn)step3;否則先計(jì)算Tr+1,MASir+1和MOSr+1;然后r=r+1;最后轉(zhuǎn)step2。
Step 3:如果還有缺失值,則選用其它代價(jià)較大的算法(例如直接刪除缺失數(shù)據(jù)對(duì)象)。
3)算法3:屬性約簡(jiǎn)算法
屬性約簡(jiǎn)是在保持決策信息系統(tǒng)的分類和決策能力不變的前提下,根據(jù)屬性之間的依賴關(guān)系γ、屬性重要度SGF等,找出一個(gè)最佳約簡(jiǎn)集,刪除不相關(guān)或不重要的屬性。
輸入:具有條件屬性集C和決策屬性集D的相容決策信息系統(tǒng)S。
輸出:最佳約簡(jiǎn)集
step 1:計(jì)算決策信息系統(tǒng)S的核心集CORE;
step 2:REDU=CORE;C'=C-REDU;
step 3:計(jì)算γ(REDU,D)和γ(C,D);
step 4:if γ(REDU,D)≠γ(C,D)then選擇屬性α∈C',使
SGF(α,REDU,D)=max(SGF(αi,REDU,D))αi∈C',(i=1,2,…,m);
REDUR=REDU∩{α},C'=C'{α};計(jì)算新的γ(REDU,D),else轉(zhuǎn)step5。
step 5:︱REDU︱→N;
step 6:for(I=0 to N-1){if(αi不屬于CORE)REDU=REDU-{αi};計(jì)算γ(REDU,D);if(γ(REDU,D)≠γ(C,D)REDU=REDU∩{αi})}
4)算法4:規(guī)則提取算法
輸入:最佳約簡(jiǎn)集S(C,D),其中C是條件屬性集,D是決策屬性集。
輸出:決策規(guī)則集T
step 1:T={φ},n=︱S︱
step 2:for(I=0,I<n,I++){S中每個(gè)條件屬性的屬性值對(duì),形成規(guī)則前件(IF部分)的一個(gè)合取項(xiàng)Ci;每個(gè)決策屬性的屬性值對(duì),形成規(guī)則后件(THEN部分)的一個(gè)合取項(xiàng)從Di ti=if Ci then Di}
step 3:簡(jiǎn) 化、合并決策規(guī)則集T
- 1更新?lián)Q代 誰來終結(jié)傳統(tǒng)通用型福州OA?
- 2對(duì)于商業(yè)智能的前生今世之思考和分析
- 3福州OA的成長(zhǎng)煩惱:熱概念遭遇冷需求
- 4影響福州OA實(shí)施成敗的幾項(xiàng)關(guān)鍵因素
- 5面向客戶服務(wù)的整合業(yè)務(wù)流程管理模型研究
- 6福州OA的項(xiàng)目驗(yàn)收切莫敷衍了事
- 7計(jì)世資訊:PaaS加速SaaS的發(fā)展
- 8解析企業(yè)SOA架構(gòu)實(shí)施的失敗之謎
- 9中間件已成信息系統(tǒng)綜合集成的利器
- 10企業(yè)個(gè)性化福州OA實(shí)施的探索研究
- 11對(duì)于2009年SOA行業(yè)的七個(gè)趨勢(shì)預(yù)測(cè)
- 12企業(yè)信息化建設(shè)成功之路 先IRP后福州OA
- 13商務(wù)流程模型結(jié)合SOA消除業(yè)務(wù)部門間隔閡
- 14CIO要認(rèn)清典型信息系統(tǒng)的實(shí)用、實(shí)效側(cè)重點(diǎn)
- 15企業(yè)實(shí)現(xiàn)知識(shí)管理的十大難點(diǎn)和解決方法
- 16企業(yè)實(shí)施信息化我們到底想要什么
- 17福州OA實(shí)施烏云壓頂 巧借WBS重見天日
- 18輕量級(jí)帶來高效益 敏捷福州OA打破IT預(yù)算天花板
- 19是方法論還是技術(shù) 對(duì)于SOA本質(zhì)的探討
- 20CIO該如何選購(gòu)企業(yè)軟件
- 21OA治理經(jīng)驗(yàn)需要隨時(shí)間推移而逐步積累
- 22福州OA軟件實(shí)現(xiàn)組織管理是怎樣實(shí)現(xiàn)的?
- 23經(jīng)濟(jì)低迷預(yù)算削減如何降低福州OA運(yùn)維成本
- 24Gartner公布五種新興的SOA設(shè)計(jì)模式
- 25杜絕信息孤島出現(xiàn) 整合高級(jí)時(shí)期到來
- 26企業(yè)信息化系統(tǒng)選型及實(shí)施成功要素
- 27SaaS模式難入中小企業(yè)之門嗎?
- 28企業(yè)的100%SaaS化仍待時(shí)機(jī)成熟
- 29OA系統(tǒng)加強(qiáng)對(duì)敏感數(shù)據(jù)、密級(jí)數(shù)據(jù)的嚴(yán)密隔離和控制
- 30企業(yè)應(yīng)該如何規(guī)劃和實(shí)施知識(shí)管理系統(tǒng)
成都公司:成都市成華區(qū)建設(shè)南路160號(hào)1層9號(hào)
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓