數(shù)據(jù)挖掘技術(shù)在中小企業(yè)福州OA中的應(yīng)用研究

來源：泛普軟件

數(shù)據(jù)挖掘技術(shù)在中小企業(yè)福州OA中的應(yīng)用研究1

0 引言

在現(xiàn)代企業(yè)的激烈競爭環(huán)境中，銷售業(yè)績的好壞直接關(guān)系到一個(gè)企業(yè)的生存與發(fā)展。隨著企業(yè)規(guī)模的不斷擴(kuò)大和經(jīng)營管理的逐漸完善提升，企業(yè)的管理決策人員必然關(guān)注產(chǎn)品的銷售業(yè)績總體情況、產(chǎn)品的聯(lián)合銷售情況和銷售退貨等面向企業(yè)級(jí)的有價(jià)值的信息。以ERI，為代表的事務(wù)型處理系統(tǒng)雖然在處理日常的業(yè)務(wù)工作方面顯示出強(qiáng)大的能力，但是在決策分析中，只能提供較為簡單的記錄查詢，管理決策者更需要從日積月累的龐大的業(yè)務(wù)數(shù)據(jù)中獲取隱藏的知識(shí)，提高積壓數(shù)據(jù)的利用率。

數(shù)據(jù)挖掘是數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)（Knowledge Discovery in Databases，KDD）的一個(gè)基本步驟，是指從數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱含的、未知的、潛在的和有用信息的非平凡過程。關(guān)聯(lián)規(guī)則是一種重要的數(shù)據(jù)挖掘模式，其最權(quán)威的定義是國際商業(yè)機(jī)器（International Busines Machines，IBM）公司科學(xué)家R.Agrawal等人提出的，是數(shù)據(jù)之間一種簡單實(shí)用的規(guī)則。關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中挖掘出有價(jià)值的描述數(shù)據(jù)項(xiàng)之間相互聯(lián)系的知識(shí)。本文描述了如何建立數(shù)據(jù)集市，使用數(shù)據(jù)挖掘技術(shù)，應(yīng)用關(guān)聯(lián)規(guī)則挖掘算法發(fā)現(xiàn)銷售數(shù)據(jù)中不同產(chǎn)品（類）之間的聯(lián)系，找出銷售行為模式的過程，并對(duì)挖掘算法應(yīng)用過程中出現(xiàn)的問題進(jìn)行了探討。

本文分析的是廣東某衛(wèi)浴企業(yè)福州OA的銷售數(shù)據(jù)。該福州OA系統(tǒng)是筆者所在研究中心實(shí)施的中小企業(yè)信息化示范項(xiàng)目。

1 關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù)

1.1 概念

設(shè)I＝{i1，i2，…，im}是項(xiàng)的集合。設(shè)任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫事務(wù)的集合，其中每個(gè)事務(wù)T是項(xiàng)的集合，使T屬于I。每一個(gè)事務(wù)都有一個(gè)標(biāo)識(shí)，稱為TID。設(shè)A是一個(gè)項(xiàng)集，事務(wù)T包含A當(dāng)且僅當(dāng)A屬于T。關(guān)聯(lián)規(guī)則是形如A→B的蘊(yùn)涵式，其中，B為項(xiàng)集，A屬于I，B屬于I，并且A∩B＝Φ。假設(shè)規(guī)則A→B的支持度是s，則s是D中事務(wù)包含A∪B的百分比。如果規(guī)則A→B的置信度是c，即c是D中包含A的事務(wù)同時(shí)也包含B的百分比。即：

support（A→B）＝P（A∪B）

confidence（A→B）＝P（B︱A）

同時(shí)滿足最小支持度閾值（min_support）的最小置信度闌值（min_confidence）的規(guī)則稱作強(qiáng)規(guī)則。

項(xiàng)的集合稱為項(xiàng)集（Itemset）。包含k個(gè)項(xiàng)的項(xiàng)集稱為k-項(xiàng)集。如果項(xiàng)集滿足最小支持度，則稱它為頻繁項(xiàng)集（Frequent Itemset）。

1.2 Apriori算法

Apriori算法是一種經(jīng)典的關(guān)聯(lián)規(guī)則數(shù)字挖掘中尋找頻繁項(xiàng)集的算法。Apriori算法的基本思想是利用頻繁項(xiàng)集的向下封閉性（即頻繁項(xiàng)集的子集也是頻繁項(xiàng)集）尋找頻繁項(xiàng)集。為了生成所有頻繁項(xiàng)集，使用了遞推的方法。首先產(chǎn)生所有1-項(xiàng)集C1，即候選1-項(xiàng)集，再從中找出所有的頻繁1-項(xiàng)集L1，然后根據(jù)頻繁1-項(xiàng)集確定候選2-項(xiàng)集C2，再從C2中找出頻繁2-項(xiàng)集L2，依次下去，直到不再有候選項(xiàng)集為止。其過程如下。

1）單趟掃描數(shù)據(jù)庫D計(jì)算出各個(gè)1-項(xiàng)集的支持度，從而得出頻繁1-項(xiàng)集構(gòu)成的集合L1。

2）為了產(chǎn)生頻繁k-項(xiàng)集構(gòu)成的集合Lk，預(yù)先生成一個(gè)候選項(xiàng)集Ck，Lk屬于Ck，其中項(xiàng)集Ck由聯(lián)合運(yùn)算實(shí)現(xiàn)。聯(lián)合算法：若p，q∈Lk-1，p＝{p1，p2，…，pk-1}，q＝{q1，q2，…，qk-1}，并且當(dāng)1≤i≤k－1時(shí)，有pi＝qi；當(dāng)i＝k－1時(shí)，有pk-1≠qk-1，，則p∪q＝{p1，p2，…，pk-2，pk-1，qk-1}是候選k-項(xiàng)集的集合Ck中的元素。

3）剪枝。 Ck是Lk的超集，即Ck中的項(xiàng)集可能是頻繁的，也可能是非頻繁的，但所有的頻繁k-項(xiàng)集都包含在Ck中。應(yīng)用Apriori性質(zhì)，如果一個(gè)候選k-項(xiàng)集的（k－1）-項(xiàng)子集不在Lk-1中，則該候選集也不可能是頻繁的，從而可以從Ck中刪除。

4）將Ck中不滿足最小支持度的項(xiàng)集刪除，形成由頻繁k-項(xiàng)集構(gòu)成的集合Lk。

2 銷售數(shù)據(jù)集市的設(shè)計(jì)

2.1 邏輯模型設(shè)計(jì)

數(shù)據(jù)倉庫是建立在關(guān)系數(shù)據(jù)庫的基礎(chǔ)上，因此在數(shù)據(jù)倉庫的邏輯設(shè)計(jì)中采用關(guān)系模型。邏輯模型設(shè)計(jì)的主要工作是確定主題的公共碼鍵和屬性組，確定關(guān)系模型中的事實(shí)表和維表，識(shí)別事實(shí)數(shù)據(jù)和維數(shù)據(jù)，通過公共碼鍵將表聯(lián)系在一起，形成一個(gè)完整的主題。

數(shù)據(jù)集市是部門級(jí)的，一般只能為某個(gè)局部范圍內(nèi)的管理人員服務(wù)，因此也稱之部門級(jí)數(shù)據(jù)倉庫。

銷售數(shù)據(jù)集市的維度表包括產(chǎn)品維表、客戶維表和時(shí)間維表；事實(shí)表數(shù)據(jù)除了指向各維表的外鍵之外，應(yīng)包括銷售數(shù)量、銷售金額和退貨數(shù)量。使用星型模式來描述銷售數(shù)據(jù)集市的邏輯模型（見圖1）。

圖1 銷售數(shù)據(jù)集市邏輯模型

有了數(shù)據(jù)結(jié)構(gòu)模型之后，便可以對(duì)事實(shí)表和維表進(jìn)行詳細(xì)的設(shè)計(jì)，包括其中的字段名、類型和功能描述，還有表間主外鍵的對(duì)應(yīng)關(guān)系。

其中三個(gè)維度表中的主鍵在事實(shí)表中都有與之對(duì)應(yīng)的外鍵，以相同的字段名表示，通過主外鍵的相連，構(gòu)成如圖1所示的以事實(shí)表為中心，維表在周邊的星型模型。

發(fā)布：2007-04-24 14:26 編輯：泛普軟件 · xiaona [打印此頁] [關(guān)閉]

相關(guān)欄目：

相關(guān)文章：

上一篇：經(jīng)濟(jì)寒冬來臨中小企業(yè)的生存之道

下一篇：SaaS是中國管理模式的助推器

南寧OA系統(tǒng)

聯(lián)系方式

成都公司：成都市成華區(qū)建設(shè)南路160號(hào)1層9號(hào)

重慶公司：重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢：400-8352-114

加微信，免費(fèi)獲取試用系統(tǒng)

QQ在線咨詢

電話咨詢：
4008352114

QQ在線咨詢

數(shù)據(jù)挖掘技術(shù)在中小企業(yè)福州OA中的應(yīng)用研究

泛普南寧OA快博其他應(yīng)用