監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價咨詢管理系統(tǒng) | 工程設計管理系統(tǒng) | 簽約案例 | 購買價格 | 在線試用 | 手機APP | 產品資料
X 關閉

數據挖掘技術在中小企業(yè)福州OA中的應用研究

申請免費試用、咨詢電話:400-8352-114

來源:泛普軟件

數據挖掘技術在中小企業(yè)福州OA中的應用研究1

0 引 言

在現代企業(yè)的激烈競爭環(huán)境中,銷售業(yè)績的好壞直接關系到一個企業(yè)的生存與發(fā)展。隨著企業(yè)規(guī)模的不斷擴大和經營管理的逐漸完善提升,企業(yè)的管理決策人員必然關注產品的銷售業(yè)績總體情況、產品的聯合銷售情況和銷售退貨等面向企業(yè)級的有價值的信息。以ERI, 為代表的事務型處理系統(tǒng)雖然在處理日常的業(yè)務工作方面顯示出強大的能力,但是在決策分析中,只能提供較為簡單的記錄查詢,管理決策者更需要從日積月累的龐大的業(yè)務數據中獲取隱藏的知識,提高積壓數據的利用率。

數據挖掘是數據庫中的知識發(fā)現(Knowledge Discovery in Databases,KDD)的一個基本步驟,是指從數據庫或數據倉庫中提取隱含的、未知的、潛在的和有用信息的非平凡過程。關聯規(guī)則是一種重要的數據挖掘模式,其最權威的定義是國際商業(yè)機器(International Busines Machines,IBM)公司科學家R.Agrawal等人提出的,是數據之間一種簡單實用的規(guī)則。關聯規(guī)則數據挖掘就是從大量的數據中挖掘出有價值的描述數據項之間相互聯系的知識。本文描述了如何建立數據集市,使用數據挖掘技術,應用關聯規(guī)則挖掘算法發(fā)現銷售數據中不同產品(類)之間的聯系,找出銷售行為模式的過程,并對挖掘算法應用過程中出現的問題進行了探討。

本文分析的是廣東某衛(wèi)浴企業(yè)福州OA的銷售數據。該福州OA系統(tǒng)是筆者所在研究中心實施的中小企業(yè)信息化示范項目。

1 關聯規(guī)則數據挖掘技術

1.1 概念

設I={i1,i2,…,im}是項的集合。設任務相關的數據D是數據庫事務的集合,其中每個事務T是項的集合,使T屬于I。每一個事務都有一個標識,稱為TID。設A是一個項集,事務T包含A當且僅當A屬于T。關聯規(guī)則是形如A→B的蘊涵式,其中,B為項集,A屬于I,B屬于I,并且A∩B=Φ。假設規(guī)則A→B的支持度是s,則s是D中事務包含A∪B的百分比。如果規(guī)則A→B的置信度是c,即c是D中包含A的事務同時也包含B的百分比。即:

support(A→B)=P(A∪B)

confidence(A→B)=P(B︱A)

同時滿足最小支持度閾值(min_support)的最小置信度闌值(min_confidence)的規(guī)則稱作強規(guī)則。

項的集合稱為項集(Itemset)。包含k個項的項集稱為k-項集。如果項集滿足最小支持度,則稱它為頻繁項集(Frequent Itemset)。

1.2 Apriori算法

Apriori算法是一種經典的關聯規(guī)則數字挖掘中尋找頻繁項集的算法。Apriori算法的基本思想是利用頻繁項集的向下封閉性(即頻繁項集的子集也是頻繁項集)尋找頻繁項集。為了生成所有頻繁項集,使用了遞推的方法。首先產生所有1-項集C1,即候選1-項集,再從中找出所有的頻繁1-項集L1,然后根據頻繁1-項集確定候選2-項集C2,再從C2中找出頻繁2-項集L2,依次下去,直到不再有候選項集為止。其過程如下。

1)單趟掃描數據庫D計算出各個1-項集的支持度,從而得出頻繁1-項集構成的集合L1。

2)為了產生頻繁k-項集構成的集合Lk,預先生成一個候選項集Ck,Lk屬于Ck,其中項集Ck由聯合運算實現。聯合算法:若p,q∈Lk-1,p={p1,p2,…,pk-1},q={q1,q2,…,qk-1},并且當1≤i≤k-1時,有pi=qi;當i=k-1時,有pk-1≠qk-1,,則p∪q={p1,p2,…,pk-2,pk-1,qk-1}是候選k-項集的集合Ck中的元素。

3)剪枝 。 Ck是Lk的超集,即Ck中的項集可能是頻繁的,也可能是非頻繁的,但所有的頻繁k-項集都包含在Ck中。應用Apriori性質,如果一個候選k-項集的(k-1)-項子集不在Lk-1中,則該候選集也不可能是頻繁的,從而可以從Ck中刪除。

4)將Ck中不滿足最小支持度的項集刪除,形成由頻繁k-項集構成的集合Lk。

2 銷售數據集市的設計

2.1 邏輯模型設計

數據倉庫是建立在關系數據庫的基礎上,因此在數據倉庫的邏輯設計中采用關系模型。邏輯模型設計的主要工作是確定主題的公共碼鍵和屬性組,確定關系模型中的事實表和維表,識別事實數據和維數據,通過公共碼鍵將表聯系在一起,形成一個完整的主題。

數據集市是部門級的,一般只能為某個局部范圍內的管理人員服務,因此也稱之部門級數據倉庫。

銷售數據集市的維度表包括產品維表、客戶維表和時間維表;事實表數據除了指向各維表的外鍵之外,應包括銷售數量、銷售金額和退貨數量。使用星型模式來描述銷售數據集市的邏輯模型(見圖1)。

圖1 銷售數據集市邏輯模型

有了數據結構模型之后,便可以對事實表和維表進行詳細的設計,包括其中的字段名、類型和功能描述,還有表間主外鍵的對應關系。

其中三個維度表中的主鍵在事實表中都有與之對應的外鍵,以相同的字段名表示,通過主外鍵的相連,構成如圖1所示的以事實表為中心,維表在周邊的星型模型。

發(fā)布:2007-04-24 14:26    編輯:泛普軟件 · xiaona    [打印此頁]    [關閉]
相關文章:
南寧OA系統(tǒng)
聯系方式

成都公司:成都市成華區(qū)建設南路160號1層9號

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓

咨詢:400-8352-114

加微信,免費獲取試用系統(tǒng)

QQ在線咨詢

泛普南寧OA快博其他應用

南寧OA軟件 南寧OA新聞動態(tài) 南寧OA信息化 南寧OA快博 南寧OA行業(yè)資訊 南寧軟件開發(fā)公司 南寧門禁系統(tǒng) 南寧物業(yè)管理軟件 南寧倉庫管理軟件 南寧餐飲管理軟件 南寧網站建設公司