當前位置:工程項目OA系統(tǒng) > 泛普各地 > 廣西OA系統(tǒng) > 南寧OA系統(tǒng) > 南寧OA快博
數據挖掘技術在中小企業(yè)福州OA中的應用研究
數據挖掘技術在中小企業(yè)福州OA中的應用研究1
0 引 言
在現代企業(yè)的激烈競爭環(huán)境中,銷售業(yè)績的好壞直接關系到一個企業(yè)的生存與發(fā)展。隨著企業(yè)規(guī)模的不斷擴大和經營管理的逐漸完善提升,企業(yè)的管理決策人員必然關注產品的銷售業(yè)績總體情況、產品的聯合銷售情況和銷售退貨等面向企業(yè)級的有價值的信息。以ERI, 為代表的事務型處理系統(tǒng)雖然在處理日常的業(yè)務工作方面顯示出強大的能力,但是在決策分析中,只能提供較為簡單的記錄查詢,管理決策者更需要從日積月累的龐大的業(yè)務數據中獲取隱藏的知識,提高積壓數據的利用率。
數據挖掘是數據庫中的知識發(fā)現(Knowledge Discovery in Databases,KDD)的一個基本步驟,是指從數據庫或數據倉庫中提取隱含的、未知的、潛在的和有用信息的非平凡過程。關聯規(guī)則是一種重要的數據挖掘模式,其最權威的定義是國際商業(yè)機器(International Busines Machines,IBM)公司科學家R.Agrawal等人提出的,是數據之間一種簡單實用的規(guī)則。關聯規(guī)則數據挖掘就是從大量的數據中挖掘出有價值的描述數據項之間相互聯系的知識。本文描述了如何建立數據集市,使用數據挖掘技術,應用關聯規(guī)則挖掘算法發(fā)現銷售數據中不同產品(類)之間的聯系,找出銷售行為模式的過程,并對挖掘算法應用過程中出現的問題進行了探討。
本文分析的是廣東某衛(wèi)浴企業(yè)福州OA的銷售數據。該福州OA系統(tǒng)是筆者所在研究中心實施的中小企業(yè)信息化示范項目。
1 關聯規(guī)則數據挖掘技術
1.1 概念
設I={i1,i2,…,im}是項的集合。設任務相關的數據D是數據庫事務的集合,其中每個事務T是項的集合,使T屬于I。每一個事務都有一個標識,稱為TID。設A是一個項集,事務T包含A當且僅當A屬于T。關聯規(guī)則是形如A→B的蘊涵式,其中,B為項集,A屬于I,B屬于I,并且A∩B=Φ。假設規(guī)則A→B的支持度是s,則s是D中事務包含A∪B的百分比。如果規(guī)則A→B的置信度是c,即c是D中包含A的事務同時也包含B的百分比。即:
support(A→B)=P(A∪B)
confidence(A→B)=P(B︱A)
同時滿足最小支持度閾值(min_support)的最小置信度闌值(min_confidence)的規(guī)則稱作強規(guī)則。
項的集合稱為項集(Itemset)。包含k個項的項集稱為k-項集。如果項集滿足最小支持度,則稱它為頻繁項集(Frequent Itemset)。
1.2 Apriori算法
Apriori算法是一種經典的關聯規(guī)則數字挖掘中尋找頻繁項集的算法。Apriori算法的基本思想是利用頻繁項集的向下封閉性(即頻繁項集的子集也是頻繁項集)尋找頻繁項集。為了生成所有頻繁項集,使用了遞推的方法。首先產生所有1-項集C1,即候選1-項集,再從中找出所有的頻繁1-項集L1,然后根據頻繁1-項集確定候選2-項集C2,再從C2中找出頻繁2-項集L2,依次下去,直到不再有候選項集為止。其過程如下。
1)單趟掃描數據庫D計算出各個1-項集的支持度,從而得出頻繁1-項集構成的集合L1。
2)為了產生頻繁k-項集構成的集合Lk,預先生成一個候選項集Ck,Lk屬于Ck,其中項集Ck由聯合運算實現。聯合算法:若p,q∈Lk-1,p={p1,p2,…,pk-1},q={q1,q2,…,qk-1},并且當1≤i≤k-1時,有pi=qi;當i=k-1時,有pk-1≠qk-1,,則p∪q={p1,p2,…,pk-2,pk-1,qk-1}是候選k-項集的集合Ck中的元素。
3)剪枝 。 Ck是Lk的超集,即Ck中的項集可能是頻繁的,也可能是非頻繁的,但所有的頻繁k-項集都包含在Ck中。應用Apriori性質,如果一個候選k-項集的(k-1)-項子集不在Lk-1中,則該候選集也不可能是頻繁的,從而可以從Ck中刪除。
4)將Ck中不滿足最小支持度的項集刪除,形成由頻繁k-項集構成的集合Lk。
2 銷售數據集市的設計
2.1 邏輯模型設計
數據倉庫是建立在關系數據庫的基礎上,因此在數據倉庫的邏輯設計中采用關系模型。邏輯模型設計的主要工作是確定主題的公共碼鍵和屬性組,確定關系模型中的事實表和維表,識別事實數據和維數據,通過公共碼鍵將表聯系在一起,形成一個完整的主題。
數據集市是部門級的,一般只能為某個局部范圍內的管理人員服務,因此也稱之部門級數據倉庫。
銷售數據集市的維度表包括產品維表、客戶維表和時間維表;事實表數據除了指向各維表的外鍵之外,應包括銷售數量、銷售金額和退貨數量。使用星型模式來描述銷售數據集市的邏輯模型(見圖1)。
圖1 銷售數據集市邏輯模型
有了數據結構模型之后,便可以對事實表和維表進行詳細的設計,包括其中的字段名、類型和功能描述,還有表間主外鍵的對應關系。
其中三個維度表中的主鍵在事實表中都有與之對應的外鍵,以相同的字段名表示,通過主外鍵的相連,構成如圖1所示的以事實表為中心,維表在周邊的星型模型。
- 1金融危機下用福州OA改善企業(yè)現金流量
- 2中小企業(yè)福州OA提高成功率的關鍵策略
- 3強訊呼叫中心服務于北京郵電大學網絡教育學院
- 4“貴州茅臺鎮(zhèn)”商標引爭議 茅臺起訴十多家酒企
- 5中小企業(yè)抗擊金融危機要打持久戰(zhàn)
- 6如何走出“偽商業(yè)智能”的陷阱?
- 7企業(yè)物流供應鏈管理相關綜述
- 8十種方法幫助中小企業(yè)戰(zhàn)勝出口危機
- 9“知識管理”是信息化的奢侈品嗎?
- 10SaaS大幅增長 超越傳統(tǒng)引領存儲
- 11面向再造的企業(yè)信息化初探
- 12買房最容易觸碰六大雷區(qū) 勿讓優(yōu)惠沖昏頭
- 13漢肯薩繆爾森出任沃爾沃汽車集團新CEO
- 142012年中國家具行業(yè)“遇難” 金屬家具出口卻突增
- 15保證企業(yè)福州OA項目成功實施的十大要素
- 16企業(yè)從功能出發(fā)為ERP系統(tǒng)選型 需注意四點
- 17房價走勢不明買房易陷10大誤區(qū) 專家為你破解
- 18網友評論:金融危機程序員應該如何應對
- 19樣板間看上去很美 牢記三大注意事項避免上當
- 20住建部:房價不會全面反彈 限購政策將繼續(xù)執(zhí)行
- 21企業(yè)降低IT成本的20個小建議
- 22異地高考方案年底出臺 天津學籍房驟然走俏
- 23企業(yè)SOA項目部署中的幾個關鍵問題
- 24企業(yè)信息門戶的技術架構和基本功能
- 25改進IT服務管理流程的十七個步驟
- 26以生產為核心 掌握制造業(yè)ERP選型切入點
- 27縱觀國外流程管理的技術演進
- 28SaaS是中國管理模式的助推器
- 29從福州OA四大失敗案例看全面預算的機遇
- 30商務智能掌控后ERP 時代之BI開始盈利
成都公司:成都市成華區(qū)建設南路160號1層9號
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓