監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價咨詢管理系統(tǒng) | 工程設(shè)計管理系統(tǒng) | 甲方項目管理系統(tǒng) | 簽約案例 | 客戶案例 | 在線試用
X 關(guān)閉

“數(shù)據(jù)掘金”豈能用“鋤頭”

申請免費試用、咨詢電話:400-8352-114

AMTeam.org

“數(shù)據(jù)掘金”豈能用“鋤頭” 利用數(shù)據(jù)挖掘技術(shù)獲得商業(yè)智能 劉紅巖 何軍 2003-6-5 中國計算機報 應(yīng)該注意:數(shù)據(jù)、信息和決策信息三者是有區(qū)別的。知識發(fā)現(xiàn)這個過程做不好,企業(yè)迅速膨脹的信息系統(tǒng)就是個垃圾堆。從外表看,企業(yè)信息系統(tǒng)的硬件施工很規(guī)范,但是怎么知道企業(yè)的管理團隊,乃至整個企業(yè)正在滑進這個垃圾堆呢? ——編者


  在當今競爭日益激烈的市場環(huán)境中,您一定希望能夠從浩如煙海的商務(wù)數(shù)據(jù)以及其他相關(guān)的數(shù)據(jù)中發(fā)現(xiàn)帶來巨額利潤的商機。只有那些利用先進的信息技術(shù)成功地收集、分析、理解信息并依據(jù)信息進行決策的企業(yè)才能獲得競爭優(yōu)勢,才是市場的贏家。因此,越來越多的管理者開始借助商務(wù)智能技術(shù)來發(fā)現(xiàn)商務(wù)運營過程中存在的問題,找到有利的解決方案。
  具體地說,商務(wù)智能技術(shù)包括:

  · 數(shù)據(jù)倉庫(data warehousing)
  · 聯(lián)機分析處理(on-line analytical processing,簡稱OLAP)
  · 數(shù)據(jù)挖掘(data mining)

  包括以上三者在內(nèi)的用于綜合、探察和分析商務(wù)數(shù)據(jù)的先進的信息技術(shù)的統(tǒng)稱就是商務(wù)智能技術(shù)。

  數(shù)據(jù)倉庫

  數(shù)據(jù)倉庫是一個面向主題的、集成的、隨時間變化的、非易失的主要用于決策支持的數(shù)據(jù)的集合。一般來說,大公司或企業(yè)內(nèi)存在著各種各樣的信息系統(tǒng),這些應(yīng)用驅(qū)動的操作型信息系統(tǒng)為企業(yè)不同的業(yè)務(wù)系統(tǒng)服務(wù),具有不同接口和不同的數(shù)據(jù)表示方法,互相孤立。利用數(shù)據(jù)倉庫技術(shù)可以動態(tài)地將各個異構(gòu)系統(tǒng)中的數(shù)據(jù)抽取集成到一起,進行清洗、轉(zhuǎn)換等處理之后加載到數(shù)據(jù)倉庫中,通過周期性的刷新,為用戶提供一個統(tǒng)一的干凈的數(shù)據(jù)視圖,為數(shù)據(jù)分析提供一個高質(zhì)量的數(shù)據(jù)源。

  OLAP

  對于數(shù)據(jù)倉庫中的數(shù)據(jù),可以使用一些增強的查詢和報表工具進行復雜的查詢和即時的報表制作,可以利用OLAP技術(shù)從多種角度對業(yè)務(wù)數(shù)據(jù)進行多方面的匯總統(tǒng)計計算,還可以利用數(shù)據(jù)挖掘技術(shù)自動發(fā)現(xiàn)其中隱含的有用信息。

  數(shù)據(jù)挖掘

  數(shù)據(jù)挖掘又稱知識發(fā)現(xiàn)(Knowledge Discovery in Database,簡稱KDD),是從大量數(shù)據(jù)中抽取有意義的、隱含的、以前未知的并有潛在使用價值的知識的過程。數(shù)據(jù)挖掘是一個多學科交叉性學科,它涉及統(tǒng)計學、機器學習、數(shù)據(jù)庫、模式識別、可視化以及高性能計算等多個學科。利用數(shù)據(jù)挖掘技術(shù)可以分析各種類型的數(shù)據(jù),例如結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)、靜態(tài)的歷史數(shù)據(jù)和動態(tài)數(shù)據(jù)流數(shù)據(jù)等。

  數(shù)據(jù)挖掘?qū)ο蠓诸?BR>

  關(guān)系數(shù)據(jù)庫(relational database)中通常存儲和管理的是結(jié)構(gòu)化的數(shù)據(jù),它將一個實體的各方面信息通過離散的屬性進行描述。而文本數(shù)據(jù)庫(text database)或文檔數(shù)據(jù)庫(document database)則通常存儲和管理的是半結(jié)構(gòu)化的數(shù)據(jù),例如新聞稿件、研究論文、電子郵件、書籍以及WEB頁面等都屬于半結(jié)構(gòu)化數(shù)據(jù)??臻g數(shù)據(jù)庫、多媒體數(shù)據(jù)庫中存放的是非結(jié)構(gòu)化數(shù)據(jù),例如地圖、圖片、音頻、視頻等都屬于非結(jié)構(gòu)化數(shù)據(jù)。相對于半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)來說,針對結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)比較成熟,市場上有很多的商品軟件可以使用,用的較多的包括IBM Intelligent Miner、SAS Enterprise Miner、SGI MineSet、Clementine SPSS以及Microsoft SQL Server 2000等。關(guān)于半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)挖掘軟件尚不多,相應(yīng)的算法相對還較少。IBM Intelligent Miner for Text是IBM公司開發(fā)的針對文本的挖掘軟件。
  從另一個角度來說,數(shù)據(jù)挖掘的分析對象又可以分為兩種類型:靜態(tài)數(shù)據(jù)和數(shù)據(jù)流(data stream)數(shù)據(jù)?,F(xiàn)在的多數(shù)數(shù)據(jù)挖掘算法是用于分析靜態(tài)數(shù)據(jù)的。

  數(shù)據(jù)挖掘常用技術(shù)

  無論要分析的數(shù)據(jù)對象的類型如何,常用的數(shù)據(jù)挖掘技術(shù)包括關(guān)聯(lián)分析、序列分析、分類、預測、聚類分析以及時間序列分析等。

  ·關(guān)聯(lián)分析
  關(guān)聯(lián)分析主要用于發(fā)現(xiàn)不同事件之間的關(guān)聯(lián)性,即一個事件發(fā)生的同時,另一個事件也經(jīng)常發(fā)生。關(guān)聯(lián)分析的重點在于快速發(fā)現(xiàn)那些有實用價值的關(guān)聯(lián)發(fā)生的事件。其主要依據(jù)是事件發(fā)生的概率和條件概率應(yīng)該符合一定的統(tǒng)計意義。
  對于結(jié)構(gòu)化的數(shù)據(jù),以客戶的購買習慣數(shù)據(jù)為例,利用關(guān)聯(lián)分析,可以發(fā)現(xiàn)客戶的關(guān)聯(lián)購買需要。例如,一個開設(shè)儲蓄賬戶的客戶很可能同時進行債券交易和股票交易,購買紙尿褲的男顧客經(jīng)常同時購買啤酒等。利用這種知識可以采取積極的營銷策略,擴展客戶購買的產(chǎn)品范圍,吸引更多的客戶。通過調(diào)整商品的布局便于顧客買到經(jīng)常同時購買的商品,或者通過降低一種商品的價格來促進另一種商品的銷售等。
  對于非結(jié)構(gòu)化的數(shù)據(jù),以空間數(shù)據(jù)為例,利用關(guān)聯(lián)分析,可以發(fā)現(xiàn)地理位置的關(guān)聯(lián)性。例如,85%的靠近高速公路的大城鎮(zhèn)與水相鄰,或者發(fā)現(xiàn)通常與高爾夫球場相鄰的對象等。

  ·序列分析
  序列分析技術(shù)主要用于發(fā)現(xiàn)一定時間間隔內(nèi)接連發(fā)生的事件。這些事件構(gòu)成一個序列,發(fā)現(xiàn)的序列應(yīng)該具有普遍意義,其依據(jù)除了統(tǒng)計上的概率之外,還要加上時間的約束。

  ·分類分析
  分類分析通過分析具有類別的樣本的特點,得到?jīng)Q定樣本屬于各種類別的規(guī)則或方法。利用這些規(guī)則和方法對未知類別的樣本分類時應(yīng)該具有一定的準確度。其主要方法有基于統(tǒng)計學的貝葉斯方法、神經(jīng)網(wǎng)絡(luò)方法、決策樹方法以及support vector machines等。
  利用分類技術(shù),可以根據(jù)顧客的消費水平和基本特征對顧客進行分類,找出對商家有較大利益貢獻的重要客戶的特征,通過對其進行個性化服務(wù),提高他們的忠誠度。
  利用分類技術(shù),可以將大量的半結(jié)構(gòu)化的文本數(shù)據(jù),如WEB頁面、電子郵件等進行分類??梢詫D片進行分類,例如,根據(jù)已有圖片的特點和類別,可以判定一幅圖片屬于何種類型的規(guī)則。對于空間數(shù)據(jù),也可以進行分類分析,例如,可以根據(jù)房屋的地理位置決定房屋的檔次。

  ·聚類分析
  聚類分析是根據(jù)物以類聚的原理,將本身沒有類別的樣本聚集成不同的組,并且對每一個這樣的組進行描述的過程。其主要依據(jù)是聚到同一個組中的樣本應(yīng)該彼此相似,而屬于不同組的樣本應(yīng)該足夠不相似。
  仍以客戶關(guān)系管理為例,利用聚類技術(shù),根據(jù)客戶的個人特征以及消費數(shù)據(jù),可以將客戶群體進行細分。例如,可以得到這樣的一個消費群體:女性占91%,全部無子女、年齡在31到40歲占70%,高消費級別的占64%,買過針織品的占91%,買過廚房用品的占89%,買過園藝用品的占79%。針對不同的客戶群,可以實施不同的營銷和服務(wù)方式,從而提高客戶的滿意度。
  對于空間數(shù)據(jù),根據(jù)地理位置以及障礙物的存在情況可以自動進行區(qū)域劃分。例如,根據(jù)分布在不同地理位置的ATM機的情況將居民進行區(qū)域劃分,根據(jù)這一信息,可以有效地進行ATM機的設(shè)置規(guī)劃,避免浪費,同時也避免失掉每一個商機。
  對于文本數(shù)據(jù),利用聚類技術(shù)可以根據(jù)文檔的內(nèi)容自動劃分類別,從而便于文本的檢索。

  ·預測
  預測與分類類似,但預測是根據(jù)樣本的已知特征估算某個連續(xù)類型的變量的取值的過程,而分類則只是用于判別樣本所屬的離散類別而已。預測常用的技術(shù)是回歸分析。

  ·時間序列分析
  時間序列分析的是隨時間而變化的事件序列,目的是預測未來發(fā)展趨勢,或者尋找相似發(fā)展模式或者是發(fā)現(xiàn)周期性發(fā)展規(guī)律。

  現(xiàn)狀:與發(fā)達國家差距較大

  現(xiàn)在,隨著我國加入WTO,我國在許多領(lǐng)域,如金融、保險等領(lǐng)域?qū)⒅鸩綄ν忾_放,這就意味著許多企業(yè)將面臨來自國際大型跨國公司的巨大競爭壓力。國外發(fā)達國家各種企業(yè)采用商務(wù)智能的水平已經(jīng)遠遠超過了我國。美國Palo Alto 管理集團公司1999年對歐洲、北美和日本375家大中型企業(yè)的商務(wù)智能技術(shù)的采用情況進行了調(diào)查。結(jié)果顯示,在金融領(lǐng)域,商務(wù)智能技術(shù)的應(yīng)用水平已經(jīng)達到或接近70%,在營銷領(lǐng)域也達到50%,并且在未來的3年中,各個應(yīng)用領(lǐng)域?qū)υ摷夹g(shù)的采納水平都將提高約50%?,F(xiàn)在,許多企業(yè)都把數(shù)據(jù)看成寶貴的財富,紛紛利用商務(wù)智能發(fā)現(xiàn)其中隱藏的信息,借此獲得巨額的匯報。
  據(jù)IDC對歐洲和北美62家采用了商務(wù)智能技術(shù)的企業(yè)的調(diào)查分析發(fā)現(xiàn),這些企業(yè)的3年平均投資回報率為401%,其中25%的企業(yè)的投資回報率超過600%。調(diào)查結(jié)果還顯示,一個企業(yè)要想在復雜的環(huán)境中獲得成功,高層管理者必須能夠控制極其復雜的商業(yè)結(jié)構(gòu),若沒有詳實的事實和數(shù)據(jù)支持,是很難辦到的。因此,隨著數(shù)據(jù)挖掘技術(shù)的不斷改進和日益成熟,它必將被更多的用戶采用,使更多的管理者得到更多的商務(wù)智能。
  編后其實,商業(yè)智能并不是從天而降的,它是伴隨這幾十年“計算機器”的普及和發(fā)展,孕育、產(chǎn)生并變得鮮活起來的。我們欣喜地看到,很多企業(yè)已經(jīng)或者正在利用商業(yè)智能增強核心競爭力。從計算機作為辦公設(shè)備成為普通員工的勞作工具,到辦公自動化網(wǎng)絡(luò)作為組織管理模式的不可缺少的有機構(gòu)成,再到商業(yè)智能作為決策輔助工具,表明了人們在這一領(lǐng)域的認識發(fā)展過程:從利用“早期簡單智能工具”——對產(chǎn)品客體的認識和加工,到人們對企業(yè)組織行為管理過程的認識,再到企業(yè)領(lǐng)導者對自身決策行為過程的主體的反思。企業(yè)家認識BI,采用BI,代表著人類能夠認識客觀世界的同時,時刻挑戰(zhàn)著自我認知這個最高境界。具體說,采用BI是企業(yè)決策者給高管層一個智能化工具,最終使自己的決策更加智慧和敏捷的美妙過程。

發(fā)布:2007-03-25 10:38    編輯:泛普軟件 · xiaona    [打印此頁]    [關(guān)閉]
相關(guān)文章:
上海OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設(shè)南路160號1層9號

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢:400-8352-114

加微信,免費獲取試用系統(tǒng)

QQ在線咨詢