監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價(jià)咨詢(xún)管理系統(tǒng) | 工程設(shè)計(jì)管理系統(tǒng) | 簽約案例 | 購(gòu)買(mǎi)價(jià)格 | 在線(xiàn)試用 | 手機(jī)APP | 產(chǎn)品資料
X 關(guān)閉

數(shù)據(jù)挖掘與決策支持系統(tǒng)之間的關(guān)系

申請(qǐng)免費(fèi)試用、咨詢(xún)電話(huà):400-8352-114

來(lái)源:泛普軟件

1 決策支持系統(tǒng)

決策支持系統(tǒng)(DSS)中“決策”就是決策者根據(jù)所掌握的信息為決策對(duì)象選擇行為的思維過(guò)程。為決策者提供支持的信息成為決策支持信息,相應(yīng)的信息系統(tǒng)稱(chēng)為決策支持系統(tǒng),我們將決策支持領(lǐng)域分成OLTP、MIS、LDSS及HDSS四個(gè)層次:

1.1 OLTP(聯(lián)機(jī)事物處理)

最基本的數(shù)據(jù)庫(kù)應(yīng)用系統(tǒng),是更高級(jí)的MIS系統(tǒng)和DSS系統(tǒng)的基礎(chǔ),OLTP系統(tǒng)一般具有底層信息采集(數(shù)據(jù)錄入功能)、一定的信息查詢(xún)以及信息庫(kù)更新維護(hù)功能,OLTP面向的是操作人員和低層管理人員,其主要功能在于對(duì)數(shù)據(jù)庫(kù)中的信息進(jìn)行錄入、存儲(chǔ)、更新、刪除等操作,是最基本的管理細(xì)節(jié)信息的數(shù)據(jù)庫(kù)應(yīng)用系統(tǒng)。

1.2 基于OLTP的MIS系統(tǒng)

這是較高一級(jí)的數(shù)據(jù)庫(kù)應(yīng)用系統(tǒng),這類(lèi)系統(tǒng)在OUP的基礎(chǔ)上進(jìn)一步擴(kuò)展,包括提高信息訪(fǎng)問(wèn)功能,報(bào)表生成能力等。MIS系統(tǒng)由若干個(gè)功能相對(duì)獨(dú)立的OLTP系統(tǒng)集成而成,當(dāng)前的信息服務(wù)系統(tǒng)基本屬于MIS系統(tǒng)。

1.3 LDSS(低級(jí)決策支持系統(tǒng))

LDSS處于比MIS更高一層的位置,直接為決策者提供決策支持服務(wù),它的關(guān)鍵在于信息的有效提取并加以分析而不在于信息的收集與更新(這些操作由基礎(chǔ)層的OLTP系統(tǒng)完成)。目前決策支持系統(tǒng)絕大部分屬于LDSS的層次,它存在著如下功能局限:

(1)隨機(jī)性的綜合信息提取功能較弱;

(2)對(duì)查詢(xún)得到的信息的分析功能較弱;

(3)不是基于海量數(shù)據(jù)庫(kù)。

1.4 HDSS〔高級(jí)決策支持系統(tǒng))

HDSS是決策支持系統(tǒng)的最高形式,能夠真正使用戶(hù)利用DSS工具直接從企業(yè)信息池中隨機(jī)地提取、分析數(shù)據(jù),有效地服務(wù)于企業(yè)的全方位決策。它由三個(gè)主要部件構(gòu)成:

1.4.1 數(shù)據(jù)倉(cāng)庫(kù)技術(shù)(DW,Data Warehousing)

進(jìn)入90年代后,隨著人們對(duì)信息需求的迅速增加,信息系統(tǒng)部門(mén)工作的重點(diǎn)已不局限于簡(jiǎn)單的數(shù)據(jù)收集,而是讓整個(gè)企業(yè)內(nèi)的人們能夠充分利用這些數(shù)據(jù),為此而提出的數(shù)據(jù)倉(cāng)庫(kù)化概念,越來(lái)越成為各行各業(yè)信息系統(tǒng)部門(mén)普遍關(guān)注的焦點(diǎn)。數(shù)據(jù)倉(cāng)庫(kù)技術(shù)是企業(yè)范圍內(nèi)數(shù)據(jù)的處理技術(shù),它將這些分散的數(shù)據(jù)集中到一個(gè)更大的庫(kù)中(稱(chēng)為數(shù)據(jù)倉(cāng)庫(kù)),最終用戶(hù)從數(shù)據(jù)倉(cāng)庫(kù)中運(yùn)行查詢(xún)、制作報(bào)表,進(jìn)行數(shù)據(jù)分析。數(shù)據(jù)倉(cāng)庫(kù)收集存儲(chǔ)了各個(gè)不同數(shù)據(jù)源中的數(shù)據(jù),通過(guò)數(shù)據(jù)的組織給決策支持者提供分布在整個(gè)企業(yè)內(nèi)部、跨平臺(tái)的數(shù)據(jù)。

1.4.2 聯(lián)機(jī)分析處理技術(shù)(OLAP,On-line Analytical Processing)

這種技術(shù)能有效地集中分析和深入研究數(shù)據(jù),發(fā)現(xiàn)趨勢(shì),看到異常情況,得到重要細(xì)節(jié),大體可分為基于多維數(shù)據(jù)庫(kù)的OLAP實(shí)現(xiàn)(MD-OLAP)和基于關(guān)系數(shù)據(jù)庫(kù)的OLAP實(shí)現(xiàn)(ROLAP)。OLAP允許用戶(hù)使用數(shù)據(jù)導(dǎo)航技術(shù)獲取更詳細(xì)的信息,可以使用戶(hù)在一個(gè)數(shù)據(jù)集內(nèi)進(jìn)行“向上挖掘”、“向下挖掘”、“跨越挖掘”以及“切片和旋轉(zhuǎn)”等功能。

1.4.3 數(shù)據(jù)挖掘技術(shù)(DM,Data Mining)

它能從大型數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)模式,預(yù)測(cè)趨勢(shì)和行為,致力于知識(shí)的自動(dòng)發(fā)現(xiàn)。一般認(rèn)為數(shù)據(jù)挖掘是OLAP之后進(jìn)行的步驟,它通過(guò)篩選數(shù)據(jù)獲得未知的關(guān)系,而不是尋找已知的關(guān)系。它能幫助決策者尋找數(shù)據(jù)間潛在的關(guān)聯(lián),發(fā)現(xiàn)被忽略的要素,如“在某年某地區(qū)賣(mài)了多少機(jī)械”這就是OLAP,而“促使人們購(gòu)買(mǎi)某種產(chǎn)品的原因是什么”,則是數(shù)據(jù)挖掘。雖然數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘和OLAP技術(shù)最初是作為三種獨(dú)立的信息處理技術(shù)出現(xiàn)的,但是,由于它們之間內(nèi)在的聯(lián)系和互補(bǔ)性,使得這三種技術(shù)在高級(jí)決策支持系統(tǒng)中已經(jīng)成為一個(gè)密不可分的核心。

2 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘是從大型數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中發(fā)現(xiàn)并提取隱藏在其中的信息或知識(shí)的過(guò)程,目的是幫助分析人員尋找數(shù)據(jù)間潛在的關(guān)聯(lián),發(fā)現(xiàn)忽略的要素,而這些信息對(duì)預(yù)測(cè)趨勢(shì)和決策行為是十分有用的,所以它屬于決策支持系統(tǒng)的范疇。

2.1 預(yù)處理數(shù)據(jù)

通過(guò)消除噪聲、推導(dǎo)計(jì)算缺值數(shù)據(jù)、消除重復(fù)記錄、完成數(shù)據(jù)類(lèi)型轉(zhuǎn)換(如把連續(xù)值數(shù)據(jù)轉(zhuǎn)換為離散型的數(shù)據(jù),或是把離散型的數(shù)據(jù)轉(zhuǎn)換為連續(xù)值數(shù)據(jù))等來(lái)收集和凈化來(lái)自數(shù)據(jù)源的信息,并加以存儲(chǔ),一般是將其存放在數(shù)據(jù)倉(cāng)庫(kù)中。

2.2 模型搜索

利用數(shù)據(jù)挖掘工具在數(shù)據(jù)中查找模型,這個(gè)搜尋過(guò)程可以由系統(tǒng)自動(dòng)執(zhí)行,自底向上搜尋原始事實(shí)以發(fā)現(xiàn)它們之間的某種聯(lián)系,也可以加入用戶(hù)交互過(guò)程,由分析人員主動(dòng)發(fā)問(wèn),從上到下地找尋以驗(yàn)證假定的正確性,對(duì)于一個(gè)問(wèn)題的搜尋過(guò)程可能用到許多工具,例如神經(jīng)網(wǎng)絡(luò)、基于規(guī)則的系統(tǒng)、基于實(shí)例的推理、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)方法等。

2.3 評(píng)價(jià)輸出結(jié)果

數(shù)據(jù)挖掘階段發(fā)現(xiàn)出來(lái)的模式,經(jīng)過(guò)用戶(hù)或機(jī)器的評(píng)估,可能存在冗余、價(jià)值不大的或無(wú)關(guān)的模式,這時(shí)需要將其剔除,把重要的模式形成知識(shí)存儲(chǔ)到知識(shí)庫(kù)中,也有可能模式未能滿(mǎn)足用戶(hù)要求,這時(shí)則需要整個(gè)發(fā)現(xiàn)過(guò)程回到發(fā)現(xiàn)階段之前,如重新選取數(shù)據(jù)、采用新的數(shù)據(jù)變換方法、設(shè)定新的數(shù)據(jù)挖掘參數(shù)值,甚至換一種挖掘算法??梢?jiàn)數(shù)據(jù)發(fā)掘的搜尋過(guò)程一般需要反復(fù)多次,因?yàn)楫?dāng)分析人員評(píng)價(jià)輸出結(jié)果后,他們可能會(huì)形成一些新的問(wèn)題或要求對(duì)某一方面作更精細(xì)的查詢(xún)。

2.4 生成最后的結(jié)果報(bào)告

DM由于最終是面向人類(lèi)用戶(hù)的,因此可能要對(duì)發(fā)現(xiàn)的模式進(jìn)行可視化,或者把結(jié)果轉(zhuǎn)換為用戶(hù)易懂的另一種表示。

2.5 解釋結(jié)果報(bào)告

對(duì)結(jié)果進(jìn)行解釋?zhuān)罁?jù)此結(jié)果采取相應(yīng)的商業(yè)措施,這是一個(gè)人工過(guò)程。

數(shù)據(jù)挖掘的相關(guān)技術(shù):為了簡(jiǎn)化和加快數(shù)據(jù)挖掘過(guò)程,使數(shù)據(jù)挖掘真正方便、實(shí)用,還需其他的技術(shù)支持,如數(shù)據(jù)凈化、數(shù)據(jù)倉(cāng)庫(kù)技術(shù)、強(qiáng)大的平行處理技術(shù)和存儲(chǔ)技術(shù)。

(1)數(shù)據(jù)凈化(Data Scrubbing)。為了使數(shù)據(jù)挖掘能夠產(chǎn)生合理的結(jié)果,數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)以前必須清除錯(cuò)誤,形成統(tǒng)一的格式,如用“1”和“0”代表性別,而不是用“male”、“female”、“man”、“woman”表示,這個(gè)過(guò)程可能用的很慢。此外,盡管有現(xiàn)成的軟件可以輔助開(kāi)發(fā)人員凈化數(shù)據(jù),將數(shù)據(jù)搬遷到數(shù)據(jù)倉(cāng)庫(kù)中,但開(kāi)發(fā)人員還是要考慮數(shù)據(jù)如何表示、采用哪種格式等問(wèn)題。數(shù)據(jù)凈化過(guò)程的步驟,按順序如下:a)檢查拼寫(xiě)錯(cuò)誤;b)去掉重復(fù)的記錄;c)補(bǔ)上不完全的記錄;d)解決不一致的記錄;e)用測(cè)試查詢(xún)來(lái)驗(yàn)證數(shù)據(jù);f)根據(jù)驗(yàn)證結(jié)果反復(fù)迭代上述步驟。

(2)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)。一個(gè)企業(yè)在沒(méi)有建立自己的數(shù)據(jù)倉(cāng)庫(kù)之前,有許多分散的、未集成的、不精練的信息,采掘這樣的數(shù)據(jù),效率是很低的。數(shù)據(jù)倉(cāng)庫(kù)技術(shù)是企業(yè)范圍內(nèi)數(shù)據(jù)的處理技術(shù),它將這些分散的數(shù)據(jù)集中到一個(gè)更大的庫(kù)中,為數(shù)據(jù)挖掘提供了有效的結(jié)構(gòu),有利于數(shù)據(jù)挖掘。

(3)平行處理技術(shù)。毫無(wú)疑問(wèn),強(qiáng)大的平行處理計(jì)算機(jī)可以提高數(shù)據(jù)挖掘的應(yīng)用,因?yàn)槠叫刑幚砑夹g(shù)可以將一個(gè)復(fù)雜查詢(xún)分解成多個(gè)子查詢(xún),每個(gè)子查詢(xún)交給不同的處理器處理,這一處理過(guò)程是并行執(zhí)行的,不像串行處理機(jī),任務(wù)只能順序執(zhí)行。因此,并行處理技術(shù)可以大大加速數(shù)據(jù)挖掘的過(guò)程;反過(guò)來(lái),人們對(duì)數(shù)據(jù)挖掘的興趣也有助于并行系統(tǒng)的銷(xiāo)售。

(4)存儲(chǔ)技術(shù)?,F(xiàn)在的數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的數(shù)據(jù)量是GB到TB級(jí)別,隨著時(shí)間的推移,在未來(lái)五年,可能會(huì)達(dá)到幾百個(gè)TB級(jí),因此,廉價(jià)可行的存儲(chǔ)技術(shù)對(duì)于數(shù)據(jù)挖掘來(lái)說(shuō)變得非常重要。目前,普遍采用的是二級(jí)存儲(chǔ)技術(shù),即磁盤(pán)(磁光盤(pán))-主存兩級(jí)存儲(chǔ),由于缺乏快速的訪(fǎng)問(wèn)和存儲(chǔ)磁盤(pán)的技術(shù),隨著存儲(chǔ)容量的增長(zhǎng)、數(shù)據(jù)挖掘查詢(xún)?cè)絹?lái)越復(fù)雜以及并行處理器速度的加快,存儲(chǔ)技術(shù)可能會(huì)成為數(shù)據(jù)挖掘的新瓶頸。

3 數(shù)據(jù)挖掘與決策支持系統(tǒng)的聯(lián)系及數(shù)據(jù)挖掘工具產(chǎn)品

傳統(tǒng)的DSS系統(tǒng)通常是在某個(gè)假設(shè)的前提下通過(guò)數(shù)據(jù)查詢(xún)和分析來(lái)驗(yàn)證或否定這個(gè)假設(shè),而數(shù)據(jù)挖掘技術(shù)則能夠自動(dòng)分析數(shù)據(jù),進(jìn)行歸納整理,從中發(fā)現(xiàn)潛在的模式,或產(chǎn)生聯(lián)想,建立新的業(yè)務(wù)模型,幫助決策者調(diào)整市場(chǎng)策略,并找出正確的決策。例如在銷(xiāo)售業(yè)數(shù)據(jù)庫(kù)中,數(shù)據(jù)挖掘工具回答“哪些客戶(hù)最可能對(duì)促銷(xiāo)作出反應(yīng),為什么他會(huì)這樣?”、“哪些商品之間具有潛在的聯(lián)系?”、“下一個(gè)月,在天津的銷(xiāo)售部門(mén)的情況將會(huì)如何?為什么?”等。而DSS系統(tǒng)回答“今年銷(xiāo)售總量比去年多多少?從而預(yù)測(cè)明年銷(xiāo)售總量”、“三月份中,在天津的銷(xiāo)售部門(mén)的情況如何?從而推測(cè)在北京的銷(xiāo)售部門(mén)情況”,所以,數(shù)據(jù)挖掘的出現(xiàn)使決策支持工具跨人了一個(gè)新階段。

數(shù)據(jù)挖掘技術(shù)能夠幫助用戶(hù)從歷史性數(shù)據(jù)中挖掘知識(shí),進(jìn)而支持決策,極大地吸引用戶(hù),而用戶(hù)造就的數(shù)十億美元的市場(chǎng)又極大地吸引了數(shù)據(jù)庫(kù)廠(chǎng)商,各大公司紛紛開(kāi)始了自己的數(shù)據(jù)挖掘工具產(chǎn)品的研制工作。

目前為數(shù)據(jù)挖掘所提供的主要工具有:聯(lián)機(jī)分析處理(OLAP:On-Line Analytical Processing)工具及包含一些AI技術(shù)的工具,如IDIS(InformationD iscovery System)。OLAP描述的是一種多維數(shù)據(jù)服務(wù)(這里的“維”是指人們觀(guān)察世界的角度,如時(shí)間、地域、業(yè)務(wù)等),這種服務(wù)的設(shè)計(jì)目的是保證分析員、經(jīng)理和決策者針對(duì)特定問(wèn)題,通過(guò)快速、一致、交互式的實(shí)時(shí)數(shù)據(jù)訪(fǎng)問(wèn)和分析,獲得有創(chuàng)意的發(fā)現(xiàn)。目前,典型的產(chǎn)品有Pilot公司推出的Lightship產(chǎn)品,Oracle公司新近推出的Orcale Express系列產(chǎn)品,美國(guó)BusinessObjects公司于1996年推出的Business Miner產(chǎn)品。Business Miner產(chǎn)品是一個(gè)桌面式數(shù)據(jù)發(fā)掘工具,可在所有Windows平臺(tái)(包括Windows95,Windows NT和Windows 3.x)上使用。(萬(wàn)方數(shù)據(jù))

發(fā)布:2007-04-27 15:53    編輯:泛普軟件 · xiaona    [打印此頁(yè)]    [關(guān)閉]
相關(guān)文章:

泛普泛普博客其他應(yīng)用

泛普OA商務(wù)合同 泛普OA需求調(diào)研 泛普OA實(shí)施方案 泛普OA項(xiàng)目啟動(dòng) 泛普網(wǎng)絡(luò)硬件配置 泛普OA部署安裝 泛普流程模板表單 OA系統(tǒng)二次開(kāi)發(fā) 泛普常見(jiàn)問(wèn)題解決 泛普OA操作手冊(cè) 泛普軟件項(xiàng)目驗(yàn)收 泛普培訓(xùn)推廣上線(xiàn) 泛普OA售后服務(wù) 泛普新聞 泛普期刊 泛普博客