當前位置:工程項目OA系統(tǒng) > 泛普各地 > 江西OA系統(tǒng) > 南昌OA系統(tǒng) > 南昌OA行業(yè)資訊
淺析數(shù)據(jù)倉庫、聯(lián)機分析處理與數(shù)據(jù)挖掘
1 三種技術(shù)概述
1.1 什么是數(shù)據(jù)倉庫
數(shù)據(jù)倉庫通常是一個面向主題的、集成的、隨時間變化的、但信息本身相對穩(wěn)定的數(shù)據(jù)集合。其中:
①主題:是指用戶使用數(shù)據(jù)倉庫進行決策時所關(guān)心的重點方面,如收入、客戶、銷售渠道等;所謂面向主題,是指數(shù)據(jù)倉庫內(nèi)的信息是按主題進行組織的,而不是像業(yè)務(wù)支撐系統(tǒng)那樣是按照業(yè)務(wù)功能進行組織的。
②集成:是指數(shù)據(jù)倉庫中的信息不是從各個業(yè)務(wù)系統(tǒng)中簡單抽取出來的,而是經(jīng)過一系列加工、整理和匯總的過程,因此數(shù)據(jù)倉庫中的信息是關(guān)于整個企業(yè)的一致的全局信息。
③隨時間變化:是指數(shù)據(jù)倉庫內(nèi)的信息并不只是反映企業(yè)當前的狀態(tài),而是記錄了從過去某一時點到當前各個階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。
④球言息本身相對穩(wěn)定:是指一旦某個數(shù)據(jù)進入數(shù)據(jù)倉庫以后,一般很少進行修改,更多的是對信息進行查詢操作。
實際上,數(shù)據(jù)倉庫更像一個過程,這個過程涉及數(shù)據(jù)的收集、整理和加工,生成決策所需要的信息,并且最終把這些信息提供給需要這些信息的使用者,供他們做出改善業(yè)務(wù)經(jīng)營的正確決策。數(shù)據(jù)倉庫的重點與要求就是能夠準確、安全、可靠地從業(yè)務(wù)系統(tǒng)中取出數(shù)據(jù),經(jīng)過加工轉(zhuǎn)換成有規(guī)律信息之后,供管理人員進行分析使用。
1.2 什么是聯(lián)機分析處理
聯(lián)機分析處理是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對從原始數(shù)據(jù)中轉(zhuǎn)化出來的、能夠真正為用戶所理解的、并真實反映企業(yè)特性的信息進行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù),其目標是滿足決策支持或多維環(huán)境特定的查詢和報表需求。
當今的數(shù)據(jù)處理大致可以分成兩大類:聯(lián)機事務(wù)處理OLTP(On-line Transaction Processing)、聯(lián)機分析處理OLAP(On-Line Analytical Processing)。OLTP就是我們早已熟悉的傳統(tǒng)關(guān)系數(shù)據(jù)庫的主要應(yīng)用,主要是基本的、日常的事務(wù)處理,最典型的例子莫過于銀行交易系統(tǒng)、圖朽管理系統(tǒng)等。OLAP是數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。
1.3 什么是數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)巾提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程,簡單的說就是從大量數(shù)據(jù)中提取或挖掘知識。
數(shù)據(jù)挖掘可以看成是一種數(shù)據(jù)搜尋過程,它不必預(yù)先假設(shè)或提出問題,但是仍能找到那些非預(yù)期的卻令人關(guān)注的信息,這些信息表示了數(shù)據(jù)元素的關(guān)系和模式。數(shù)據(jù)挖掘能挖掘出數(shù)據(jù)間潛在的模式、找出最有價值的信息和知識,從而指導(dǎo)商業(yè)行為或輔助科學(xué)研究。
2 數(shù)據(jù)倉庫、聯(lián)機分析處理與數(shù)據(jù)挖掘間的關(guān)系
2.1 數(shù)據(jù)倉庫與聯(lián)機分析處理的聯(lián)系
數(shù)據(jù)倉庫側(cè)重千存儲和管理面向決策主題的數(shù)據(jù);而聯(lián)機分析處理專注于數(shù)據(jù)的匯總,它從數(shù)據(jù)倉庫中的綜合數(shù)據(jù)出發(fā),提供面向分析的多維模型,并使用多維分析的方法從多個角度、多個層次對多維數(shù)據(jù)進行分析,使決策者能夠以更加自然的方式來分析數(shù)據(jù)。聯(lián)機分析處理的一個主要特點是多維數(shù)據(jù)分析,這與數(shù)據(jù)倉庫的多維數(shù)據(jù)組織正好形成相互結(jié)合、相互補充的關(guān)系叫。因此,利用聯(lián)機分析處理技術(shù)與數(shù)據(jù)倉庫的結(jié)合可以較好地解決傳統(tǒng)決策支持系統(tǒng)既需要處理大量數(shù)據(jù)又需要進行大量數(shù)值計算的問題。
2.2 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的聯(lián)系
數(shù)據(jù)挖掘以數(shù)據(jù)倉庫和多維數(shù)據(jù)庫的數(shù)據(jù)為基礎(chǔ),發(fā)現(xiàn)數(shù)據(jù)中的潛在模式和進行預(yù)測,它可以對數(shù)據(jù)進行多種復(fù)雜的處理。大部分情況下,數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉庫中拿到數(shù)據(jù)挖掘庫中。從數(shù)據(jù)倉庫中直接得到進行數(shù)據(jù)挖掘的數(shù)據(jù)有許多好處,因為數(shù)據(jù)倉庫的數(shù)據(jù)清理和數(shù)據(jù)挖掘的數(shù)據(jù)清理差不多,如果數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉庫時己經(jīng)清理過,那很可能在做數(shù)據(jù)挖掘時就沒必要在清理一次了,而且所有的數(shù)據(jù)不一致的問題都已經(jīng)被你解決了。構(gòu)造數(shù)據(jù)倉庫可以看作數(shù)據(jù)挖掘的一個重要預(yù)處理步驟,它能提高數(shù)據(jù)挖掘的效率和能力,確保數(shù)據(jù)挖掘中數(shù)據(jù)來源的廣泛性和完整性。
綜上所述,數(shù)據(jù)倉庫己經(jīng)成為聯(lián)機分析處理和數(shù)據(jù)挖掘日趨重要的平臺。
2.3 聯(lián)機分析處理與數(shù)據(jù)挖掘的區(qū)別
聯(lián)機分析處理是決策支持領(lǐng)域的一部分。傳統(tǒng)的查詢和報表工具是告訴你數(shù)據(jù)庫中都有什么,聯(lián)機分析處理則更進一步告訴你下一步會怎么樣以及如果我采取這樣的措施又會怎么樣,其分析過程在本質(zhì)上是一個演繹推理的過程。聯(lián)機分析處理屬于一種驗證型的分析,即在某個假設(shè)的前提下通過數(shù)據(jù)查詢和分析來驗證或否定這個假設(shè)。它側(cè)重子與用戶的交互、快速的響應(yīng)速度及提供數(shù)據(jù)的多維視圖,屬于用戶驅(qū)動,因此很大程度上受到用戶水平的限制。
與聯(lián)機分析處理不同,數(shù)據(jù)挖掘不是用于驗證某個假定的模型的正確性,而是在數(shù)據(jù)庫中自己尋找模型,注重自動發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式和有用信息,其本質(zhì)是一個歸納的過程。數(shù)據(jù)挖掘?qū)儆跀?shù)據(jù)驅(qū)動,使用數(shù)據(jù)挖掘工具用戶不必提出確切的要求,系統(tǒng)能夠根據(jù)數(shù)據(jù)本身的規(guī)律性,自動地挖掘數(shù)據(jù)潛在的模式。
所以,從數(shù)據(jù)分析深度的角度來看,聯(lián)機分析處理位于較淺的層次,而數(shù)據(jù)挖掘則處于較深的層次,二者的主要差別在于是否能自動地進行數(shù)據(jù)分析。
3 數(shù)據(jù)倉庫、聯(lián)機分析處理與數(shù)據(jù)挖掘的融合
數(shù)據(jù)倉庫、聯(lián)機分析處理和數(shù)據(jù)挖掘是作為三種獨立的信息處理技術(shù)出現(xiàn)的。數(shù)據(jù)倉庫用于數(shù)據(jù)的存儲和組織,聯(lián)機分析處理集中于數(shù)據(jù)的分析,數(shù)據(jù)挖掘則致力于知識的自動發(fā)現(xiàn)。他們都可以分別應(yīng)用到信息系統(tǒng)的設(shè)計和實現(xiàn)中,以提高相應(yīng)的處理能力。
由于這三種技術(shù)內(nèi)在的聯(lián)系性和互補性,可將三者結(jié)合起來構(gòu)成一種新的決策支持系統(tǒng)構(gòu)架:以數(shù)據(jù)倉庫為依托,通過對企業(yè)歷史數(shù)據(jù)的聯(lián)機分析與挖掘,為企業(yè)提供全方位的決策支持。其中,底層的數(shù)據(jù)庫中保存了大量的事務(wù)級細節(jié)數(shù)據(jù),是整個系統(tǒng)的數(shù)據(jù)源;數(shù)據(jù)倉庫自底層數(shù)據(jù)庫收集大量事務(wù)級數(shù)據(jù)的同時,對數(shù)據(jù)進行集成、轉(zhuǎn)換和綜合,形成面向全局的數(shù)據(jù)視圖。從而解決數(shù)據(jù)不統(tǒng)一的問題并形成整個系統(tǒng)的數(shù)據(jù)基礎(chǔ);聯(lián)機分析處理執(zhí)數(shù)據(jù)倉庫中的集成數(shù)據(jù)出發(fā),構(gòu)建面向分析的多維數(shù)據(jù)模型,利用這竹吲翱爭黼性的數(shù)擄翰澎甜莫型,用戶可以便步環(huán)同的方法,從不同的角度對數(shù)據(jù)進行分析,實現(xiàn)了分析方法和數(shù)據(jù)結(jié)構(gòu)的分離;數(shù)據(jù)挖掘以數(shù)據(jù)倉庫和多維數(shù)據(jù)庫中的大量數(shù)據(jù)為基礎(chǔ),自動地發(fā)現(xiàn)數(shù)據(jù)中的潛在模式,并以這些模式為基礎(chǔ)自動做出預(yù)測;同時,數(shù)據(jù)挖掘反過來又可以為聯(lián)機分析處理提供分析的模式。
- 1虛擬化和云計算將改變數(shù)據(jù)存儲
- 2感知與傳輸鋪就物聯(lián)網(wǎng)基礎(chǔ)
- 3中國HPC進入活躍發(fā)展期
- 4OA系統(tǒng)相關(guān)的報價套餐和合同模板
- 5OA辦公軟件測試列表都有哪些具體功能?
- 6小型數(shù)據(jù)中心的規(guī)劃和設(shè)計原則
- 7什么是web2.0?
- 8統(tǒng)一通信將向SaaS模式轉(zhuǎn)型
- 9Win 7錯失PC桌面與云計算融合良機?
- 10域清單模式:實施SOA架構(gòu)的最佳手段
- 11亞略特:指紋識別即將挺進“民用時代”
- 12云計算、SOA:姻親還是勁敵?
- 13虛擬化應(yīng)用呈現(xiàn)四大特點
- 14無線局域網(wǎng)布線要注意的細則與案例
- 15五類IT人員各自該如何應(yīng)對虛擬化?
- 16用友NC :“企業(yè)云”平臺扮演雙重角色
- 17IT技術(shù)成為組織的核心戰(zhàn)略能力
- 18越早采用云存儲 成本越可控制
- 19云計算的云配置4“兄弟”
- 20如何利用虛擬局域網(wǎng)簡化服務(wù)器部署
- 21七大常見VM Manager虛擬機故障排查方法
- 22如何設(shè)防?把脈黑客攻擊的八大技術(shù)動態(tài)
- 23融合制造大勢所趨 ODM與EMS已漸行漸近
- 24SOA與企業(yè)級系統(tǒng)構(gòu)建
- 25廣域網(wǎng)(WAN)優(yōu)化工具的工作原理和技術(shù)
- 26反思:正確認識綜合布線系統(tǒng)的智能化
- 27管理數(shù)據(jù)中心資源池注意事項
- 28云計算是技術(shù)的集成
- 29相輔相成SOA能否讓OA起飛?
- 30化繁為簡現(xiàn)精彩 看物聯(lián)網(wǎng)中的移動交流
成都公司:成都市成華區(qū)建設(shè)南路160號1層9號
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓