當前位置:工程項目OA系統(tǒng) > 泛普服務體系 > 泛普博客
數(shù)據(jù)倉庫技術及其實施的策略
一、數(shù)據(jù)倉庫技術
1、數(shù)據(jù)倉庫產(chǎn)生背景
應用和技術的發(fā)展總是相互作用的,一方面,現(xiàn)代社會的廣泛電子化、數(shù)字化提供了前所未有的、有待加工和處理的原始數(shù)據(jù)。就一個企業(yè)而言,這些數(shù)據(jù)量大約五年就可增長一倍,這主要指企業(yè)日常運作中所產(chǎn)生的有助于企業(yè)決策的數(shù)據(jù),還不包括多種源于企業(yè)外部的各種有用數(shù)據(jù),如市場分析、研究報告、各種咨詢機構提供的各種報告等等。另外,數(shù)據(jù)的形式也突破了傳統(tǒng)的數(shù)字和符號,包括了原始商業(yè)文檔、多種圖形、圖像數(shù)據(jù)等,故許多企業(yè)、部門并不是缺少數(shù)據(jù),而是常常被過分重復和不一致的數(shù)據(jù)所困擾,從而越來越難以有效管理和存取這些數(shù)據(jù),使之用于決策過程,這種局面自然導致一個強烈的要求,要求有一種系統(tǒng)能存取這些數(shù)據(jù),并將它轉換成一種可信賴的、有用的信息。
另一方面,現(xiàn)代企業(yè)經(jīng)常面臨各種挑戰(zhàn),如何最大限度地挖掘各種有用信息,使企業(yè)在激烈的市場競爭中立于不敗之地,并獲得最大的商業(yè)利潤,也為計算機信息處理技術提出了新的要求。例如,如何支持數(shù)據(jù)集成,因為在企業(yè)的發(fā)展過程中已建立了許多應用系統(tǒng),如庫存管理、財務及人事管理等,積累了大量的數(shù)據(jù),而原有應用通常都是針對某個部門單獨設計的,這樣,如何運用新的應用,使這些應用可以利用已有的數(shù)據(jù)。又如,企業(yè)除對日常業(yè)務數(shù)據(jù)進行增、刪、改等事務處理和簡單匯總外,管理者往往要綜合利用歷史和現(xiàn)有的各種數(shù)據(jù)進行綜合分析。
由此導致了數(shù)據(jù)倉庫技術的提出。數(shù)據(jù)倉庫是計算機應用領域里的一個嶄新方向,已成為90年代信息系統(tǒng)體系結構新的技術焦點,它是來自多個數(shù)據(jù)源的數(shù)據(jù)的拷貝和集成,從歷史的角度來組織和存儲數(shù)據(jù),同時保證關鍵任務數(shù)據(jù)的完整性和安全性,為企業(yè)發(fā)展提供有效的技術支持。
2、數(shù)據(jù)倉庫的概念及其主要特點
世界公認的數(shù)據(jù)倉庫概念創(chuàng)始人、美國著名信息工程學家W.H .In mon在他的《Building the Data W ar ehouse》一書中對數(shù)據(jù)倉庫給出了一個定義:數(shù)據(jù)倉庫(Data Warehouse)就是面向主題的、集成的、穩(wěn)定的、不同時間的數(shù)據(jù)集合,用于支持經(jīng)營管理中的決策制定過程。
由于Inmon本人在數(shù)據(jù)倉庫發(fā)展中的作用,他的上述描述相對地成了一個權威的定義。其它的有代表性的觀點還有:
Stanford大學的數(shù)據(jù)倉庫研究小組認為,數(shù)據(jù)倉庫是集成信息的存儲中心,這些信息可以用來查詢或分析。
Informix公司負責研究與開發(fā)副總裁Tim.Shelter認為,數(shù)據(jù)倉庫是把分布在企業(yè)網(wǎng)絡中不同信息島上的商業(yè)數(shù)據(jù)集成到一起,存儲在一個單一的集成關系數(shù)據(jù)庫中。利用這些集成信息,可以方便用戶對信息的訪問,更可使決策人員對一段時間內(nèi)的歷史數(shù)據(jù)進行分析,研究事物的發(fā)展趨勢。
SAS軟件研究所的觀點,數(shù)據(jù)倉庫是一種管理技術,旨在通過合理、流暢、全面的信息管理達到有效的決策支持。
從上述幾種觀點同時可以看出:數(shù)據(jù)倉庫的主要功能是提供企業(yè)決策支持系統(tǒng)(Decision Support System)所需要的信息,它把企業(yè)日常運作中分散的、不一致的數(shù)據(jù)經(jīng)過歸納整理后轉換為集中的、統(tǒng)一的、可隨時取用的深層信息。
從上述幾種觀點同時也可以看出,數(shù)據(jù)倉庫的主要特點是:
(1)數(shù)據(jù)倉庫是面向主題的
數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題進行組織的,而傳統(tǒng)數(shù)據(jù)庫是面向事務處理應用進行數(shù)據(jù)組織的。主題是指一個分析領域,是在一個較高層次上對數(shù)據(jù)進行組織、歸類的標準。假如為保險公司建立數(shù)據(jù)倉庫,則所選主題可能是政策、保險金、索賠、客戶等,而按應用組織的數(shù)據(jù)庫則可能是汽車保險、生命保險、財產(chǎn)保險等。面向主題的數(shù)據(jù)組織方式就是在較高層次上對分析對象的數(shù)據(jù)的一個完整的、一致的描述,能完整、統(tǒng)一地刻畫各個分析對象所涉及的企業(yè)的各項數(shù)據(jù),以及數(shù)據(jù)之間的關系,從而使得面向主題的數(shù)據(jù)組織可以獨立于數(shù)據(jù)的處理邏輯,方便了在多種環(huán)境上開發(fā)新的分析型應用。同時,這種獨立性也是建設企業(yè)全局數(shù)據(jù)庫所要求的,故面向主題不僅適用于分析型數(shù)據(jù)環(huán)境的數(shù)據(jù)組織形式,也適用于建設企業(yè)級數(shù)據(jù)庫的數(shù)據(jù)組織方式。當然,同一主題的數(shù)據(jù)根據(jù)其時間、訪問頻率等可存放在不同的設備上,以優(yōu)化數(shù)據(jù)倉庫的整體性能。
(2)數(shù)據(jù)倉庫是集成的
不論數(shù)據(jù)來源何處,在進入數(shù)據(jù)倉庫之前,必須經(jīng)過加工與集成,統(tǒng)一與綜合,從而在進人數(shù)據(jù)倉庫之后都具有統(tǒng)一的數(shù)據(jù)屬性和編碼結構等,即數(shù)據(jù)倉庫中的數(shù)據(jù)具有一致性的特點。
(3)數(shù)據(jù)倉庫是穩(wěn)定的
數(shù)據(jù)倉庫中保存的是大量的經(jīng)集成、加工過的綜合性歷史數(shù)據(jù),是供企業(yè)決策分析之用的,所涉及的數(shù)據(jù)操作主要是查詢,一般情況下并不輕易改動,只做定期刷新。
(4)數(shù)據(jù)倉庫是隨時間變化的
數(shù)據(jù)倉庫中的數(shù)據(jù)不可更新是針對應用來說的,即數(shù)據(jù)倉庫的用戶進行分析處理時不進行數(shù)據(jù)更新操作,但這并不等于說,數(shù)據(jù)在從集成到數(shù)據(jù)倉庫開始到最后被刪除的整個生命周期中都是永遠不變的。主要體現(xiàn)在:
1)隨著時間的變化,要不斷向數(shù)據(jù)倉庫中增加新的數(shù)據(jù)。數(shù)據(jù)倉庫系統(tǒng)必須不斷捕捉OLTP(聯(lián)機事務處理)數(shù)據(jù)中變化的數(shù)據(jù),追加到數(shù)據(jù)倉庫中。
2)隨著時間的變化,要不斷刪除數(shù)據(jù)倉庫中的老數(shù)據(jù)。數(shù)據(jù)倉庫中數(shù)據(jù)也有存儲期限,一旦超過這一期限,過期數(shù)據(jù)就要被刪除。一般操作型環(huán)境中數(shù)據(jù)的保存期限為60-90天,而在數(shù)據(jù)倉庫中為適應趨勢分析,需保存更長的時間,如5-10年。
3)由于數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù),而這些綜合數(shù)據(jù)中很多與時間有關,故隨著時間的變化,這些數(shù)據(jù)也要不斷進行更新、綜合。
二、數(shù)據(jù)倉庫的體系結構
體系結構定義了一個應用系統(tǒng)中每個組成部分的功能和責任。在數(shù)據(jù)倉庫技術中,數(shù)據(jù)和信息從不同的數(shù)據(jù)源提取出來,然后被轉換成公共的數(shù)據(jù)模型并且和倉庫中己有的數(shù)據(jù)集成在一起。當用戶向倉庫進行查詢時,需要的信息已經(jīng)準備好了,數(shù)據(jù)沖突、表達不一致等問題已經(jīng)得到了解決,從而使決策查詢更容易、更有效。故作為一個系統(tǒng),數(shù)據(jù)倉庫至少應包括三個基本的功能:
1、數(shù)據(jù)獲?。贺撠煆耐獠繑?shù)據(jù)源抽取數(shù)據(jù),對數(shù)據(jù)進行檢驗和整理,并根據(jù)數(shù)據(jù)倉庫的設計要求和規(guī)則,對數(shù)據(jù)重新組織和加工,裝載到數(shù)據(jù)倉庫的目標數(shù)據(jù)庫中,并周期性地刷新數(shù)據(jù)倉庫以反映數(shù)據(jù)源的變化,并進行時間相關性處理。
2、數(shù)據(jù)存儲和管理:負責數(shù)據(jù)倉庫的內(nèi)部維護和管理,包括數(shù)據(jù)存儲的組織、數(shù)據(jù)的維護、數(shù)據(jù)的分發(fā)、數(shù)據(jù)倉庫的例行維護等。
3、信息訪問:負責提供分析人員和決策人員多方位、多角度訪問數(shù)據(jù)倉庫中數(shù)據(jù)的功能,并將結果以多種形式表現(xiàn)出來。數(shù)據(jù)倉庫的目標和作用最終都要通過該部分提供給用戶。該部分主要由桌面系統(tǒng)的各種工具組成,如查詢生成工具、多維分析工具、數(shù)據(jù)挖掘工具等。
雖然ORACLE、Sybase等廠商都提出了自己的數(shù)據(jù)倉庫結構,但嚴格來說,任何一個數(shù)據(jù)倉庫結構都是從一個基本框架發(fā)展而來,實現(xiàn)時再根據(jù)分析處理的需要具體增加一些部件。在眾多高校和研究所對數(shù)據(jù)倉庫的研究中,Stanford大學的數(shù)據(jù)倉庫計劃(WHIPS)處于領先地位,他們提出的一個有普遍代表性的數(shù)據(jù)倉庫體系結構如圖1所示。
圖1 數(shù)據(jù)倉庫的基本體系結構
◇ 信息源(Information Sources)是指為數(shù)據(jù)倉庫提供最底層數(shù)據(jù)的操作型數(shù)據(jù)庫系統(tǒng)以及外部數(shù)據(jù)。
◇ 監(jiān)視器(Monitor)負責自動監(jiān)測信息源中數(shù)據(jù)的變化并按數(shù)據(jù)倉庫的需求提取數(shù)據(jù)。
◇ 集成器(Integrator)負責對從操作型數(shù)據(jù)庫中提取的數(shù)據(jù)進行轉換、計算、匯總等操作,再集成到數(shù)據(jù)倉庫中。
◇ 數(shù)據(jù)倉庫(Data Warehouse)存儲已經(jīng)按企業(yè)級視圖轉換的數(shù)據(jù),供分析處理用。根據(jù)不同的分析需求,倉庫中的數(shù)據(jù)按不同的匯總級別存儲。當然,數(shù)據(jù)倉庫中還應有元數(shù)據(jù)(Mata Data),它記錄了數(shù)據(jù)的結構和數(shù)據(jù)倉庫的任何變化,以支持數(shù)據(jù)倉庫的應用開發(fā)。
◇ 客戶應用(Client Application)供用戶對數(shù)據(jù)倉庫中的數(shù)據(jù)進行訪問查詢,并以直觀的方式表示分析結果的工具。
三、數(shù)據(jù)倉庫的實施
一個企業(yè)要建立一個數(shù)據(jù)倉庫通常是基于下面的理由:
1、為了進行分析和決策,需要準確的相關信息。而數(shù)據(jù)倉庫的本質就是它所包含的信息是每個人都認同的。
2、數(shù)據(jù)采集和更新的自動化。在許多組織里,數(shù)據(jù)被存儲在各種異構系統(tǒng)中,數(shù)據(jù)倉庫會自動完成數(shù)據(jù)的采集和更新,并使數(shù)據(jù)符合一個單一的標準。
3、加載后的分析和報表功能。當聯(lián)機事務處理(OLTP)也用于處理分析和報表時,其效率將會降低。通過建立一個單一的數(shù)據(jù)倉庫,聯(lián)機事務可以不必中斷,因而其性能就不會因管理和分析查詢而降低。數(shù)據(jù)倉庫是一個解決問題的方案,而不是一個可以買到的現(xiàn)成產(chǎn)品,它是諸多學科相互結合、綜合應用的一門技術。不同企業(yè)有不同的數(shù)據(jù)倉庫,最終用戶(End User)往往并不清楚他們的真正需求,轉而依賴于信息系統(tǒng)的人員來定義數(shù)據(jù)倉庫的應用需求,而數(shù)據(jù)倉庫開發(fā)人員即信息系統(tǒng)(IS)人員只專注于計算機系統(tǒng)本身,缺乏對企業(yè)整個業(yè)務運作的業(yè)務知識,因此就需要雙方互相溝通,共同協(xié)商來開發(fā)數(shù)據(jù)倉庫。
一般來說,建立數(shù)據(jù)倉庫包括過程:
a.啟動項目:確定建立數(shù)據(jù)倉庫的目標,制定項目計劃。
b.建立技術環(huán)境:選擇實現(xiàn)數(shù)據(jù)倉庫所需要的軟硬件資源。
c.確定主題,進行倉庫結構設計:因為數(shù)據(jù)倉庫是面向決策支持的,它具有數(shù)據(jù)量大但更新不頻繁等特點,所以必須對數(shù)據(jù)倉庫結構進行精心設計,以免隨著倉庫中數(shù)據(jù)量快速增長,造成系統(tǒng)分析和查詢性能的急劇下降。
d.數(shù)據(jù)倉庫的物理庫設計:根據(jù)用戶需求,從某個主題出發(fā),對數(shù)據(jù)倉庫中數(shù)據(jù)的物理存儲結構進行設計。
e.數(shù)據(jù)抽取、清潔、轉換、匯總、裝載:根據(jù)數(shù)據(jù)倉庫的設計,從各種數(shù)據(jù)源中抽取數(shù)據(jù),并進行清理、轉換、綜合等處理,最后裝載到數(shù)據(jù)倉庫中去。
f.開發(fā)支持用戶決策的數(shù)據(jù)分析工具:建立數(shù)據(jù)倉庫的目的是為了實現(xiàn)決策支持,所以需要各種工具對數(shù)據(jù)倉庫進行訪問分析,如優(yōu)化查詢工具、統(tǒng)計分析工具、數(shù)據(jù)挖掘工具等,通過分析工具實現(xiàn)決策支持需要。
g.數(shù)據(jù)倉庫環(huán)境的管理:為了保證數(shù)據(jù)倉庫的正常運行,必須對數(shù)據(jù)倉庫進行管理。
隨著數(shù)據(jù)倉庫技術的發(fā)展,出現(xiàn)了多種實施策略,但總結起來,有下面二種:
1.“自頂向下”策略(Top-Down)該策略首先建立一個企業(yè)范圍內(nèi)的數(shù)據(jù)倉庫,從理論上講,該全局數(shù)據(jù)倉庫包含了決策支持所需要的一致的數(shù)據(jù)。面向各個部門的決策支持所需要的數(shù)據(jù)從全局倉庫中提取,這部分數(shù)據(jù)構成了該部門的數(shù)據(jù)集市(Data Marts)。
該策略的優(yōu)點是:(1)數(shù)據(jù)集市繼承了數(shù)據(jù)倉庫的優(yōu)點,從而更易于維護;(2)確保了數(shù)據(jù)的抽取、清潔、集成和使用數(shù)據(jù)方法的標準化;(3)允許組織從全局的角度看待其商業(yè)活動,把數(shù)據(jù)匯總至企業(yè)級。
其不足是:(1)建設周期長,短時間內(nèi)難見其效果,從而加大了項目支持壓力;(2)必須得到CEO或其他權威的高級管理層的支持才有機會成功;(3)各個部門都希望按自己的需要定制數(shù)據(jù)倉庫中的數(shù)據(jù),而數(shù)據(jù)倉庫中的數(shù)據(jù)是面向整個企業(yè)的所有部門的,所以必須在各部門間做好協(xié)調工作。
2.“自底向上”策略(Bottom-Up)該策略是先建立面向特定部門或特定商業(yè)問題的數(shù)據(jù)集市,然后在這些數(shù)據(jù)集市的基礎上建立全局數(shù)據(jù)倉庫,目前這種實施策略比較流行。
該策略的優(yōu)點是:(1)因為是面向特定部門,涉及的數(shù)據(jù)范圍小,能更快地實現(xiàn),因而也能很快得到回報;(2)因為投資風險小、開發(fā)周期短,可以在該環(huán)境中逐步學習和培訓。
其缺點是:(1)存在不能把數(shù)據(jù)集市集成進整個企業(yè)數(shù)據(jù)倉庫的潛在危險;(2)由于各部門可能會“封鎖”數(shù)據(jù),因而會影響到數(shù)據(jù)倉庫的成功實施。
總之,數(shù)據(jù)倉庫的實施是一個不斷循環(huán)、反饋而使系統(tǒng)不斷增長與完善的過程,在整個實施過程中自始至終都要求決策人員與開發(fā)者的共同參與和密切合作,從而保證數(shù)據(jù)倉庫項目的順利進行,進而在日益全球化的市場競爭中獲得更大的利潤。
四、結束語
目前,幾乎所有行業(yè)都面臨著激烈的競爭,正確及時地決策是企業(yè)生存與發(fā)展的重要環(huán)節(jié),越來越多的企業(yè)認識到,只有充分利用、挖掘其現(xiàn)有數(shù)據(jù),才能實現(xiàn)更大的效益。日常的業(yè)務應用生成了大量的數(shù)據(jù),這些數(shù)據(jù)若用于決策支持則會帶來顯著的附加值,如果再加上行業(yè)報告、獨立的市場調查、評測結果和顧問評估等外來數(shù)據(jù),上述處理過程產(chǎn)生的效益可進一步提高。數(shù)據(jù)倉庫正是以匯總這些信息為基礎,進而支持數(shù)據(jù)挖掘、多維數(shù)據(jù)分析(MDA)等當今尖端技術和傳統(tǒng)查詢及報表功能,這些對于企業(yè)在當今日趨激烈的競爭中保持領先是至關重要的。
由于人們對信息的需求永無止境,特別是INTERNET的迅猛發(fā)展,要求數(shù)據(jù)倉庫不僅僅能處理企業(yè)內(nèi)部結構化的數(shù)據(jù),也應能處理大量的外部的非結構數(shù)據(jù)(如文本數(shù)據(jù)、多媒體數(shù)據(jù)等),同時還要能將處理結果以更直觀的可視化的方法展現(xiàn)給最終用戶,這也給數(shù)據(jù)倉庫的發(fā)展提出了新的挑戰(zhàn)。另外,如何將底層數(shù)據(jù)的變化及時傳播上去、如何加強對數(shù)據(jù)倉庫的管理等問題都是數(shù)據(jù)倉庫在發(fā)展中不可避免要遇到的問題,這將有待于進一步認真研究,加以解決。(萬方數(shù)據(jù))
- 1CRM:客戶流失,福兮禍兮?
- 2OA辦公系統(tǒng)適合對信息化要求較高的企事業(yè)單位
- 3上網(wǎng)行為管理軟件未來發(fā)展趨勢
- 4OA軟件的出現(xiàn)是伴隨著企業(yè)進入現(xiàn)代化的管理
- 5用戶來講評估OA辦公軟件功能是最直接和簡單的辦法
- 6網(wǎng)管員基礎知識:靜態(tài)路由的配置技巧
- 7經(jīng)銷商發(fā)展的四個動力
- 8網(wǎng)管經(jīng)驗談:ADSL 掉線8種故障分析及處理方法
- 92015閱讀調查 閱讀向城市生活滲透
- 10ERP選型是“購汽車”而非“造飛機”
- 11國內(nèi)OA軟件市場的痼疾之癥是OA項目成功率不高
- 12化妝品行業(yè)進入價格戰(zhàn),幾近“肉搏”
- 13調查:為何中國進口抗癌藥格列衛(wèi)成“天價”?
- 14客戶滿意度與客戶忠誠度
- 15企業(yè)贏得決策競爭力的8個原則
- 16整體家居裝修后有哪些環(huán)保誤區(qū)
- 17OA辦公系統(tǒng)的核心理論是戶操作性和再利用性
- 18企業(yè)制勝:2012四大謀劃
- 19企業(yè)的短命與長壽
- 20用發(fā)展的眼光研究OA,是必要的
- 21泛普軟件分析“資源化”網(wǎng)絡OA辦公軟件系統(tǒng)的安全
- 22CRM將精細化營銷進行到底
- 23高興的是看到成都泛普、重慶泛普的網(wǎng)站盛大開幕
- 24OA系統(tǒng)對企業(yè)管理核心有哪些作用?
- 25通信行業(yè)紛紛引進OA辦公系統(tǒng)以增強自身核心競爭力
- 26做市場要像養(yǎng)孩子一樣慎重
- 27制造行業(yè)是協(xié)同OA軟件的最大行業(yè)市場
- 28泛普OA辦公軟件實施工作溝通的重要性
- 29泛普軟件一直以OA系統(tǒng)100%驗收、100%項目成功率
- 30SaaS模式環(huán)境下CIO“解困”面臨三重轉變
成都公司:成都市成華區(qū)建設南路160號1層9號
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓