監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價(jià)咨詢管理系統(tǒng) | 工程設(shè)計(jì)管理系統(tǒng) | 簽約案例 | 購(gòu)買價(jià)格 | 在線試用 | 手機(jī)APP | 產(chǎn)品資料
X 關(guān)閉

數(shù)據(jù)倉(cāng)庫(kù)——商業(yè)智能的基石

申請(qǐng)免費(fèi)試用、咨詢電話:400-8352-114

來(lái)源:泛普軟件

1 數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生和發(fā)展

被稱為數(shù)據(jù)倉(cāng)庫(kù)之父的W.H.Inmon在他1990年出版的《建立數(shù)據(jù)倉(cāng)庫(kù)(第一版)》一書(shū)中第一次為數(shù)據(jù)倉(cāng)庫(kù)給出了明確的定義,真正把數(shù)據(jù)倉(cāng)庫(kù)上升到一個(gè)理論高度。他認(rèn)為數(shù)據(jù)倉(cāng)庫(kù)的歷史是伴隨著信息處理領(lǐng)域的決策支持系統(tǒng)(DSS)處理的發(fā)展過(guò)程開(kāi)始的,在這個(gè)發(fā)展過(guò)程中,隨著計(jì)算機(jī)技術(shù)(尤其是計(jì)算機(jī)存儲(chǔ)技術(shù))的發(fā)展和抽取處理程序的流行,一種更大規(guī)模的體系結(jié)構(gòu)逐漸勾勒出來(lái)。在這種體系結(jié)構(gòu)中,數(shù)據(jù)倉(cāng)庫(kù)處于中心位置。

自數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)生至今,在企業(yè)的決策支持要求、企業(yè)的競(jìng)爭(zhēng)要求、企業(yè)的商業(yè)智能(BI)要求的巨大推動(dòng)下,作為決策支持基礎(chǔ)的數(shù)據(jù)倉(cāng)庫(kù)的運(yùn)用經(jīng)歷了一個(gè)不可思議的快速增長(zhǎng)過(guò)程,數(shù)據(jù)倉(cāng)庫(kù)本身,包括數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)、數(shù)據(jù)倉(cāng)庫(kù)處理規(guī)模、數(shù)據(jù)倉(cāng)庫(kù)性能等也經(jīng)歷了一個(gè)快速發(fā)展過(guò)程,數(shù)據(jù)倉(cāng)庫(kù)的價(jià)值也產(chǎn)生了質(zhì)的變化。

不管企業(yè)是如何構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的,數(shù)據(jù)倉(cāng)庫(kù)通過(guò)在收集信息、決策分析、未來(lái)趨勢(shì)預(yù)測(cè)、制定戰(zhàn)術(shù)上、戰(zhàn)略上的商業(yè)策略等方面的支持力度體現(xiàn)自身的價(jià)值?,F(xiàn)在在業(yè)界,當(dāng)問(wèn)到為什么需要數(shù)據(jù)倉(cāng)庫(kù)以及數(shù)據(jù)倉(cāng)庫(kù)的價(jià)值或重要性時(shí),回答幾乎都是一致的,那就是數(shù)據(jù)倉(cāng)庫(kù)能為企業(yè)帶來(lái)戰(zhàn)略優(yōu)勢(shì),尤其是能支持全方位地了解客戶,但是在數(shù)據(jù)倉(cāng)庫(kù)使用初期,情況卻不是這樣的。在過(guò)去的十年里,數(shù)據(jù)倉(cāng)庫(kù)的價(jià)值得到了快速持續(xù)的增長(zhǎng)。

如圖1所示,最開(kāi)始時(shí)數(shù)據(jù)倉(cāng)庫(kù)只是用來(lái)制作一些靜態(tài)的報(bào)表,數(shù)據(jù)轉(zhuǎn)移到數(shù)據(jù)倉(cāng)庫(kù)中就是為了更好地控制數(shù)據(jù)以及提高數(shù)據(jù)查詢性能,以方便地出一些能夠提供簡(jiǎn)單信息的報(bào)表。顯然靜態(tài)報(bào)表不能滿足決策的需求,數(shù)據(jù)倉(cāng)庫(kù)開(kāi)始面向?qū)ο笤O(shè)計(jì),以產(chǎn)生智能性的信息,面向?qū)ο髷?shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是面向主題組織的,從這樣的數(shù)據(jù)倉(cāng)庫(kù)中可以很方便地獲取某一主題的信息,這些信息主要是面向企業(yè)或部門決策的某一方面,比如客戶。當(dāng)不止一個(gè)部門納入到數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)中時(shí),數(shù)據(jù)倉(cāng)庫(kù)開(kāi)始面向整個(gè)企業(yè)進(jìn)行決策支持,這時(shí)企業(yè)的整體利益是根本。當(dāng)數(shù)據(jù)倉(cāng)庫(kù)利用于面向企業(yè)決策支持時(shí),在數(shù)據(jù)倉(cāng)庫(kù)中加入人口統(tǒng)計(jì)學(xué)、行為分析等知識(shí)后就能夠獲取充分的信息對(duì)客戶有一個(gè)360度的了解,辨識(shí)出有價(jià)值的客戶,并且能為客戶提供他所需的,有效地進(jìn)行cross-sale和up-sale。這時(shí)企業(yè)的決策周期也大大地縮短了,從以前的2、3年一次,發(fā)展到現(xiàn)在一年2、3次。在分析決策支持活動(dòng)中,靜態(tài)報(bào)表被多維分析、數(shù)據(jù)挖掘代替,基于數(shù)據(jù)倉(cāng)庫(kù)中的集成化的智能信息所做的決策影響整個(gè)企業(yè),提高整個(gè)企業(yè)的收入。隨著商業(yè)的全球化,更多的數(shù)據(jù)和信息納入到了數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)朝著增值戰(zhàn)略又邁進(jìn)了一步,企業(yè)運(yùn)營(yíng)策略重點(diǎn)轉(zhuǎn)移到:如何為已有的客戶提供更好的服務(wù)以及如何拓展客戶基礎(chǔ),包括公司的資源配置、企業(yè)價(jià)值鏈上所有的資源、新的銷售和營(yíng)銷渠道,而客戶資料(信息)已經(jīng)擴(kuò)展到心理特征、行為特征以及潛在競(jìng)爭(zhēng)對(duì)手,這時(shí)的數(shù)據(jù)倉(cāng)庫(kù)面向企業(yè)的價(jià)值鏈提供個(gè)性化集成的智能化信息。以電信為例,數(shù)據(jù)倉(cāng)庫(kù)在各個(gè)階段所能回答的問(wèn)題如表1所示。

圖1 數(shù)據(jù)倉(cāng)庫(kù)價(jià)值曲線

表1 數(shù)據(jù)倉(cāng)庫(kù)在各個(gè)階段所能回答的問(wèn)題

 

2 數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)

在數(shù)據(jù)倉(cāng)庫(kù)研究領(lǐng)域非常強(qiáng)調(diào)數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)體系。其實(shí)我們可以從兩個(gè)角度去理解什么是數(shù)據(jù)倉(cāng)庫(kù):從一種狹義的特定角度來(lái)看,如果我們專注的是一個(gè)核心,那么可認(rèn)為數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)數(shù)據(jù)集合,W.H.Inmon的定義也是從這種角度出發(fā)歸納出來(lái)的;如果從廣義上從實(shí)踐上理解,我們應(yīng)該把它理解成一個(gè)體系結(jié)構(gòu),一個(gè)以所定義的數(shù)據(jù)集合為中心的、以決策支持為主導(dǎo)的、支持企業(yè)運(yùn)作的IT體系結(jié)構(gòu)。

2.1 數(shù)據(jù)倉(cāng)庫(kù)的定義

數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、非易失的且隨時(shí)間變化的數(shù)據(jù)集合,用來(lái)支持管理人員的決策,數(shù)據(jù)倉(cāng)庫(kù)包含粒狀的企業(yè)數(shù)據(jù)。

(1)面向主題的:數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按照商業(yè)問(wèn)題或決策進(jìn)行組織的,通過(guò)這樣的數(shù)據(jù)組織,數(shù)據(jù)被有效地轉(zhuǎn)化成了信息,而決策分析人員也可以很方便地獲得決策分析所需要的信息。典型的主題領(lǐng)域一般包括客戶、產(chǎn)品、營(yíng)銷活動(dòng)、帳單、投訴、帳目等,在數(shù)據(jù)倉(cāng)庫(kù)中主要主題領(lǐng)域是以一組相關(guān)的表來(lái)具體實(shí)現(xiàn)的。主題的確定是數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)中一個(gè)很重要也是很復(fù)雜的內(nèi)容,主題的確定直接影響數(shù)據(jù)倉(cāng)庫(kù)的可用性和價(jià)值。一般采用建立企業(yè)數(shù)據(jù)模型的方式確定分析主題,必須和相關(guān)的業(yè)務(wù)分析人員進(jìn)行反復(fù)溝通共同建立分析主題。

(2)集成的:在數(shù)據(jù)倉(cāng)庫(kù)的所有特性之中,集成是最重要的特性。由于操作系統(tǒng)的獨(dú)立建設(shè),在設(shè)計(jì)時(shí)并沒(méi)有考慮和其他系統(tǒng)的相關(guān)性和一致性,所以當(dāng)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)時(shí),要采用某種方法來(lái)消除應(yīng)用問(wèn)題中的許多不一致性,即進(jìn)行集成。一般常見(jiàn)的一致性處理有:編碼的一致性、度量單位的一致性、描述或定義的一致性、格式或類型大小的一致性等。數(shù)據(jù)的集成和轉(zhuǎn)換(ETL)在數(shù)據(jù)倉(cāng)庫(kù)實(shí)施中是最困難最復(fù)雜也是最耗時(shí)的。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)源主要是企業(yè)的各個(gè)應(yīng)用系統(tǒng),在進(jìn)行數(shù)據(jù)集成和轉(zhuǎn)化之前必須定義記錄系統(tǒng),即必須確定哪些系統(tǒng)或系統(tǒng)中的哪些數(shù)據(jù)是符合要求的,對(duì)此,就必須理解所有的系統(tǒng)和系統(tǒng)中的數(shù)據(jù)。由于各個(gè)系統(tǒng)的建設(shè)為事務(wù)處理服務(wù)的,因此數(shù)據(jù)組織方式和數(shù)據(jù)表現(xiàn)形式與用于分析的數(shù)據(jù)組織方式和表現(xiàn)形式不同,而且形式多樣,為了處理數(shù)據(jù),必須根據(jù)數(shù)據(jù)形式確定規(guī)則,而規(guī)則是否全面和準(zhǔn)確直接影響數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)質(zhì)量。目前在ETL領(lǐng)域遇到的還有一個(gè)問(wèn)題是ETL的耗時(shí)。當(dāng)為了支撐決策分析的數(shù)據(jù)越來(lái)越多,比如客戶的增長(zhǎng)和業(yè)務(wù)量的增長(zhǎng),需要處理的數(shù)據(jù)越來(lái)越多,處理數(shù)據(jù)的時(shí)間必然越來(lái)越長(zhǎng),而市場(chǎng)的競(jìng)爭(zhēng)又對(duì)決策支持的響應(yīng)時(shí)間要求越來(lái)越短,能否在一定的時(shí)間內(nèi)完成ETL成為數(shù)據(jù)倉(cāng)庫(kù)價(jià)值的一個(gè)關(guān)鍵因素。調(diào)整數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)優(yōu)化數(shù)據(jù)倉(cāng)庫(kù)性能,提高系統(tǒng)的運(yùn)行能力,增加硬件投資擴(kuò)容是一個(gè)辦法,但不是最終解決問(wèn)題的方法。新一代業(yè)務(wù)支撐系統(tǒng)的興起將為ETL的簡(jiǎn)化提供很好的支持。

(3)非易失的:操作型系統(tǒng)中一般需要對(duì)數(shù)據(jù)記錄進(jìn)行逐個(gè)的增刪改操作,而在數(shù)據(jù)倉(cāng)庫(kù)中與操作系統(tǒng)中的數(shù)據(jù)操作不一樣,在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中并不進(jìn)行一般意義上的數(shù)據(jù)更新,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)通常是一次載入與訪問(wèn)的,也就是說(shuō)數(shù)據(jù)經(jīng)過(guò)集成化處理后一次載入數(shù)據(jù)倉(cāng)庫(kù)的。對(duì)于數(shù)據(jù)的維護(hù),一般采用新增記錄。雖然在某些情況下可以采用更新的方式,但是這種情況極少可能。而這并不意味著數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是一直不變的。其實(shí)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)也需要清理,只是這里的清理不是簡(jiǎn)單地將數(shù)據(jù)從數(shù)據(jù)倉(cāng)庫(kù)中刪除,而是將數(shù)據(jù)倉(cāng)庫(kù)的早期數(shù)據(jù)轉(zhuǎn)移到更便宜的存儲(chǔ)設(shè)備上,或者把早期的細(xì)節(jié)數(shù)據(jù)進(jìn)行綜合保留。清理數(shù)據(jù)倉(cāng)庫(kù)還有一個(gè)重要的內(nèi)容就是對(duì)于休眠數(shù)據(jù)和臟數(shù)據(jù)的處理。休眠數(shù)據(jù)是指那些存在于數(shù)據(jù)倉(cāng)庫(kù)中的、當(dāng)前并不使用、將來(lái)也很可能或者根本就不會(huì)使用的數(shù)據(jù)。臟數(shù)據(jù)是指那些錯(cuò)誤的數(shù)據(jù)。雖然我們說(shuō)要確保數(shù)據(jù)的質(zhì)量,但是這兩種數(shù)據(jù)都不可避免地會(huì)存在于數(shù)據(jù)倉(cāng)庫(kù)中。識(shí)別和處理這兩種數(shù)據(jù)是提高數(shù)據(jù)倉(cāng)庫(kù)性能的一個(gè)方面,雖然處理起來(lái)不是那么容易。在數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建當(dāng)初,這個(gè)問(wèn)題可能不是特別明顯,但是隨著數(shù)據(jù)倉(cāng)庫(kù)的運(yùn)作,這將成為一個(gè)數(shù)據(jù)倉(cāng)庫(kù)管理的重要內(nèi)容。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)維護(hù)策略是數(shù)據(jù)倉(cāng)庫(kù)實(shí)施中的重要內(nèi)容,維護(hù)策略制定的合理性直接影響著整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的功能和性能。

(4)隨時(shí)間變化:操作型數(shù)據(jù)庫(kù)含有“當(dāng)前值”的數(shù)據(jù),這些數(shù)據(jù)的準(zhǔn)確性在訪問(wèn)時(shí)是有效的,同樣當(dāng)前值的數(shù)據(jù)能被更新。而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)僅僅是一系列某一時(shí)刻生成的復(fù)雜的快照。也就是說(shuō)數(shù)據(jù)倉(cāng)庫(kù)中按時(shí)間保留對(duì)應(yīng)的歷史數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)總是與時(shí)間相關(guān)的,在企業(yè)模型的基礎(chǔ)上建立數(shù)據(jù)倉(cāng)庫(kù)模型的過(guò)程中一個(gè)重要的內(nèi)容就是去除純操作數(shù)據(jù)的同時(shí)加入時(shí)間元素。數(shù)據(jù)倉(cāng)庫(kù)的鍵碼結(jié)構(gòu)總是包含某時(shí)間元素。在數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)記錄觸發(fā)一般是“時(shí)間-發(fā)生”型的,比如某個(gè)時(shí)間開(kāi)始進(jìn)行數(shù)據(jù)處理活動(dòng)。

(5)多重粒度:粒度是指數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級(jí)別。細(xì)化程度越高,粒度級(jí)就越小例如清單級(jí)數(shù)據(jù);相反,細(xì)化程度越低,粒度級(jí)就越大,例如月匯總數(shù)據(jù)或應(yīng)用匯總數(shù)據(jù)。顯而易見(jiàn),粒度與數(shù)據(jù)倉(cāng)庫(kù)的性能和功能有著息息相關(guān)的關(guān)系,它深深地影響存放在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量的大小,同時(shí)影響數(shù)據(jù)倉(cāng)庫(kù)所能回答的查詢類型:

   ① 數(shù)據(jù)粒度和數(shù)據(jù)存儲(chǔ)量的矛盾:如果數(shù)據(jù)倉(cāng)庫(kù)的空間很有限的話(數(shù)據(jù)量總是數(shù)據(jù)倉(cāng)庫(kù)中的首要問(wèn)題),用高粒度級(jí)表示數(shù)據(jù)將比用低粒度級(jí)表示數(shù)據(jù)的效率要高得多,在高粒度級(jí)上,數(shù)據(jù)進(jìn)行了很大的壓縮。

② 數(shù)據(jù)粒度和數(shù)據(jù)處理能力的矛盾:高粒度級(jí)不僅只需少得多的字節(jié)存放數(shù)據(jù),而且只需較少的索引項(xiàng),低粒度級(jí)則相反。小數(shù)據(jù)量的數(shù)據(jù)訪問(wèn)效率比較高,而大數(shù)據(jù)量的數(shù)據(jù)訪問(wèn)效率比較低,為了有效地訪問(wèn)大量數(shù)據(jù),需要系統(tǒng)具有更大的數(shù)據(jù)處理能力。

③ 數(shù)據(jù)粒度和回答查詢的能力的矛盾:當(dāng)提高數(shù)據(jù)粒度級(jí)時(shí),數(shù)據(jù)所能回答查詢的能力就會(huì)隨之降低。換句話說(shuō),在一個(gè)很低的粒度級(jí)上你實(shí)際可以回答任何問(wèn)題,但在高粒度級(jí)上,數(shù)據(jù)所能處理問(wèn)題的數(shù)量是有限的。

因此,為了平衡性能和功能和費(fèi)用,一般選擇多重粒度。所謂多重粒度就是指在數(shù)據(jù)倉(cāng)庫(kù)中既有粒度小的如清單級(jí)的數(shù)據(jù),又有粒度大的數(shù)據(jù),比如匯總數(shù)據(jù),匯總力度多大,決定于系統(tǒng)的處理能力和用戶的要求。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是有粒度層次的(如圖2所示)。

圖2 數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)層次結(jié)構(gòu)

 2.2 數(shù)據(jù)倉(cāng)庫(kù)的用戶

    數(shù)據(jù)倉(cāng)庫(kù)的用戶一般稱為DSS分析員,他首先是個(gè)商務(wù)人員,其次才是技術(shù)人員。DSS分析員的主要工作是定義和發(fā)現(xiàn)在企業(yè)決策中使用的信息。DSS分析員的態(tài)度對(duì)數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)方式和分析應(yīng)用系統(tǒng)怎樣使用被開(kāi)發(fā)的數(shù)據(jù)倉(cāng)庫(kù)有深遠(yuǎn)的影響。

    數(shù)據(jù)倉(cāng)庫(kù)用戶群中有多種多樣的最終用戶,每類最終用戶都有自己獨(dú)特的特征和使用數(shù)據(jù)倉(cāng)庫(kù)的需求。從使用方式出發(fā),數(shù)據(jù)倉(cāng)庫(kù)用戶群可以分成兩大類:一類是信息使用者;一類是信息探索者。

    數(shù)據(jù)倉(cāng)庫(kù)的用戶大多數(shù)屬于信息使用者,信息使用者以一種可預(yù)測(cè)的重復(fù)性的方式來(lái)使用數(shù)據(jù)倉(cāng)庫(kù),他們通常查看相同商業(yè)維度(客戶、業(yè)務(wù)、地域、終端)和指標(biāo)(時(shí)長(zhǎng)、話費(fèi))隨時(shí)間的發(fā)展趨勢(shì)、預(yù)測(cè)發(fā)展走向、觀察業(yè)務(wù)發(fā)展效果、監(jiān)測(cè)客戶狀況以支持銷售或營(yíng)銷決策,他們主要利用數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)進(jìn)行多維分析;而探索者有一個(gè)完全不可預(yù)測(cè)的、非重復(fù)性的數(shù)據(jù)使用模式,本質(zhì)上探索者是典型的數(shù)據(jù)挖掘者,他需要查看海量數(shù)據(jù),他并不能精確地知道什么必須分析,他需要查看沒(méi)有被預(yù)關(guān)聯(lián)的數(shù)據(jù)關(guān)系和數(shù)據(jù)集,探索者利用數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的廣度和深度來(lái)支持他們的探索性分析活動(dòng)。這兩類用戶對(duì)數(shù)據(jù)倉(cāng)庫(kù)的性能要求是截然不一樣的,分清數(shù)據(jù)倉(cāng)庫(kù)的用戶,具有針對(duì)性地進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)管理以提高數(shù)據(jù)倉(cāng)庫(kù)的性能,減少運(yùn)作和維護(hù)的費(fèi)用是數(shù)據(jù)倉(cāng)庫(kù)成功的一個(gè)關(guān)鍵因素。

    2.3 數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)

    如圖3所示,以數(shù)據(jù)倉(cāng)庫(kù)為中心的,滿足企業(yè)決策支持、企業(yè)商業(yè)智能的數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)包括以下內(nèi)容。

圖3 數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)

    (1)數(shù)據(jù)源:數(shù)據(jù)源是數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的來(lái)源,主要包括存在于企業(yè)內(nèi)部的各個(gè)應(yīng)用系統(tǒng)中的結(jié)構(gòu)化數(shù)據(jù),還包括來(lái)自于企業(yè)外的結(jié)構(gòu)或非結(jié)構(gòu)數(shù)據(jù)。隨著決策分析的要求越來(lái)越精確,范圍越來(lái)越廣,許多外部數(shù)據(jù)(比如企業(yè)價(jià)值鏈上的各種非本企業(yè)數(shù)據(jù)或信息)逐漸納入到體系結(jié)構(gòu)中。

    (2)中心數(shù)據(jù)倉(cāng)庫(kù):中心數(shù)據(jù)倉(cāng)庫(kù)是整個(gè)體系結(jié)構(gòu)的核心,來(lái)自于各個(gè)數(shù)據(jù)源的數(shù)據(jù)經(jīng)過(guò)ETL處理后裝載入數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)是按照主題的方式組織的,具有多重粒度性。數(shù)據(jù)倉(cāng)庫(kù)中包括大量的能滿足各種回答能力的歷史細(xì)節(jié)數(shù)據(jù),同時(shí)也包括各種能滿足查詢性能要求的綜合性數(shù)據(jù)。數(shù)據(jù)量大是數(shù)據(jù)倉(cāng)庫(kù)的最大特征,如何進(jìn)行大數(shù)據(jù)量的管理,達(dá)到性能和功能的平衡是數(shù)據(jù)倉(cāng)庫(kù)相關(guān)技術(shù)要求的核心內(nèi)容;數(shù)據(jù)倉(cāng)庫(kù)的另一個(gè)重要特征是它的數(shù)據(jù)不可更新性,數(shù)據(jù)倉(cāng)庫(kù)的可行性,很大程度依賴于這個(gè)前提,由此,在空間設(shè)計(jì)上可以不用考慮寫(xiě)操作帶來(lái)的空間預(yù)留,可以不用一直將鎖管理打開(kāi)而有效地節(jié)省系統(tǒng)開(kāi)銷,保證大數(shù)據(jù)量管理的實(shí)現(xiàn);另外,數(shù)據(jù)倉(cāng)庫(kù)不具有快速反應(yīng)的特征,這是因?yàn)橐环矫鏀?shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)量非常大,在這樣大的數(shù)據(jù)量的數(shù)據(jù)操作中追求快速反應(yīng)是不現(xiàn)實(shí)的,另一方面數(shù)據(jù)倉(cāng)庫(kù)的工作負(fù)載是不均衡的,有時(shí)很小,有時(shí)很大,在一個(gè)大數(shù)據(jù)量的查詢過(guò)程中,要求另一個(gè)查詢的快速是不現(xiàn)實(shí)的也是不科學(xué)的。

    (3)數(shù)據(jù)集市:所謂數(shù)據(jù)集市就是指基于某一特定部門的決策支持需要而組織的主題域的一個(gè)集合,它支持部門的定制化使用,是部門的數(shù)據(jù)體。當(dāng)越來(lái)越多的部門或用戶加入到數(shù)據(jù)倉(cāng)庫(kù)的使用中時(shí),數(shù)據(jù)倉(cāng)庫(kù)的性能受到很大的壓力,以致于一些訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù)的要求和分析工作被推遲。為了解決這種矛盾,在數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)中引入數(shù)據(jù)集市,將部門所需要的數(shù)據(jù)從數(shù)據(jù)倉(cāng)庫(kù)中復(fù)制到部門處理環(huán)境中,數(shù)據(jù)集市是平衡數(shù)據(jù)倉(cāng)庫(kù)性能的一個(gè)重要組件。數(shù)據(jù)集市概念的提出和在現(xiàn)代數(shù)據(jù)倉(cāng)庫(kù)體系中突出了數(shù)據(jù)集市的一個(gè)主要原因是為了調(diào)節(jié)大數(shù)據(jù)量管理和用戶數(shù)據(jù)訪問(wèn)需求間的關(guān)系。對(duì)于一個(gè)數(shù)據(jù)規(guī)模非常大的數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu),通過(guò)數(shù)據(jù)集市將部分商業(yè)智能應(yīng)用和數(shù)據(jù)倉(cāng)庫(kù)隔離開(kāi)來(lái),使數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)和組織更自由一些,使得數(shù)據(jù)從操作型環(huán)境中遷移到數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中的處理可以更加靈活一些。在數(shù)據(jù)倉(cāng)庫(kù)體系中加入數(shù)據(jù)集市的元素能夠更快速地反映用戶的要求,也可以更方便地滿足用戶的多樣性需求。數(shù)據(jù)集市是數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)有效和自然的補(bǔ)充,數(shù)據(jù)集市延伸決策支持到部門級(jí)環(huán)境中。數(shù)據(jù)倉(cāng)庫(kù)提供粒狀數(shù)據(jù),不同數(shù)據(jù)集市應(yīng)用不同的方法來(lái)解釋和構(gòu)造這種粒狀數(shù)據(jù)以滿足他們的需求。對(duì)數(shù)據(jù)集市來(lái)說(shuō),最適當(dāng)?shù)臄?shù)據(jù)源是數(shù)據(jù)倉(cāng)庫(kù)。但是數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市又具有很大的差異性,不能以數(shù)據(jù)集市代替數(shù)據(jù)倉(cāng)庫(kù),因?yàn)閿?shù)據(jù)集市不能支持?jǐn)?shù)據(jù)挖掘,數(shù)據(jù)集市不能支持企業(yè)級(jí)的決策分析,數(shù)據(jù)集市不能滿足企業(yè)的商業(yè)智能化要求,不能夠集中體現(xiàn)出企業(yè)的整體運(yùn)營(yíng)策略。

    (4)數(shù)據(jù)訪問(wèn):為了充分發(fā)揮數(shù)據(jù)倉(cāng)庫(kù)的作用,需要利用各種訪問(wèn)方式找出它所包含的信息,并充分利用這些信息。用戶對(duì)數(shù)據(jù)倉(cāng)庫(kù)的使用形式各種各樣,對(duì)于數(shù)據(jù)倉(cāng)庫(kù)的使用要求也是各種各樣的,為了有效地運(yùn)用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行決策支持,根據(jù)用戶的不同要求提供相應(yīng)的訪問(wèn)工具和應(yīng)用是數(shù)據(jù)倉(cāng)庫(kù)體系的一個(gè)重要內(nèi)容。目前數(shù)據(jù)訪問(wèn)形式可以歸納為以下方面:

    ① OLAP:聯(lián)機(jī)分析處理(OLAP)是當(dāng)前信息處理領(lǐng)域比較流行的一種訪問(wèn)技術(shù),一般支持多維性、下鉆、旋轉(zhuǎn)和多視圖模式等功能。用戶通過(guò)OLAP可以對(duì)數(shù)據(jù)進(jìn)行非常靈活的訪問(wèn),可以用多種方法對(duì)數(shù)據(jù)進(jìn)行切片、分割,動(dòng)態(tài)地考察匯總數(shù)據(jù)和細(xì)節(jié)數(shù)據(jù)的關(guān)系。

    ② 分析:采用數(shù)據(jù)庫(kù)查詢語(yǔ)言(例如SQL)直接訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù),并獲得分析結(jié)果。這是訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù)最原始的方法,一般由數(shù)據(jù)庫(kù)專家采用。

    ③ 報(bào)表:通過(guò)預(yù)先制定好的報(bào)表為用戶提供分析。這種方式對(duì)數(shù)據(jù)的獲取比較受限制,一般運(yùn)用在一些常規(guī)的關(guān)鍵數(shù)據(jù)呈現(xiàn)上。

    ④ 數(shù)據(jù)挖掘:數(shù)據(jù)挖掘也叫做數(shù)據(jù)庫(kù)中的數(shù)據(jù)發(fā)現(xiàn)(KDD)。數(shù)據(jù)挖掘就是一個(gè)發(fā)現(xiàn)過(guò)程,它能夠幫助用戶理解有關(guān)數(shù)據(jù)的真正含義,并了解數(shù)據(jù)之間所存在的關(guān)系。數(shù)據(jù)挖掘能夠在信息內(nèi)容中揭示出相應(yīng)的模式和趨勢(shì)。

    ⑤ WEB訪問(wèn):最終用戶通過(guò)具有數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)訪問(wèn)能力的WEB應(yīng)用程序訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù)。目前的技術(shù)已可以創(chuàng)建高級(jí)的交互式應(yīng)用程序,允許客戶端查詢數(shù)據(jù)倉(cāng)庫(kù)和多維數(shù)據(jù)集中的數(shù)據(jù)。

    ⑥ EIS:高級(jí)管理人員信息系統(tǒng)(EIS)為高級(jí)管理人員制定相關(guān)決策提供支持。最典型的用途包括趨勢(shì)分析和發(fā)現(xiàn)、關(guān)鍵比例指示器度量和跟蹤、向下探察分析、問(wèn)題監(jiān)控、競(jìng)爭(zhēng)分析等。

    ⑦ 操作型應(yīng)用系統(tǒng):這是一類比較特殊的對(duì)數(shù)據(jù)倉(cāng)庫(kù)的訪問(wèn)。這類系統(tǒng)一方面具有對(duì)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)訪問(wèn)能力,一方面又將相關(guān)的數(shù)據(jù)“寫(xiě)回”到數(shù)據(jù)倉(cāng)庫(kù)中,例如CRM系統(tǒng)。

    (5)元數(shù)據(jù)管理:元數(shù)據(jù)就是關(guān)于數(shù)據(jù)的數(shù)據(jù),是對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)的描述。在數(shù)據(jù)倉(cāng)庫(kù)體系中元數(shù)據(jù)扮演一個(gè)新的重要角色,這是因?yàn)槭褂谜呤荄SS人員,他不具有象IT人員那樣多的計(jì)算機(jī)或相關(guān)的知識(shí);另外數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)從操作型環(huán)境中遷移到數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中經(jīng)過(guò)了集成、清洗等處理,所以操作型環(huán)境到數(shù)據(jù)倉(cāng)庫(kù)環(huán)境的映射是數(shù)據(jù)理解的關(guān)鍵。元數(shù)據(jù)的內(nèi)容一般包括程序員所應(yīng)知的數(shù)據(jù)結(jié)構(gòu)、DSS分析員所知的數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)倉(cāng)庫(kù)的源數(shù)據(jù)、數(shù)據(jù)加入數(shù)據(jù)倉(cāng)庫(kù)時(shí)的轉(zhuǎn)換、數(shù)據(jù)模型、數(shù)據(jù)模型和數(shù)據(jù)倉(cāng)庫(kù)的關(guān)系、抽取數(shù)據(jù)的歷史記錄等內(nèi)容。和元數(shù)據(jù)比較相近的一個(gè)重要概念是上下文,所謂上下文就是某種分析結(jié)果的前因后果,它非常重要,有時(shí)在將數(shù)據(jù)轉(zhuǎn)化成信息時(shí)起了很大的作用。

3 數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施

3.1 數(shù)據(jù)倉(cāng)庫(kù)實(shí)施的特點(diǎn)

數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施一般是指如何組織數(shù)據(jù)并將數(shù)據(jù)從操作型環(huán)境中遷移到數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中,并在數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上建立適于用戶訪問(wèn)數(shù)據(jù),進(jìn)行決策分析的應(yīng)用。數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施具有以下特點(diǎn):

(1)建立數(shù)據(jù)倉(cāng)庫(kù)不是一蹴而就的:由于在數(shù)據(jù)倉(cāng)庫(kù)載入第一個(gè)主題數(shù)據(jù)前,業(yè)務(wù)分析人員是不知道需要什么的,所以數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施具有一定的風(fēng)險(xiǎn)性,一次一步的方式有效地降低了風(fēng)險(xiǎn)。

(2)數(shù)據(jù)倉(cāng)庫(kù)的建立要采用有序地反復(fù)的方式,即迭代的方式:在建立數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程中,不可避免地會(huì)出現(xiàn)新主題的增加,新數(shù)據(jù)的抽取等要求,尤其是現(xiàn)在市場(chǎng)變化這么快,一兩年后的要求也許和現(xiàn)在就有很大的差異,所以說(shuō)數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施實(shí)際上是一個(gè)建立一個(gè)良性循環(huán)的迭代過(guò)程,成功的標(biāo)志在于是否建立了一個(gè)良性的迭代過(guò)程,是否持續(xù)地使用。

(3)數(shù)據(jù)倉(cāng)庫(kù)成功的一個(gè)關(guān)鍵因素在于數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)者和DSS分析人員之間的反饋循環(huán):數(shù)據(jù)倉(cāng)庫(kù)載入數(shù)據(jù)后需要使用者積極地去使用和觀察數(shù)據(jù),然后反饋意見(jiàn)給設(shè)計(jì)人員進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)的修正完善。如果分析人員發(fā)現(xiàn)了問(wèn)題又不及時(shí)反饋給設(shè)計(jì)人員,不能形成一個(gè)良性的循環(huán),數(shù)據(jù)倉(cāng)庫(kù)成功的幾率是很低的。

3.2 數(shù)據(jù)倉(cāng)庫(kù)實(shí)施的過(guò)程

數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施是從一個(gè)模型開(kāi)始的。然后定義記錄系統(tǒng)即確定數(shù)據(jù)源,設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù),設(shè)計(jì)接口程序,進(jìn)行ETL開(kāi)發(fā)和應(yīng)用開(kāi)發(fā),和DSS分析人員進(jìn)行循環(huán)反饋,如圖4所示。數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施包括以下3個(gè)部分。

圖4 數(shù)據(jù)倉(cāng)庫(kù)實(shí)施的循環(huán)

(1)數(shù)據(jù)倉(cāng)庫(kù)規(guī)劃:以企業(yè)的業(yè)務(wù)模型為基礎(chǔ)進(jìn)行企業(yè)決策相關(guān)的業(yè)務(wù)理解和探索,制定相應(yīng)的商業(yè)/分析數(shù)據(jù)模型,該模型描述了企業(yè)的信息需求(指出企業(yè)所需要的而不考慮企業(yè)所具有的),至少需要包括企業(yè)的主要主題、各個(gè)主題之間的關(guān)系以及對(duì)主題主鍵(組)和屬性(組)的盡可能全面的描述等內(nèi)容。根據(jù)該模型定義記錄系統(tǒng),即分析和確定由哪些生產(chǎn)應(yīng)用系統(tǒng)提供滿足要求的數(shù)據(jù)后,就可以建立數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型和進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)設(shè)計(jì)了。

(2)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)和實(shí)施:該部分包括知識(shí)探索、根據(jù)邏輯模型和性能要求進(jìn)行物理模型設(shè)計(jì)、制定數(shù)據(jù)存儲(chǔ)策略、根據(jù)記錄系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)模型進(jìn)行ETL開(kāi)發(fā)和實(shí)施、進(jìn)行滿足用戶使用特征的應(yīng)用開(kāi)發(fā)、包括數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)和元數(shù)據(jù)的管理等內(nèi)容的數(shù)據(jù)倉(cāng)庫(kù)管理以及數(shù)據(jù)倉(cāng)庫(kù)性能的監(jiān)測(cè)等內(nèi)容。

(3)數(shù)據(jù)倉(cāng)庫(kù)支持和完善:該部分包括根據(jù)數(shù)據(jù)倉(cāng)庫(kù)的運(yùn)作情況并對(duì)數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)和容量進(jìn)行相應(yīng)的調(diào)整,根據(jù)用戶的使用反饋對(duì)數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型、物理模型進(jìn)行審查,確定是否需要調(diào)整迭代,對(duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行審計(jì),確定數(shù)據(jù)倉(cāng)庫(kù)的價(jià)值等過(guò)程。

最后,值得一提的是,數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施是一個(gè)企業(yè)行為。在企業(yè)實(shí)施數(shù)據(jù)倉(cāng)庫(kù)過(guò)程中,有一個(gè)問(wèn)題擺在了決策者的面前,就是如何評(píng)價(jià)數(shù)據(jù)倉(cāng)庫(kù)的投資收益(ROI),這個(gè)問(wèn)題在國(guó)外的企業(yè)中是一個(gè)非常重要的問(wèn)題。如果把數(shù)據(jù)倉(cāng)庫(kù)作為一個(gè)項(xiàng)目來(lái)看的話,應(yīng)該如何正確計(jì)算ROI呢?這個(gè)問(wèn)題難倒了很多人,包括很多專家。后來(lái)人們重新審視數(shù)據(jù)倉(cāng)庫(kù)在企業(yè)運(yùn)營(yíng)中的作用時(shí),發(fā)現(xiàn)不應(yīng)該把數(shù)據(jù)倉(cāng)庫(kù)僅僅作為一個(gè)項(xiàng)目來(lái)看。數(shù)據(jù)倉(cāng)庫(kù)是企業(yè)的一個(gè)重要資產(chǎn),是企業(yè)運(yùn)營(yíng)的一個(gè)基礎(chǔ),應(yīng)該把數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施和完善作為企業(yè)的一項(xiàng)運(yùn)營(yíng)內(nèi)容/活動(dòng)來(lái)看,這時(shí)再去評(píng)價(jià)數(shù)據(jù)倉(cāng)庫(kù)的ROI就容易理解了。

4 總 結(jié)

數(shù)據(jù)倉(cāng)庫(kù)是為企業(yè)決策支持服務(wù)的,市場(chǎng)的快速變化、競(jìng)爭(zhēng)的日益激烈使得企業(yè)越來(lái)越急迫地需要數(shù)據(jù)和信息以快速應(yīng)對(duì)市場(chǎng)變化,以全面了解客戶,迫切地需要方便地獲取信息支持以能夠及時(shí)作出正確和有效的決策,建立新的銷售和營(yíng)銷渠道,實(shí)現(xiàn)商業(yè)智能。運(yùn)用數(shù)據(jù)倉(cāng)庫(kù)體系建立包括市場(chǎng)經(jīng)營(yíng)分析系統(tǒng)(MAS)、客戶關(guān)系管理系統(tǒng)(CRM)、企業(yè)決策支持系統(tǒng)(EDSS)等在內(nèi)的企業(yè)商業(yè)智能系統(tǒng)以提升企業(yè)競(jìng)爭(zhēng)力、拓展企業(yè)新的發(fā)展空間正逐步成為各個(gè)運(yùn)營(yíng)商新的重點(diǎn)發(fā)展目標(biāo)。

 

發(fā)布:2007-04-24 12:12    編輯:泛普軟件 · xiaona    [打印此頁(yè)]    [關(guān)閉]
相關(guān)文章:
福州OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設(shè)南路160號(hào)1層9號(hào)

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢:400-8352-114

加微信,免費(fèi)獲取試用系統(tǒng)

QQ在線咨詢

泛普福州OA快博其他應(yīng)用

福州OA軟件 福州OA新聞動(dòng)態(tài) 福州OA信息化 福州OA快博 福州OA行業(yè)資訊 福州軟件開(kāi)發(fā)公司 福州門禁系統(tǒng) 福州物業(yè)管理軟件 福州倉(cāng)庫(kù)管理軟件 福州餐飲管理軟件 福州網(wǎng)站建設(shè)公司