監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價(jià)咨詢(xún)管理系統(tǒng) | 工程設(shè)計(jì)管理系統(tǒng) | 簽約案例 | 購(gòu)買(mǎi)價(jià)格 | 在線(xiàn)試用 | 手機(jī)APP | 產(chǎn)品資料
X 關(guān)閉

如何建立和評(píng)估數(shù)據(jù)倉(cāng)庫(kù)邏輯模型

申請(qǐng)免費(fèi)試用、咨詢(xún)電話(huà):400-8352-114

文章來(lái)源:泛普軟件

介紹

邏輯模型指數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的邏輯表現(xiàn)形式。從最終應(yīng)用的功能和性能的角度來(lái)看,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)邏輯模型也許是整個(gè)項(xiàng)目最重要的方面,需要領(lǐng)域?qū)<业膮⑴c。從內(nèi)容上看,涉及的方面有確立主題域,粒度層次的劃分,確定數(shù)據(jù)分割策略,關(guān)系模式的確定。

邏輯模型建設(shè)方法

邏輯建模是數(shù)據(jù)倉(cāng)庫(kù)實(shí)施中的重要一環(huán),因?yàn)樗苤苯臃从吵鰳I(yè)務(wù)部門(mén)的需求,同時(shí)對(duì)系統(tǒng)的物理實(shí)施有著重要的指導(dǎo)作用。目前較常用的兩種建模方法是所謂的第三范式 (3NF,即 Third Normal Form)和星型模式 (Star-Schema)

第三范式

關(guān)系模式滿(mǎn)足以下特征:

1  每個(gè)屬性的值唯一,不具有多義性;

2. 每個(gè)非主屬性必須完全依賴(lài)于整個(gè)主鍵,而非主鍵的一部分;

3. 每個(gè)非主屬性不能依賴(lài)于其他關(guān)系中的屬性,因?yàn)檫@樣的話(huà),這種屬性應(yīng)該歸到其他關(guān)系中去

星型模型

星型模式是一種多維的數(shù)據(jù)關(guān)系,它由一個(gè)事實(shí)表(Fact Table)和一組維表(Dimens ion Table)組成。每個(gè)維表都有一個(gè)維作為主鍵,所有這些維則組合成事實(shí)表的主鍵,換言之,事實(shí)表主鍵的每個(gè)元素都是維表的外鍵。事實(shí)表的非主屬性稱(chēng)為事實(shí) (Fact),它們一般都是數(shù)值或其他可以進(jìn)行計(jì)算的數(shù)據(jù);而維大都是文字、時(shí)間等類(lèi)型的數(shù)據(jù)。

第三范式和星型模式在數(shù)據(jù)倉(cāng)庫(kù)中的應(yīng)用

大多數(shù)人在設(shè)計(jì)中央數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型時(shí),都按照第三范式來(lái)設(shè)計(jì);而在進(jìn)行物理實(shí)施時(shí),則由于數(shù)據(jù)庫(kù)引擎的限制,不得不對(duì)邏輯模型進(jìn)行不規(guī)范處理 (De-Normalize), 以提高系統(tǒng)的響應(yīng)速度,這當(dāng)然是以增加系統(tǒng)的復(fù)雜度、維護(hù)工作量、磁盤(pán)使用比率 (指原始數(shù)據(jù)與磁盤(pán)大小的比率)并降低系統(tǒng)執(zhí)行動(dòng)態(tài)查詢(xún)能力為代價(jià)的。

那么,在中央數(shù)據(jù)倉(cāng)庫(kù)中是否可以采用星型模式來(lái)進(jìn)行模型設(shè)計(jì)呢?我們知道,星型模式中有一個(gè)事實(shí)表和一組維表,我們可以把事實(shí)看成是各個(gè)維交叉點(diǎn)上的值。

星型模式之所以速度快,在于針對(duì)各個(gè)維作了大量的預(yù)處理,如按照維進(jìn)行預(yù)先的統(tǒng)計(jì)、分類(lèi)、排序等。因此,在星型模式設(shè)計(jì)的數(shù)據(jù)倉(cāng)庫(kù)中,作報(bào)表的速度雖然很快,但由于存在大量的預(yù)處理,其建模過(guò)程相對(duì)來(lái)說(shuō)就比較慢。當(dāng)業(yè)務(wù)問(wèn)題發(fā)生變化,原來(lái)的維不能滿(mǎn)足要求時(shí),需要增加新的維。由于事實(shí)表的主鍵由所有維表的主鍵組成,這種維的變動(dòng)將是非常復(fù)雜、非常耗時(shí)的。星型模式另一個(gè)顯著的缺點(diǎn)是數(shù)據(jù)的冗余量很大。綜合這些討論,不難得出結(jié)論,星型模式比較適合于預(yù)先定義好的問(wèn)題,如需要產(chǎn)生大量報(bào)表的場(chǎng)合;而不適合于動(dòng)態(tài)查詢(xún)多、系統(tǒng)可擴(kuò)展能力要求高或者數(shù)據(jù)量很大的場(chǎng)合。因此,星型模式在一些要求大量報(bào)表的部門(mén)數(shù)據(jù)集市中有較多的應(yīng)用。

總之,上面討論了數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)中常用的兩種方法。對(duì)于部門(mén)數(shù)據(jù)集市,當(dāng)數(shù)據(jù)量不大、報(bào)表較固定時(shí)可以采用星型模式;對(duì)于企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù),考慮到系統(tǒng)的可擴(kuò)展能力、投資成本和易于管理等多種因素,最好采用第三范式。

邏輯模型的質(zhì)量標(biāo)準(zhǔn)

對(duì)邏輯模型的評(píng)估,就是對(duì)邏輯模型質(zhì)量的考察,什么是邏輯模型的質(zhì)量呢?從狹義的概念說(shuō),邏輯模型是否正確表達(dá)了業(yè)務(wù)規(guī)則,也就是準(zhǔn)確,但是隨著人們對(duì)數(shù)據(jù)倉(cāng)庫(kù)認(rèn)識(shí)的加深,質(zhì)量的含義不斷延伸,現(xiàn)在對(duì)模型質(zhì)量要求不僅僅單純指單純的業(yè)務(wù)規(guī)則,還包括模型滿(mǎn)足用戶(hù)分析需求的程度,它是一個(gè)包含豐富內(nèi)涵、具有多維因素的綜合性概念。相應(yīng)地邏輯模型質(zhì)量概念的認(rèn)識(shí)也從狹義向廣義轉(zhuǎn)變,準(zhǔn)確性已不再是衡量唯一標(biāo)準(zhǔn)。評(píng)估邏輯模型一般包括如下方面的標(biāo)準(zhǔn)

正確性

邏輯模型的建設(shè)方法是正確的,遵循了從上到下和從下到上相結(jié)合的方法,選擇了正確的模型表示方式,對(duì)實(shí)際業(yè)務(wù)采用正確的概化抽象。

準(zhǔn)確性(精度)

指邏輯模型和實(shí)際業(yè)務(wù)即“真值”之間的差異程度。誤差越小,準(zhǔn)確性就越高。這里,所謂的“真值”是可知的,盡管邏輯模型經(jīng)過(guò)了抽象,概化等方法總結(jié)共性,但是模型的具體化后,與“真值”是應(yīng)當(dāng)符合的??梢酝ㄟ^(guò)范圍誤差、計(jì)數(shù)誤差、不回答率、加工整理差錯(cuò)、模型假設(shè)誤差等影響準(zhǔn)確性的各個(gè)因素,測(cè)算統(tǒng)計(jì)估算值的變動(dòng)系數(shù)、標(biāo)準(zhǔn)差、均方差、曲線(xiàn)配合吻合度、假設(shè)檢驗(yàn)、偏差等,修正邏輯模型將其的誤差控制在一個(gè)可接受的置信區(qū)間內(nèi)。

適用性

指收集的信息是否有用,是否符合用戶(hù)的需求。它要求邏輯模型的粒度,分割方式符合用戶(hù)的分析需求。

可解釋性

是指在公布邏輯模型時(shí),應(yīng)同時(shí)公開(kāi)邏輯模型的的補(bǔ)充解釋信息或稱(chēng)為“元數(shù)據(jù)”,即關(guān)于模型數(shù)據(jù)的解釋說(shuō)明。內(nèi)容包括所使用的建設(shè)方法,建設(shè)目標(biāo),以防止模型數(shù)據(jù)二義性導(dǎo)致錯(cuò)誤解釋和使用。

完備性

目前的業(yè)務(wù)需求和所用的業(yè)務(wù)規(guī)則完全包含在邏輯模型中。模型中不存在沒(méi)有包含的需求業(yè)務(wù)對(duì)象(如實(shí)體,屬性,以及之間的關(guān)系)

一致性

模型中的各個(gè)對(duì)象命名方式統(tǒng)一,有明確的命名規(guī)范。而且模型中各個(gè)相關(guān)對(duì)象的粒度一致,業(yè)務(wù)邏輯模型對(duì)象的劃分標(biāo)準(zhǔn)應(yīng)當(dāng)統(tǒng)一。

擴(kuò)展性

當(dāng)新的業(yè)務(wù)產(chǎn)生時(shí),僅僅是增加了相關(guān)邏輯模型對(duì)象的實(shí)例內(nèi)容,不影響目前的邏輯模型,模型這些分類(lèi)能夠隨統(tǒng)計(jì)分析需求的不同進(jìn)行相應(yīng)的調(diào)整,無(wú)需改變數(shù)據(jù)庫(kù)結(jié)構(gòu),具有靈活的擴(kuò)展性。僅在個(gè)別情況下,需要對(duì)邏輯模型的屬性或者實(shí)體本身增加,支持分步驟的實(shí)施。

可銜接性

邏輯模型來(lái)自擁有行業(yè)經(jīng)驗(yàn)的概念模型,里面凝聚了許多成功的經(jīng)驗(yàn),而且從規(guī)劃上符合行業(yè)系統(tǒng)的長(zhǎng)遠(yuǎn)發(fā)展,因此邏輯模型應(yīng)當(dāng)從概念模型上相對(duì)平滑的過(guò)度過(guò)來(lái)。此外,物理模型應(yīng)當(dāng)來(lái)自與邏輯模型,邏輯模型的建設(shè)應(yīng)當(dāng)具有一定的可操作性,便于向物理模型的轉(zhuǎn)化。

邏輯模型中常犯的錯(cuò)誤:
命名規(guī)范不統(tǒng)一

對(duì)于匯總數(shù)據(jù),低粒度數(shù)據(jù)或歷史數(shù)據(jù)采用已定義的命名規(guī)范。

粒度層次不統(tǒng)一

有的具體,有的過(guò)于抽象

不準(zhǔn)確

業(yè)務(wù)關(guān)系表示錯(cuò)

不全面:

一些屬性外鍵標(biāo)識(shí)沒(méi)有主表

無(wú)用關(guān)聯(lián)關(guān)系多:

模型中各種對(duì)象所表示的內(nèi)容,應(yīng)當(dāng)與用戶(hù)的業(yè)務(wù)分析需求密切相關(guān)。

與行業(yè)通用模型移動(dòng)的兼容性差:

與行業(yè)通用模型存在較大的差異,不利于系統(tǒng)的將來(lái)發(fā)展符合信息發(fā)展的趨勢(shì)。

總結(jié)

商業(yè)智能和數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的建設(shè)作為一個(gè)漸進(jìn)、迭代的過(guò)程,其發(fā)展趨勢(shì)是從現(xiàn)有的初步應(yīng)用如報(bào)表分析、數(shù)據(jù)集市,向深度和廣度復(fù)雜分析和數(shù)據(jù)挖掘技術(shù)應(yīng)用發(fā)展,其依賴(lài)的數(shù)據(jù)存儲(chǔ)模型,包括邏輯模型和物理模型,也是一個(gè)不斷發(fā)展,不斷豐富完善的過(guò)程。

來(lái)源:CCW

發(fā)布:2007-04-22 10:11    編輯:泛普軟件 · xiaona    [打印此頁(yè)]    [關(guān)閉]
相關(guān)文章:

泛普沈陽(yáng)OA快博其他應(yīng)用

沈陽(yáng)OA軟件 沈陽(yáng)OA新聞動(dòng)態(tài) 沈陽(yáng)OA信息化 沈陽(yáng)OA快博 沈陽(yáng)OA行業(yè)資訊 沈陽(yáng)軟件開(kāi)發(fā)公司 沈陽(yáng)門(mén)禁系統(tǒng) 沈陽(yáng)物業(yè)管理軟件 沈陽(yáng)倉(cāng)庫(kù)管理軟件 沈陽(yáng)餐飲管理軟件 沈陽(yáng)網(wǎng)站建設(shè)公司