當前位置:工程項目OA系統(tǒng) > 泛普各地 > 湖北O(jiān)A系統(tǒng) > 武漢OA系統(tǒng) > 武漢OA快博
商業(yè)智能的性能
數(shù)據(jù)倉庫引擎是BI中的核心,它的性能高低直接決定了BI的表現(xiàn)。
一個完整的BI(Business Intelligence)應(yīng)用通常涉及數(shù)據(jù)倉庫引擎及其相關(guān)的設(shè)計建模工具、ETL工具、前端展現(xiàn)工具等。這里的數(shù)據(jù)展現(xiàn)主要作用是以圖表、Dashboard等形式將結(jié)果呈現(xiàn)給用戶;ETL負責將原始數(shù)據(jù)進行抽取、轉(zhuǎn)化、清洗、裝載進數(shù)據(jù)倉庫;數(shù)據(jù)倉庫負責執(zhí)行數(shù)據(jù)的存儲和管理,并執(zhí)行前端展現(xiàn)工具提交的各種查詢分析任務(wù)。在BI應(yīng)用中,數(shù)據(jù)倉庫類似于汽車的引擎,居于核心地位,它的性能高低直接決定了BI應(yīng)用的響應(yīng)速度。而在大型BI應(yīng)用中,性能是一個非常關(guān)鍵的問題,特別是那些有著海量數(shù)據(jù)、需要完成復(fù)雜查詢?nèi)蝿?wù)的系統(tǒng),數(shù)據(jù)倉庫引擎的選擇就更為關(guān)鍵。
不同的技術(shù)路線
綜觀目前的數(shù)據(jù)倉庫市場,能提供這一個工具的供應(yīng)商并不多,一線的廠商主要有Teradata、IBM、Oracle、Sybase、Microsoft等。盡管同為數(shù)據(jù)倉庫引擎,但是這些供應(yīng)商各自所走的技術(shù)路線并不同,不同的技術(shù)也導(dǎo)致了它們的產(chǎn)品具有完全不同的特點。
Teradata應(yīng)該算最為特立獨行的一個。Teradata數(shù)據(jù)倉庫主要運行在NCR WorldMark SMP硬件的Unix操作系統(tǒng)平臺上(該公司也提供基于Windows NT的Teradata),它的高性能主要通過Teradata與NCR硬件平臺海量并行處理服務(wù)器(Massively Parallel Processing, MPP)結(jié)合,以及采用特有BYNET協(xié)議和查詢優(yōu)化等技術(shù)實現(xiàn)并行等機制來實現(xiàn)。由于采用一些專有的硬件和技術(shù),因此,價格較高,是數(shù)據(jù)倉庫中的貴族。
IBM、Oracle和Microsoft的數(shù)據(jù)倉庫引擎屬于同一類,它們都提供數(shù)據(jù)庫產(chǎn)品,其數(shù)據(jù)倉庫引擎和數(shù)據(jù)庫引擎從技術(shù)上說有很多相似之處。這種技術(shù)路線給它們帶來的好處是,其數(shù)據(jù)倉庫解決方案很自然地從數(shù)據(jù)庫技術(shù)拓展和延伸而來,集成性、延續(xù)性比較突出。
與IBM、Oracle等相比,雖然Sybase也同時提供數(shù)據(jù)庫和數(shù)據(jù)倉庫產(chǎn)品,但是,其Sybase的數(shù)據(jù)倉庫引擎卻走了一條與其數(shù)據(jù)庫、也與Oracle、IBM完全不同的技術(shù)路線。其中最大的不同就是在Sybase數(shù)據(jù)倉庫引擎(即Sybase IQ)中采用列存儲架構(gòu),而所有關(guān)系型數(shù)據(jù)庫引擎廣泛采用的則是行式存儲。
列存儲技術(shù)
在關(guān)系型數(shù)據(jù)庫內(nèi)核中,數(shù)據(jù)庫是按行來存儲數(shù)據(jù)記錄的,也就是說數(shù)據(jù)庫表最典型的表示為一條數(shù)據(jù)頁鏈,每一數(shù)據(jù)頁中有一行或者多行數(shù)據(jù)記錄。而在數(shù)據(jù)倉庫應(yīng)用中,從查詢性能的觀點出發(fā),這種存儲方式并不可取。因為在OLTP(在線事務(wù)處理,即傳統(tǒng)數(shù)據(jù)庫應(yīng)用)環(huán)境中,一個事務(wù)處理是與一行(或多行)數(shù)據(jù)有效對應(yīng)的,而在OLAP(在線分析處理,即BI應(yīng)用)環(huán)境中,以查詢處理最多,而查詢是基于特定的列來選擇的。Sybase IQ是按列來組織數(shù)據(jù)的,每張表是一組相互獨立的頁鏈,每個頁鏈代表表中的一列。
基于列存儲所帶來的一個直接好處是,在壓縮方面比傳統(tǒng)的關(guān)系型數(shù)據(jù)更加有效。這是因為同一列的所有數(shù)據(jù)域有相同的類型,因而每一列都可以為優(yōu)化的效率和檢索進行壓縮。而基于行的存儲,各個不同的域擁有各不相同的數(shù)據(jù)類型,盡管這非常適合交易進程,但并不適合壓縮,因為壓縮很可能只能采用一種最低通用原則。
事實上,在壓縮效果上,Sybase非常自信。Sybase中國公司CTO盧東明對記者表示,Sybase IQ能保證至少3倍以上的壓縮比。高的壓縮能力能帶來存儲成本的節(jié)約,有人曾經(jīng)對數(shù)據(jù)的存儲成本進行過估算,目前每管理1TB數(shù)據(jù)的軟硬件加人力成本大約為5萬美元左右。
列存儲的另一個好處是性能上的提高。在行存儲方式的情況下,如果需要訪問數(shù)據(jù)必須讀出完整的一行,而不管你實際感興趣的是其中哪一個或幾個域。因此,這可能形成只需要50K的數(shù)據(jù)卻需要讀出500k的情況。而在采用列存儲方式時,可以只讀出所需要的列數(shù)據(jù)。讀出數(shù)據(jù)量的減少直接后果就是性能的提高。特別是在處理大數(shù)據(jù)量、復(fù)雜的跨多表查詢時,列存儲在性能上的提升非常明顯。
除此之外,Sybase IQ還采用了其他的一些專有技術(shù),如位圖索引和BitWise索引技術(shù)等?!坝捎谶@些技術(shù)的采用,最終保證了Sybase IQ查詢速度的極大改進,這種速度的提高能達到10倍以上。因此,我們認為Sybase IQ的技術(shù)是革命性的?!盨ybase的盧東明在接受記者采訪時表示。
目前,上述三種不同的數(shù)據(jù)倉庫技術(shù)到底哪種更好,各家都有自己的說法。因此,對用戶而言,具體選擇時還需多了解同類型的BI應(yīng)用。不過,用戶倒是樂觀其成,畢竟競爭可以帶給用戶更好的技術(shù)和產(chǎn)品。(ccw)
- 1網(wǎng)絡(luò)運維流程管理平臺的建設(shè)和應(yīng)用
- 2企業(yè)如何定制二萬塊錢的文件服務(wù)器
- 3改善供應(yīng)鏈績效的核心要素
- 4波音CIO在尖端新技術(shù)間自由翱翔
- 5為數(shù)據(jù)中心瘦身
- 6國內(nèi)市場虛擬化大戰(zhàn)開啟
- 7網(wǎng)友經(jīng)歷的ERP實施中的兩種極端方式
- 8三種方法評估項目工作量
- 9小企業(yè)須具備的五種高級VoIP功能
- 10數(shù)據(jù)中心節(jié)能7招
- 11對企業(yè)實施ERP項目“方法論”的反思
- 12沃爾瑪和RFID
- 13用ERP嚴控成本
- 14應(yīng)用軟件公司的全面預(yù)算管理
- 15中小企業(yè)五種主要推廣模式的優(yōu)劣比較
- 16SOA能否拯救 ERP
- 17中小企業(yè)仍是香餑餑
- 18中小企業(yè)網(wǎng)絡(luò)管理選全選好
- 19辦公OA系統(tǒng)可插入元素分單元格元素和懸浮元素
- 20ERP生產(chǎn)排程與精益生產(chǎn)模式
- 21一個IT項目經(jīng)理的“陰謀詭計”
- 22群碩軟件如何練出硬功夫
- 23ITPM助IT部門“整合供應(yīng)鏈”
- 24百安居的高效供應(yīng)鏈管理
- 25武漢OA辦公自動化軟件購買哪家又好又便宜?
- 26SMB從人力資源管理到信息化模擬案例
- 27保持應(yīng)用交付一致性和低成本
- 28印制電路行業(yè)ERP的三個難題
- 29SMB: 政府投資需用在刀刃上
- 30企業(yè)信息化找準自己的臺階
成都公司:成都市成華區(qū)建設(shè)南路160號1層9號
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓