申請免費(fèi)試用、咨詢電話:400-8352-114
什么是BI? BI是Business Intelligence的英文縮寫,中文解釋為商務(wù)智能,用來幫助企業(yè)更好地利用數(shù)據(jù)提高決策質(zhì)量的技術(shù)集合,是從大量的數(shù)據(jù)中鉆取信息與知識的過程。簡單講就是業(yè)務(wù)、數(shù)據(jù)、數(shù)據(jù)價值應(yīng)用的過程。如下圖所示:
圖片1
從上圖可以看出,傳統(tǒng)的交易系統(tǒng)完成的是Business到Data的過程,而BI要做的事情是在Data的基礎(chǔ)上,讓Data產(chǎn)生價值,這個產(chǎn)生價值的過程就是Business Intelligence analyse的過程。如何實(shí)現(xiàn)Business Intelligence analyse的過程,從技術(shù)角度來說,是一個復(fù)雜的技術(shù)集,它包含ETL、DW、OLAP、Portal等,其應(yīng)用的邏輯流程如下圖所示:
圖片2
上圖流程,簡單的說就是把交易系統(tǒng)已經(jīng)發(fā)生過的數(shù)據(jù),通過ETL工具抽取到主題明確的數(shù)據(jù)倉庫中,OLAP后生成Cube或報表,透過Portal展現(xiàn)給用戶,用戶利用這些經(jīng)過分類(Classification)、聚集(Clustering)、描述和可視化(Description and Visualization)的數(shù)據(jù),支持業(yè)務(wù)決策。注意:(1) 不是產(chǎn)生決策,而利用分析后的數(shù)據(jù)支持決策,僅防誤解。(2) Cognos是BI展現(xiàn)工具中的一種?,F(xiàn)在就上述概要內(nèi)容作簡要說明如下:(1)BI的誕生隨著IT技術(shù)的進(jìn)步,傳統(tǒng)的業(yè)務(wù)交易系統(tǒng)有了長足的發(fā)展,已經(jīng)實(shí)現(xiàn)了業(yè)務(wù)信息化,每一筆業(yè)務(wù)數(shù)據(jù)都記錄在數(shù)據(jù)庫中,星轉(zhuǎn)斗移,累積了以TB為計量單位的業(yè)務(wù)數(shù)據(jù)記錄。也許你會問:這么多數(shù)據(jù),占用了很多存儲設(shè)備,耗費(fèi)存儲成本,卻又不經(jīng)常訪問,留著它有什么用處?可以給你肯定的回答,留著這些歷史數(shù)據(jù)意義巨大,挖掘業(yè)務(wù)的規(guī)律、支持決策。典型的案例有“尿片和啤酒”的故事。尿片和啤酒本來是兩樣不相干的東西,可是,有人就發(fā)現(xiàn),星期五在超市里購物的,購買尿片的年輕父親中有30%~40%的人同時購買啤酒。原來,星期五年輕的父親購買尿片時,還會為自己捎帶買啤酒,因?yàn)椋瞧谖迨歉骷译娨暸_轉(zhuǎn)播橄欖球賽的時間,于是,超市老板們就把尿片和啤酒捆綁銷售獲得了巨大成功。這個故事成了一個利用數(shù)據(jù)挖掘商業(yè)價值最大化的神話。由此看來,非常不關(guān)聯(lián)的兩樣?xùn)|西,通過海量的信息數(shù)據(jù)處理,可以挖掘出它們之間潛在的關(guān)聯(lián),將這種關(guān)聯(lián)商業(yè)化,就會得到意想不到的新業(yè)務(wù)或新的商業(yè)模式。到底該怎樣把這些占據(jù)大量存儲空間的數(shù)據(jù)的價值挖掘出來,讓這些數(shù)據(jù)從成本的消耗者變成利潤的促進(jìn)者呢?新的數(shù)據(jù)分析技術(shù)由此誕生了,完成了“數(shù)據(jù)”到“數(shù)據(jù)價值”轉(zhuǎn)換的環(huán)節(jié),同時給這項(xiàng)技術(shù)起了一個響亮而又神密的名字“BI”(Business Intelligence) (2)基本技術(shù)BI(Business Intelligence) 是一種運(yùn)用了數(shù)據(jù)倉庫、在線分析和數(shù)據(jù)挖掘等技術(shù)來處理和分析數(shù)據(jù)的嶄新技術(shù),目的是為企業(yè)決策者提供決策支持。這似乎是BI的官方定義,也是廣大BI玩家一成不變的宗旨,哪么BI技術(shù)涉及了哪些方面呢?從上圖圖(2)中,我們不難看出其核心技術(shù)中DW與OLAP。數(shù)據(jù)倉庫(Data Warehouse) 的官方定義是一個面向主題的(Subject Oriented)、集成的(Integrate)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。為什么要在操作型數(shù)據(jù)庫和 OLAP 之間加一層“數(shù)據(jù)倉庫”呢?說一千道一萬都計算機(jī)資源與效能惹的禍,操作型數(shù)據(jù)庫以快速響應(yīng)業(yè)務(wù)為主要目標(biāo),而OLAP的時候要占用大量的硬件資源,在OLAP的時候,業(yè)務(wù)操作很難快速響應(yīng),無法保證業(yè)務(wù)的順利進(jìn)行,從業(yè)務(wù)->數(shù)據(jù)->數(shù)據(jù)的價值的邏輯來看,沒有業(yè)務(wù)就談不上OLAP;零星分散的數(shù)據(jù)一般存在有多個應(yīng)用,對應(yīng)多個業(yè)務(wù)操作型數(shù)據(jù)庫,訪問效能極其低下。綜合上述資源與效能的問題,最高效的方法就是將數(shù)據(jù)先整合到數(shù)據(jù)倉庫中,而由OLAP應(yīng)用統(tǒng)一從數(shù)據(jù)倉庫里取數(shù),以解決快速響應(yīng)業(yè)務(wù)與OLAP的矛盾。但是,多了這么一層,不管ROLAP還是MOLAP都無法查看實(shí)時數(shù)據(jù),這并不影響B(tài)I的應(yīng)用,90%的BI應(yīng)用都不要求實(shí)時性,允許數(shù)據(jù)有滯后,這是決策支持系統(tǒng)的應(yīng)用特點(diǎn),這個滯后區(qū)間就是數(shù)據(jù)抽取工具工作及OLAP的時間。ETL,(Extract Transform Load)操作型業(yè)務(wù)數(shù)據(jù)庫(DB)到數(shù)據(jù)倉庫(DW)的過程稱之為ETL,它實(shí)現(xiàn)數(shù)據(jù)的抽取,傳輸及裝載工作,目前流行的工具有Informatica,DTS,SSIS等工具。OLAP,(On-Line Analytical Processing)即聯(lián)機(jī)分析處理,是 BI的一種全新的數(shù)據(jù)封裝方式,直接產(chǎn)物是報表或Cube,是使分析人員、管理人員或執(zhí)行人員能夠從多角度對信息進(jìn)行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)。OLAP的基本操作有鉆?。╮oll up和drill down)、切片(slice)和切塊(dice)、以及旋轉(zhuǎn)(pivot)、drill across、drill through等。Portal,是展現(xiàn)BI產(chǎn)物的平臺入口,BI的產(chǎn)物被放置在Portal上,用戶登錄這個Portal即可訪問數(shù)據(jù)。透過上述技術(shù),BI應(yīng)用DW中的海量數(shù)據(jù),OLAP(ROLAPMOLAP)加工成可讀性很強(qiáng)的報表信息或知識,展現(xiàn)給決策者,用這些報表信息或知識做為決策的依據(jù),由此來完成數(shù)據(jù)與價值的轉(zhuǎn)換。(3)應(yīng)用模式數(shù)據(jù)查詢是最簡單的 BI 應(yīng)用,輸出報表是BI最直接的產(chǎn)物,根據(jù)數(shù)據(jù)連接,加工過程及用途,應(yīng)用模式大致可以分為四種:格式報表;在線分析;數(shù)據(jù)可視化;數(shù)據(jù)挖掘。1、格式報表:帶格式的數(shù)據(jù)集合,如:交叉表等。2、在線分析:多維數(shù)據(jù)集合,如:Cube等。3、數(shù)據(jù)可視化:信息以盡可能多的形式展現(xiàn)出來,目的是使決策者通過圖形這種直觀的表現(xiàn)方式迅速獲得信息中蘊(yùn)藏的知識,如柱圖等。4、數(shù)據(jù)挖掘:從大量的數(shù)據(jù)中,抽取出潛在的、有價值的知識(模型或規(guī)則)的過程。分析方法:· 分類(Classification)· 估值(Estimation)· 預(yù)言(Prediction)· 相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)· 聚集(Clustering)· 描述和可視化(Description and Visualization)數(shù)據(jù)挖掘號稱能通過歷史數(shù)據(jù)的分析,預(yù)測客戶的行為,而事實(shí)上,客戶自己可能都不明確自己下一步要作什么。所以,數(shù)據(jù)挖掘的結(jié)果,沒有人們想象中神秘,它不可能是完全正確的??蛻舻男袨槭桥c社會環(huán)境相關(guān)連的,所以數(shù)據(jù)挖掘本身也受社會背景的影響。(4)社會背景中國擁有5000年的文化史,燦爛的文件讓日常報表也非常具有凝聚力,交錯縱橫,里外相嵌,格式詭異、規(guī)則古怪、數(shù)據(jù)集中而文名于世,讓無數(shù)報表工具折腰。BI概念是從歐美引進(jìn)的,現(xiàn)有的工具也多是歐美國家提供,中國是世界上報表最復(fù)雜的國家,報表設(shè)計風(fēng)格與這些國家有明顯的差別,BI工具制作的報表傾向于僅用一張報表說明一個問題,而中國的報表傾向于將盡可能多的問題集中在一張報表中,這種思路直接導(dǎo)致了BI工具應(yīng)用難度的提升。常用的BI 廠商和產(chǎn)品:ETL:Informatica,datastage,Kettle,SSIS,DTSDW:IBM DB2,Oracle,Sybase IQ,NCR Teradata 等等;OLAP: Cognos,Business Objects,MicroStrategy,Hyperion,IBM , SQL Server Analysis ServerData Mining:IBM,SAS,SPSS