監(jiān)理公司管理系統 | 工程企業(yè)管理系統 | OA系統 | ERP系統 | 造價咨詢管理系統 | 工程設計管理系統 | 簽約案例 | 購買價格 | 在線試用 | 手機APP | 產品資料
X 關閉

—元數據管理技術及應用現狀

申請免費試用、咨詢電話:400-8352-114

來源:泛普軟件 朋友老朱在最近驚喜地發(fā)現,在營業(yè)部的每周例會上,原先各部門針對每日用戶數的爭吵聲,現在逐漸銷聲匿跡了。

 

原來,老朱所在的這家電信運營商,最近剛剛驗收并啟用了一個元數據管理平臺工具。通過這一平臺,IT部門可以在那些曾經引發(fā)激烈爭吵的數字后面加上詳細的注解。這樣,即便各部門得出的當日用戶數數值不一樣,也能在注解中清楚地看到具體的差異在哪里。如此,自然再沒有了吵來吵去的必要。

 

元數據,最常見的定義是:“關于數據的數據”。更準確一點說:元數據是描述流程、信息和對象的數據。這些描述涉及像技術屬性(例如,結構和行為)這樣的特征、業(yè)務定義(包括字典和分類法)以及操作特征(如活動指標和使用歷史)。早在上世紀末,元數據的概念和相關工具就已經出現,但限于當時的數據量還不夠大,而元數據本身又包含太多的內容,以至于它并未得到充分利用。而在今天看來,元數據正在成為解決諸多數據問題時必須要抓住的一個“精髓”要素。

 

消弭爭吵

 

在此前一年中,老朱所在的那家電信運營商,各部門之間經常就每日用戶數這類問題的指標數值不一致而吵得面紅耳赤。其實,在其他電信公司或者其他行業(yè)中也都存在著類似問題。簡單來講,這些公司通過各個時期的IT建設,形成了很多個獨立分開的系統。以電信運營商為例,就有計費系統、網絡系統、OA系統、財會系統和客服系統等等。在這些系統中,存有不同的客戶信息,具體體現就是不同格式的表。

 

兩年前,公司的數據倉庫項目建設完成,本以為這會大步提升IT系統的“智能性”,沒想到,基層的反映卻是根本沒法用。而其中的原因就在于,數據質量沒法保證,也即:在業(yè)務邏輯上并不準確,各部門對于指標的定義不能統一。

 

以當日用戶數為例。對于這一指標,市場部、網絡部、計費部等部門給出的定義并不一樣。按照元數據技術的術語來講,就是在業(yè)務元數據上,大家對于業(yè)務的認識并不統一。比如:計費部門認為,一個用戶當天曾撥打電話,就可以計入到當日用戶數;而財務部門則認定,只有在發(fā)生費用之后才能計入;至于網絡部,則認為當天開機的用戶就可以算作當日用戶。如此一來,各部門的當日用戶數數值自然就不一樣:計費中心的系統顯示,當日用戶數有6000;市場部的系統顯示卻只有4000;到了財務部門的系統中,顯示僅有3000個。在這種情況下,擔負著業(yè)務壓力的業(yè)務人員很可能誰也說服不了對方來接受自己的數字,導致大家對數據倉庫系統本身的可信度也就打了折扣。

 

事實上,類似問題在目前已經建成的數據倉庫項目中還有很多。其中的一大難題就是,原先未能統一的定義導致了某種指標的不一致,而要搞清楚為什么不一致,就得反查數據倉庫中的這些表在一開始的時候是如何定義的,表與表之間的聯絡關系是怎樣的。這種反查工作自然要求IT部門的人員就得詳細查閱原先軟件的設計。但問題是,現在的軟件開發(fā)一般都是迭代式開發(fā),每個階段都有不同的人在做?;夭橐粋€表,很可能需要涉及到這個過程中的每一個開發(fā)人員。事實上,很少有人能做到這一點。即便費盡心機終于查到了,一個月的時間也過去了。

 

元數據管理平臺的建設就是為了避免繼續(xù)出現類似問題。在元數據管理平臺建成之后,其一,可以實現對技術元數據的抽取,把相關的字段放到平臺上來。在這個平臺上,就能清晰地看到這些表或字段之間的關聯關系,有一個很清晰的視圖。其二,還會把業(yè)務元數據抽取出來,確定要做哪些應用,就把相關的指標、流程在平臺上建立起來。把這些元數據抽取出來后,用戶可以通過平臺很方便地修改數據倉庫中的數據,調整業(yè)務中的統計指標等等。其三,就是要把技術元數據和業(yè)務元數據兩種數據對應起來。比如對于當日用戶數來講,它在數據倉庫中對應的都是哪些表,讓技術元數據和業(yè)務元數據聯系起來。這樣,在把各種定義統一之后,元數據管理平臺就可以給出一個更為詳細的指標。比如在數值之后做出注解,注明具體開機的有多少,發(fā)生費用的又有多少。如此,老朱所在公司的爭吵也就不復存在了。

 

第三方工具的魅力

 

雖然元數據至今尚未引起業(yè)界的廣泛重視,但是與元數據相關的管理工具其實早就存在,而專業(yè)的元數據管理工具則在2000年左右開始出現,比如像IBMCA、DAG、Informatica、BEA等公司都有自己專門的元數據管理工具。

 

總起來看,目前國內的元數據管理工具大概有三類。一是像IBM、CA等公司都提供的專門工具,比如IBM收購Ascential得到的Metastage,CA的DecisionBase都是如此;二是像DAG的Metacenter,它不依托于某項BI產品,是一種第三方的元數據管理工具;三是像亞信、石竹這樣的集成商也在開發(fā)自己的元數據管理工具。

 

“各種元數據管理工具有很多。理論上講,用戶可以用其中一種管理其他系統中的數據,比如選擇數據倉庫系統廠商提供的元數據管理工具來管理其他層面的元數據。但實際應用中的管理效果如何呢?一般情況是,這些專門工具管理自己本系統的元數據尚可,一旦跨系統管理,效果就不盡如人意了?!?亞信產品及解決方案咨詢部總監(jiān)薛森這樣表示。

 

從國內的實際應用來看,DAG的Metacenter這一工具使用最多,目前所看到的在電信、金融領域建設的元數據管理項目基本上都是應用了這一產品。至于像CA等公司的工具,在國內基本上沒有成功案例。記者在對CA公司提出采訪要求的時候,該公司在回復中則稱沒有合適人員接受采訪,看來像CA公司在元數據管理技術上似乎還比較滯后。

 

石竹商業(yè)智能軟件部產品支持經理薛勇認為,Metacenter能夠為很多用戶所采用,主要因為這一產品的幾項優(yōu)勢:一是它是第三方提供的工具。二是在技術上確有過人之處,可以實現動態(tài)元數據管理,實時獲取元數據。而其他非第三方工具可能對自己數據倉庫中的數據看得很快,但是對于其他系統就不行了。三是可以提供的應用多。比如像血統分析和影響分析、表重要程度和表無關程度分析等都可以提供。

 

此外,還有兩個產品使得SOA和元數據的緊密關系迅速凸顯出來。首先是IBM的WebSphere元數據服務器將于今年年底作為IBM WebSphere信息集成(WII)平臺Hawk版的組成部分正式上市。

 

WebSphere元數據服務器將為WII平臺中的產品提供元數據管理,并為其他IBM軟件品牌中的元數據項目提供通用的元數據服務基礎設施。同在今年底,WebMethods公司將在12月份發(fā)布的Fabric產品下一版本也融合了Cerebra公司的語義元數據管理功能,從而來為IT部門提供了軟件資源的單一視圖?;蛟S,只有當SOA戰(zhàn)略充分認識到元數據管理的重要性之后,企業(yè)信息資源的業(yè)務價值才能實現最大化。

元數據管理工具現狀一覽表

公司

產品

主要應用

主要問題

DAG (Data Advantage Group)

Metacenter

1. 系統維護:表或模型的修改

2. 應用分析:

·指標管理;·血統分析;·影響分析;·表重要程度分析;·表無關程度分析。

1. 整理元數據耗時費力;

2. 管理工具不能自動映射元數據管理;

3. 導入元數據范圍有限。

IBM

WebSphere元數據服務器;Metastage (Ascential)

Informatica

SuperGlue

WebMethods

語義元數據管理(Cerebra)

CA

DecisionBase

應用決定功能

 

“這樣一個平臺不是僅僅把元數據抽取出來,我們把元數據管理平臺定位為兩個應用層次?!眮喰女a品及解決方案咨詢部總監(jiān)薛森指出了目前元數據管理平臺的兩個主要應用層次,即系統維護和應用分析。從系統維護來看,元數據管理平臺使得數據倉庫以及業(yè)務系統中的各種修改變得省心省力。比如對數據庫中表的修改,小的數據倉庫模型的修改等等,都可以通過元數據管理平臺來實現。同時對數據倉庫、OLAP、ETL等各個層面進行修改。而在以前,這些工作需要DBA自己來完成。

 

那時雖然也有一些工具,但是都分散在不同的系統中。一個DBA要完成全部修改必須要求精通所有工具才能實現。而如果是多個DBA協作完成,同樣需要通知所有人在數據倉庫、OLAP、前端展現、ETL等系統中依次修改,耽誤時間不說,修改是否準確也不能保證,而業(yè)務在這個修改階段也會陷于停滯。從應用分析上看,目前可見的應用主要有三類。

 

其一,作為即席查詢工具做指標的管理,即通過基于元數據的指標管理,掌控各種指標的異常波動情況。據薛森介紹,像亞信公司建設的吉林移動的元數據管理平臺,現在就已經開放了一些接口給業(yè)務人員。他們只需通過拖拽一些業(yè)務元數據就可以得到他們想要的東西。比如,要找出某項業(yè)務的前十大用戶,業(yè)務人員通過元數據平臺提供的即席查詢工具,幾次操作就可得到結果。而在過去,這需要業(yè)務人員首先提出請求,然后計費中心會制作一個工單,再把工單傳給集成廠商,廠商再把這個工單分解開來,讓某人做ETL層,某人做OLAP層。等這些都做完,半個月的時間也就搭進去了。

 

當然,薛森也表示,目前這種應用接口還比較有限,因為如果每個業(yè)務人員都在用,數據倉庫就承受不住了。其二,血統分析和影響分析。血統分析是指,發(fā)現某報表中的指標不正常就需要查出問題可能出在哪里。通過血統圖就可以很快找出問題是在BOSS系統中,還是在ODS層或者是DW層中。影響分析則和血統圖相反,主要看在修改一個表之后,可能會影響到上游的哪些數據。其三,表重要程度分析和表無關程度分析。主要就是針對現在數據倉庫提供的表的數量太多(上萬個)。這些表中有的使用頻率特別高,就需要加倍小心,多做優(yōu)化。通過元數據管理平臺就可以列出不同重要程度的表。

 

據石竹商業(yè)智能軟件部產品支持經理薛勇介紹,目前,像四川移動的元數據管理平臺上,以上三類應用基本上都已存在。但是,他也表示,目前針對元數據管理平臺的應用大都還在探索階段。亞信薛森也認為,更重要的應用還在于更復雜的分析上。此外,據說目前國內迄今為止最為全面的一個元數據管理平臺項目正在中國銀行總行抓緊實施,現在尚未開始驗收,其中還將出現哪些新的應用尚且不得而知。

 

編看編想

 

不夠成熟,但足夠重要!

 

“你在做元數據管理平臺項目時,最大的工作量是花在哪里?”這是筆者對每位被訪者都會問的一個問題,而兩位采訪者不約而同提到的一點就是,整理元數據。事實上,這一問題也正彰顯著目前國內的元數據管理項目尚不夠成熟。

 

“說不成熟,是因為數據不成熟?!毖ι硎?。作為企業(yè),從一開始就沒有完整的規(guī)劃,比如當初指標的含義,現在幾乎都需要倒著往回推,要獲得那些元數據自然就比較困難。薛勇也認為,各部門都有各自的描述方式,比如對于男女,有的分成F和M,有的分成0和1。如果把這些整理出來,是個很麻煩的過程。而要克服這種困難,只能靠熬時間一點一點解決。而像管理工具本身的不成熟也是一個方面。薛勇就認為,目前的元數據管理工具還不能自動把不同系統元數據之間的關系自動映射出來,還需要人工去做。

 

此外,目前平臺導入的元數據范圍也還很有限。比如在電信企業(yè)中,大多僅僅導入了經營分析系統的元數據。而像BOSS系統,動輒都有幾千個業(yè)務控制點,導入元數據弄不好就要影響業(yè)務。也正是因為顧及到這一點,所以目前的元數據管理平臺只是選擇了在經營分析系統這樣一個準實時的分析系統上做試點,然后再逐步推廣。

 

總起來看,目前國內大型行業(yè)企業(yè)做元數據管理項目雖然不成熟,但是技術發(fā)展很快;見效雖然不快,但是早晚要做,而且早做比晚做遇到的困難相對要少些。對于那些有條件的大型行業(yè)用戶,早點入手無疑更好一些。(CCW-CNW)

發(fā)布:2007-04-23 09:38    編輯:泛普軟件 · xiaona    [打印此頁]    [關閉]

泛普石家莊OA快博其他應用

石家莊OA軟件 石家莊OA新聞動態(tài) 石家莊OA信息化 石家莊OA快博 石家莊OA行業(yè)資訊 石家莊軟件開發(fā)公司 石家莊門禁系統 石家莊物業(yè)管理軟件 石家莊倉庫管理軟件 石家莊餐飲管理軟件 石家莊網站建設公司