很多企業(yè)用網(wǎng)管軟件很長時間,但還是覺得網(wǎng)管軟件并沒有帶來很大的便利。這是什么原因呢?筆者認(rèn)真分析了種種原因,最終發(fā)現(xiàn),原來是很多人并沒有把網(wǎng)管軟件事件管理用好。
什么是事件管理
首先向大家說明一下什么是事件管理。首先我們想象一下,網(wǎng)絡(luò)中各種IT元素也像人類這個社會一樣,每天都會發(fā)生各種各樣的事情,如某個網(wǎng)絡(luò)設(shè)備宕機(jī)了,某個服務(wù)器重啟了,或者某個網(wǎng)絡(luò)端口宕掉了,等等。因此一旦網(wǎng)絡(luò)中某些設(shè)備或者某些資源出現(xiàn)了問題,或者說設(shè)備的狀態(tài)發(fā)生了變化,就自然而然會產(chǎn)生事件,如端口由UP狀態(tài)變?yōu)镈own狀態(tài);或者反之,由Down狀態(tài)變?yōu)閁p狀態(tài),都會產(chǎn)生事件。
那么,我們再想象一下,如果沒有事件管理,網(wǎng)管將會怎樣?如果沒有事件管理的話,針對IT資源的管理永遠(yuǎn)將會是處于一片混亂,我們根本不知道過去整個網(wǎng)絡(luò)中到底發(fā)生了什么,我們只能夠通過網(wǎng)絡(luò)拓?fù)鋱D僅僅看到紅燈由綠變紅,而后又由紅變綠。這也就是為什么,很多人使用了網(wǎng)絡(luò)管理軟件后,總覺得網(wǎng)管軟件不好用的原因之一,因?yàn)樗X得只要看網(wǎng)絡(luò)拓?fù)鋱D就足夠了,而真正的驅(qū)動整個網(wǎng)絡(luò)管理的運(yùn)維流程和為管理維護(hù)人員產(chǎn)生短信通知等,都是事件管理的功勞。因此,說事件管理決定一個網(wǎng)管軟件的成功和失敗是不為過的。
那么,網(wǎng)管軟件事件管理主要在那里?好的網(wǎng)管軟件事件管理是如何做的呢?
網(wǎng)管軟件事件管理功能之一:根本故障原因定位
用戶可一覽當(dāng)前資源宕機(jī)影響的所有其他資源以及關(guān)鍵組件(例如,Oracle數(shù)據(jù)庫以及其關(guān)鍵組件表空間、數(shù)據(jù)文件等),快速確定事故處理的范圍,對事故資源以及受事故影響的其他資源采取挽救措施。
根本原因分析采用圖形化鏈形結(jié)構(gòu)展現(xiàn),從事故資源一直追溯到引發(fā)當(dāng)前事故的根本原因。用戶可一目了然的確定該次事故的根本原因,對癥下藥,快速解決事故。
一旦網(wǎng)絡(luò)中某個核心路由宕機(jī),導(dǎo)致某個網(wǎng)段內(nèi)的IT設(shè)備都不可訪問,如果沒有根源性分析的話,網(wǎng)管人員將會看到成百上千的故障事件,而有了根源性分析的話,管理人員只會收到一個故障事件的報告,網(wǎng)管人員只要恢復(fù)該故障事件即可解決問題。因此,一個好的事件管理能幫助網(wǎng)管人員減輕大量的工作量,而且能起到一劍封喉的作用,直接解決問題,省卻大量的故障查找時間和故障分析時間。
網(wǎng)管軟件事件管理功能之二:防止誤報
一個網(wǎng)管系統(tǒng)上線后,網(wǎng)管人員常常會收到大量的故障告警,而通過查找和對比,網(wǎng)管人員往往會發(fā)現(xiàn),其中95%的故障告警是垃圾告警,長此以往,真正的故障告警發(fā)生的時候,將會是狼來了,卻沒有人理會。這個是為什么呢?因?yàn)?,市面上,很多網(wǎng)管軟件都沒有做誤報過濾處理,如下圖,很多的時候,一個性能超標(biāo)事件常常是因?yàn)槟硞€偶然因素,會向上跳至超標(biāo)線,而后迅速恢復(fù)至正常。如果將該種超標(biāo)視為故障而報警的話,將會導(dǎo)致網(wǎng)管人員疲于奔命的效果,因此好的網(wǎng)管軟件當(dāng)某個指標(biāo)連續(xù)超標(biāo)N次后,才會告警。這個N是可以根據(jù)用戶的實(shí)際需求,而靈活調(diào)整的。
網(wǎng)管軟件事件管理功能之三:故障時間壓縮處理
當(dāng)一個服務(wù)器宕機(jī)后,如果在1個小時內(nèi)沒有恢復(fù)的話,很多網(wǎng)管軟件會每隔幾分鐘就不間斷的發(fā)出短信告警,但實(shí)際上運(yùn)維人員已經(jīng)在處理故障了,因此好的網(wǎng)管軟件根據(jù)這個特點(diǎn),實(shí)行了故障事件壓縮處理,當(dāng)故障事件產(chǎn)生后,只會發(fā)出一條告警事件,直到故障恢復(fù)。
網(wǎng)管軟件事件管理功能之四:關(guān)聯(lián)事件分析
很多時候,一個設(shè)備出現(xiàn)問題,往往不止是一個原因,因此成熟的網(wǎng)管軟件事件管理能夠?qū)⑿阅芄收虾投鄠€性能指標(biāo)事件相關(guān)聯(lián),方便管理人員進(jìn)行綜合分析。
問題指標(biāo)自動與事件相關(guān)聯(lián),用戶全面掌握該資源的可用性、性能或配置問題,不必花費(fèi)大量時間在Event Console手動查詢,提高了工作效率。用戶可一覽引起當(dāng)前問題的所有關(guān)聯(lián)指標(biāo),快速查明問題由具體哪個指標(biāo)引起,從而有針對性的解決問題。
網(wǎng)管軟件事件管理功能之五:支持自定義事件
故障事件產(chǎn)生后,是需要流程去解決的,因此必須為流程的啟動和工單的觸發(fā)預(yù)留足夠的接口,而好的網(wǎng)管軟件支持用戶自定義事件,為流程的整合提供了靈活的接口,方便網(wǎng)管軟件和IT運(yùn)維
流程管理軟件進(jìn)行整合。
總結(jié)
如果沒有事件管理,那么網(wǎng)管軟件將會徹底的淪為形象工程,因此,網(wǎng)管軟件事件管理功能決定了一個網(wǎng)管軟件的成功和失敗,好的事件管理將會幫助網(wǎng)管人員節(jié)省大量的時間,提高工作效率,并幫助管理人員排定處理事故的優(yōu)先級別,有序而高效的開展網(wǎng)絡(luò)管理工作。
【推薦閱讀】
◆泛普網(wǎng)管軟件專區(qū)
◆泛普IT運(yùn)維管理專區(qū)
◆中國網(wǎng)管軟件發(fā)展趨勢解析
◆網(wǎng)管軟件選擇五大基本標(biāo)準(zhǔn)
本文來自互聯(lián)網(wǎng),僅供參考