申請免費(fèi)試用、咨詢電話:400-8352-114
在復(fù)雜的數(shù)據(jù)中心基礎(chǔ)設(shè)施中,這種能力可以讓你通過豐富的經(jīng)驗(yàn)和自身的知識(shí)快速而準(zhǔn)確地發(fā)現(xiàn)問題之所在。這種能力只可意會(huì),不可言傳。沒有人會(huì)提供和“超自然故障排除”有關(guān)的認(rèn)證的。
但是,那些重量級(jí)的問題解決專家都會(huì)遵守一些通用的,不成文的規(guī)則。這是我自己使用的六個(gè)規(guī)則。注意,它們適用于大多數(shù)情況,但是并不是所有情況。
1、永遠(yuǎn)不要修改服務(wù)器或網(wǎng)絡(luò)設(shè)備的連接接口
雖然這聽上去很簡單,但是,令人吃驚的是,人們經(jīng)常會(huì)修改他們用于連接到某個(gè)設(shè)備的網(wǎng)絡(luò)接口的屬性,這種行為的失敗率很高。有時(shí),這條規(guī)則可能是可選的,但是,如果有一種方法可以排除潛在的隱患,何樂而不為呢?如果你不得不修改這個(gè)接口,可以在這個(gè)接口上配置一個(gè)輔助IP(secondary IP)——通過另外一個(gè)設(shè)備或子網(wǎng),串行控制臺(tái),KVM等來連接。如果設(shè)備放在遠(yuǎn)程的辦公室里(那里沒有設(shè)備管理系統(tǒng)職員),那么這絕對是一條真理。
2、保證總是有辦法回到原點(diǎn)
無論何時(shí),只要有可能的話,都要提供一種可以把問題恢復(fù)到原始狀態(tài)的方法。這意味著,在對故障磁盤做任何修改以前,應(yīng)該為這個(gè)故障磁盤做一個(gè)映像,備份整個(gè)目錄結(jié)構(gòu)(你不可能知道你以后需要哪些文件,這樣可以以防萬一),或者,在你胡亂擺弄一個(gè)已經(jīng)出現(xiàn)故障的操作系統(tǒng)以前,應(yīng)該在物理服務(wù)器上抽取出這塊磁盤的RAID1陣列。當(dāng)然,在虛擬機(jī)環(huán)境下,這會(huì)更加容易一些,因?yàn)槟憧梢院唵蔚刈鲆粋€(gè)快照。
3、文檔,文檔,還是文檔
在所有這些規(guī)則中,這條規(guī)則也許是大家最少遵守的規(guī)則了。毫無疑問,應(yīng)該把一個(gè)問題和解決方法文檔化。當(dāng)你處在混亂狀態(tài)之中的時(shí)候,你的解決方法也許并不明智。這就是說,當(dāng)一個(gè)問題塵埃落定以后,要保留一份“尸檢報(bào)告”,通過這份報(bào)告,你可以重新檢查當(dāng)時(shí)那個(gè)解決方案采取的步驟和途徑。把它寫下來,然后把它保存在安全的地方,最好是放到公司內(nèi)部的wiki上;并且,應(yīng)該備份到幾個(gè)不同的地方。
4、在設(shè)備管理系統(tǒng)領(lǐng)域,不存在魔法,但是卻存在幸運(yùn)
就像 Thomas Jefferson 說的那樣:“我發(fā)現(xiàn)我工作的越努力,我就越幸運(yùn)。”在設(shè)備管理系統(tǒng)領(lǐng)域,也是這樣的。你花費(fèi)越多的時(shí)間來研究你的基礎(chǔ)設(shè)施,關(guān)注路由器,交換機(jī),服務(wù)器和其他設(shè)備的特定的工作條件,你的基礎(chǔ)設(shè)施就會(huì)運(yùn)行的越流暢。這些日常工作可以讓你在問題的早期階段就發(fā)現(xiàn)這些問題,當(dāng)問題真的發(fā)生的時(shí)候,你可以更加快速地作出反應(yīng)。另外,在設(shè)備管理系統(tǒng)領(lǐng)域,有很多種方法可以“制造”幸運(yùn)。例如,使用一些工具,讓網(wǎng)絡(luò)設(shè)備配置的備份自動(dòng)化;如果使用這種方法的話,當(dāng)你的交換機(jī)發(fā)瘋的時(shí)候,你可以在幾分鐘內(nèi)恢復(fù)它,而不是幾個(gè)小時(shí)。
5、在你修改每個(gè)配置文件以前,要對它們進(jìn)行備份
這條規(guī)則只適用于Unix服務(wù)器和幾乎各方面的配置都提供了配置文件的網(wǎng)絡(luò)設(shè)備。在你弄壞敏感的配置以前,首先對交換機(jī)和TFTP(Trivial File Transfer Protocol)主機(jī)的配置文件進(jìn)行備份。在Unix系統(tǒng)上,可以簡單地把something.conf cp到 something.conf.orig。
在必要的時(shí)候,如果想恢復(fù)到過去那個(gè)良好的狀態(tài),只需要簡單地把文件拷貝回去,然后重啟那個(gè)服務(wù)就可以了。因?yàn)樽员淼拇嬖诤蚖indows喜歡把簡單的概念復(fù)雜化,所以,在Windows系統(tǒng)上,這通常是不可能的。即便如此,你還是可以在胡亂擺弄注冊表以前,對注冊表進(jìn)行備份,這樣的話,如果天下大亂了。你可以重新導(dǎo)入備份的注冊表文件。記?。寒?dāng)你對Windows注冊表進(jìn)行修改的時(shí)候,服務(wù)器的生命就掌握在你的手中。
6、監(jiān)控,監(jiān)控,還是監(jiān)控
一點(diǎn)點(diǎn)預(yù)防工作就可以省去一個(gè)月的周末加班時(shí)間。你應(yīng)該對你的數(shù)據(jù)中心的方方面面進(jìn)行監(jiān)控,從房間的溫度,機(jī)架,和服務(wù)器,到服務(wù)器進(jìn)程檢查,正常運(yùn)行時(shí)間檢查......你還應(yīng)該為所有網(wǎng)絡(luò)設(shè)備構(gòu)建一個(gè)集中式的日志系統(tǒng),除此之外,你還應(yīng)該安裝一些趨勢分析工具來監(jiān)控帶寬利用率,溫度,磁盤空間的使用率,和其他的參數(shù)。當(dāng)這些參數(shù)超過正常的閥值的時(shí)候,那些監(jiān)控工具應(yīng)該通過必要的手段來通知你。
如果在一個(gè)數(shù)據(jù)庫由于分區(qū)過滿而被破壞的一個(gè)小時(shí)以前,能收到一個(gè)email或短信,那么可以省去無數(shù)的工作時(shí)間和宕機(jī)時(shí)間。對你的數(shù)據(jù)中心進(jìn)行監(jiān)控刻不容緩。
這些規(guī)則不僅僅是需要遵守的規(guī)則——在你日常的工作中,這些規(guī)則應(yīng)該是貫徹始終的。在設(shè)備管理系統(tǒng)領(lǐng)域中,對于許多人來說,它們是核心理念,但是對于其他人來說,它們是神秘的——有點(diǎn)像忍者。
【推薦閱讀】
◆設(shè)備管理軟件軟件專區(qū)
◆網(wǎng)絡(luò)安全管理十大注意事項(xiàng)
◆維護(hù)服務(wù)器安全保護(hù)備份最重要
◆中小企業(yè)網(wǎng)絡(luò)安全問題令人擔(dān)憂
◆設(shè)備管理系統(tǒng)運(yùn)維管理專區(qū)
本文來自互聯(lián)網(wǎng),僅供參考