監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價(jià)咨詢管理系統(tǒng) | 工程設(shè)計(jì)管理系統(tǒng) | 甲方項(xiàng)目管理系統(tǒng) | 簽約案例 | 客戶案例 | 在線試用
X 關(guān)閉
重慶OA行業(yè)資訊

當(dāng)前位置:工程項(xiàng)目OA系統(tǒng) > 泛普各地 > 重慶OA系統(tǒng) > 重慶OA行業(yè)資訊

[原創(chuàng)]亡羊補(bǔ)牢,為時(shí)已晚

申請(qǐng)免費(fèi)試用、咨詢電話:400-8352-114

孫翊威

A集團(tuán)是全球知名的成衣制造商。一個(gè)偶然的機(jī)會(huì),我應(yīng)聘進(jìn)入了其在廣東某地的分廠。分廠承擔(dān)著整個(gè)集團(tuán)的輔料生產(chǎn)。2000年當(dāng)下流行的ERP遠(yuǎn)未成熟,那是MIS一統(tǒng)天下的時(shí)代。但在信息化建設(shè)方面,集團(tuán)還是緊跟著時(shí)代的腳步。一套輔料生產(chǎn)MIS系統(tǒng)支撐著輔料廠的全部日常業(yè)務(wù)運(yùn)行。如果這個(gè)MIS系統(tǒng)停止一個(gè)小時(shí),那么由此帶來(lái)的直接損失估計(jì)在200萬(wàn)左右.。

MIS系統(tǒng)的服務(wù)器硬件采購(gòu)自一家全球知名的廠商。雙PIII XEON 1G和36GX5個(gè)1+5陣列,RAID1(鏡象)+RIAD5(3個(gè)磁盤)另加外置SCSI HP磁帶備份機(jī),系統(tǒng) WINDOWS NT4.0和SQL7.0。購(gòu)買的服務(wù)是金牌服務(wù)。

我的任務(wù)重復(fù)而簡(jiǎn)單。每日早上9點(diǎn)到公司對(duì)磁帶機(jī)磁帶進(jìn)行更換。由于當(dāng)時(shí)我對(duì)服務(wù)器沒有管理權(quán)限,因此對(duì)服務(wù)器的檢查僅限于觀察各個(gè)信號(hào)燈(紅燈是故障,綠色燈是正常,黃色等正在讀寫操作或者初始化)是否正常。服務(wù)器維護(hù)由集團(tuán)系統(tǒng)維護(hù)人員每周一通過(guò)PC ANYWHERE遠(yuǎn)程連接檢查,包括磁帶機(jī)的備份。就這樣我的維護(hù)工作平淡無(wú)奇地持續(xù)了半年,直到有一天出了問(wèn)題。

那天,當(dāng)我象往常一樣將目光掃向服務(wù)器時(shí),紅色的燈光映入眼簾,而且一亮還是兩個(gè)。仔細(xì)看去紅燈亮在RAID5的位置,兩個(gè)紅燈代表三個(gè)磁盤中兩個(gè)出現(xiàn)了故障。平靜如水的心底泛起了點(diǎn)漣漪。按規(guī)定先打電話通知直接主管。畢竟昨天的數(shù)據(jù)還在,即使硬盤損壞采用手工補(bǔ)單的方式也可以找回丟失的數(shù)據(jù)。“還好我們有磁帶機(jī)備份,看來(lái)多一個(gè)備份,多一份心安吶。”我的心情并沒有因?yàn)檫@個(gè)故障受到什么影響。

我開始按步驟檢查服務(wù)器硬件是否屬于真的損壞。重新啟動(dòng)服務(wù)器確認(rèn)故障依舊。根據(jù)售后條款確認(rèn)服務(wù)器還處于硬件商提供的金牌服務(wù)周期內(nèi),我馬上撥打了硬件提供商的800電話尋求技術(shù)支持。他們根據(jù)我的現(xiàn)象描述提供了電話遠(yuǎn)程支持。我按此進(jìn)行操作:

打開磁盤陣列柜,再次啟動(dòng)服務(wù)器自檢至陣列柜。進(jìn)入NetRaid管理程序查看陣列信息,發(fā)現(xiàn)硬盤ID0與硬盤ID2狀態(tài)為Failed,運(yùn)用修改配置將硬盤ID0強(qiáng)制OnLine,重新啟動(dòng)服務(wù)器,在進(jìn)入NT前的硬件自檢時(shí),出現(xiàn)硬盤ID2,ID0依次閃紅燈,訪問(wèn)D盤失敗。第一次嘗試失敗。

接著第二次嘗試。x,q),Wd2o8[W5A打開磁盤陣列柜,啟動(dòng)服務(wù)器。進(jìn)入NetRaid管理程序選擇磁盤陣列,將陣列配置信息清空,然后新建磁盤陣列信息(不作初始化),并將硬盤ID2與ID0強(qiáng)制OnLine后,重新啟動(dòng)服務(wù)器,在進(jìn)入NT前的硬件自檢時(shí),問(wèn)題依舊。嘗試訪問(wèn)D盤再次以失敗結(jié)束。

事不過(guò)三,我打算做最后一次努力。關(guān)閉磁盤陣列柜,將磁盤陣列柜上的所有3塊硬盤全部拔除,啟動(dòng)服務(wù)器,正常進(jìn)入NT。打開磁盤陣列柜用NetRaid管理軟件,將硬盤ID0,ID1,ID2,進(jìn)行熱插拔,但在進(jìn)行至硬盤ID0,ID2時(shí)軟件檢測(cè)不到此硬盤。到這個(gè)時(shí)候我們意識(shí)到RAID5受到了最致命的情況,同時(shí)出現(xiàn)了2塊硬盤的故障。此時(shí),惟一的選擇就是啟動(dòng)IT處理應(yīng)急方案。我立即啟用備用服務(wù)器。因?yàn)閭溆脵C(jī)的數(shù)據(jù)庫(kù)沒有數(shù)據(jù),需要將磁帶機(jī)的備份數(shù)據(jù)導(dǎo)入。在場(chǎng)的同事都忙碌了起來(lái),著手準(zhǔn)備恢復(fù)最近一次磁帶機(jī)的備份數(shù)據(jù)。

“不對(duì)??!”負(fù)責(zé)將備份數(shù)據(jù)導(dǎo)入服務(wù)器的同事一聲驚呼讓大家的神經(jīng)緊張了起來(lái)。“怎么不對(duì)了?”“數(shù)據(jù)恢復(fù)過(guò)來(lái)的時(shí)間不對(duì),怎么是一個(gè)半月前的數(shù)據(jù)?”幾個(gè)腦袋湊到了只有十幾寸的顯示器前。幾雙眼睛仔仔細(xì)細(xì)地把恢復(fù)好的數(shù)據(jù)察了一遍。的確是一個(gè)半月前的數(shù)據(jù)。“是不是你拿錯(cuò)了磁帶?”一個(gè)同事問(wèn)我。“不會(huì),就這么大點(diǎn)地方又沒放到其他地方我怎么會(huì)拿錯(cuò)。”我自己也在奇怪著。

現(xiàn)在大家已經(jīng)沒有心思去追究這個(gè)問(wèn)題。我重新又復(fù)查了一遍,經(jīng)過(guò)詳細(xì)檢查15盒磁帶的內(nèi)容。發(fā)現(xiàn)最近有效數(shù)據(jù)的的確確是一個(gè)半月前的。隨后檢查服務(wù)器的備份機(jī)制,結(jié)果發(fā)現(xiàn)服務(wù)器的備份任務(wù)自一個(gè)半月前就停止工作了。汗,開始往外冒!

隨后,啟動(dòng)第二步IT應(yīng)急方案:恢復(fù)硬盤數(shù)據(jù)。

分廠領(lǐng)導(dǎo)和IT經(jīng)理帶上服務(wù)器驅(qū)車20多公里連夜趕到省城。聯(lián)系一家專業(yè)數(shù)據(jù)恢復(fù)公司。但是為時(shí)已晚。由于已經(jīng)按照800電話的技術(shù)指導(dǎo)做過(guò)REBUILD,硬盤上的數(shù)據(jù)無(wú)法再恢復(fù)。最后得到的結(jié)果是原先的數(shù)據(jù)區(qū)在NT4的系統(tǒng)里能看到所有文件名,但所有文件大小全為0K!知道這是一種什么感覺嗎?這就象一個(gè)即將被洪水沒頂?shù)娜?,向空中張著的雙手摸到了一根以為是“救命稻草”的真稻草。生的希望在瞬間又消逝了。想有感覺但來(lái)不及有感覺。

就在服務(wù)器送去搶救的第二天,廠里決定采用手工單輸入的方式恢復(fù)丟失的數(shù)據(jù)。一時(shí)間,全廠動(dòng)員通宵達(dá)旦,人人加班。這陣勢(shì)也是建廠以來(lái)少見的。加了三個(gè)周末我們才將丟失了一個(gè)半月的數(shù)據(jù)補(bǔ)全。

用“有驚無(wú)險(xiǎn)”四個(gè)字可以為這次事故畫上一個(gè)句號(hào)。畢竟數(shù)據(jù)最后毫發(fā)無(wú)損地恢復(fù)了。但是事后的責(zé)任追究并沒有因此結(jié)束。

1. 服務(wù)器在1個(gè)半月前已經(jīng)陸續(xù)出現(xiàn)過(guò)系統(tǒng)日志報(bào)警,但作為負(fù)責(zé)這個(gè)維護(hù)任務(wù)的管理員因自身業(yè)務(wù)比較繁忙(他同時(shí)還負(fù)責(zé)EXCHANGE EMAIL系統(tǒng)及其他大小10個(gè)系統(tǒng)的日常備份維護(hù)), 忽視了服務(wù)器的異常信息;

2. 我廠MIS服務(wù)器本身的條件比較好(相比總廠用了2-3年的設(shè)備,我們的設(shè)備才投入使用半年多的時(shí)間)。平時(shí)這臺(tái)服務(wù)器的業(yè)務(wù)壓力并不大。維護(hù)人員在前半年的維護(hù)周期設(shè)定在每周隨機(jī)檢查一次。事實(shí)證明這樣的規(guī)定沒有充分考慮到服務(wù)器可能存在的風(fēng)險(xiǎn);

3. RAID5磁盤在用3個(gè)磁盤做的時(shí)候磁盤的讀寫頻率非常高,由于公司是3班倒,系統(tǒng)是24小時(shí)運(yùn)行。導(dǎo)致其中2塊硬盤過(guò)早出現(xiàn)老化故障。

4. 機(jī)房環(huán)境比較差,不是標(biāo)準(zhǔn)機(jī)房,尤其是地面是瓷磚地面減震效果差。機(jī)房平時(shí)人員走動(dòng)頻繁(分公司機(jī)房和IT員工辦公室是在一處)

以上幾點(diǎn)的疏忽導(dǎo)致分廠在這次事故中直接損失在130萬(wàn),間接損失估計(jì)在800萬(wàn)左右。項(xiàng)目經(jīng)理無(wú)奈引咎辭職。雖然“亡羊補(bǔ)牢,為時(shí)已晚”,但從更長(zhǎng)遠(yuǎn)的角度看“亡羊補(bǔ)牢,未為晚也”??倧S在調(diào)查了具體情況之后做了一些處理:

1. 關(guān)鍵設(shè)備維護(hù)人員做了重新的分配,增加人手,把每項(xiàng)任務(wù)的責(zé)任落實(shí)到人;

2. 增加一些網(wǎng)絡(luò)管理軟件的應(yīng)用(OPENVIEW)并規(guī)范系統(tǒng)維護(hù)方式;

3. 考慮到RAID5的數(shù)據(jù)安全性不足問(wèn)題,服務(wù)器建RAID盡量采用RAID0+1 或者RAID 1,RAID5+HOT SPACE的方案;

4. 總公司所有的RAID5陣列作了一次系統(tǒng)大檢查(對(duì)所有磁盤進(jìn)行運(yùn)行年限,業(yè)務(wù)強(qiáng)度進(jìn)行風(fēng)險(xiǎn)評(píng)估)再此基礎(chǔ)上做一些業(yè)務(wù)的遷移和設(shè)備的更新;

5. 機(jī)房獨(dú)立,不再和人員辦公放一處,減少外部干擾;

6. 由于硬件提供商提供的服務(wù)器及其售后服務(wù)在此次事故中糟糕的表現(xiàn),公司在今后幾年的硬件建設(shè)中逐步放棄該公司設(shè)備。那年下半年從另一家全球知名硬件提供商陸續(xù)采購(gòu)了50萬(wàn)的服務(wù)器、終端等設(shè)備。

一個(gè)備份腳本的意外中止,帶來(lái)數(shù)以百萬(wàn)的損失。一次事故讓我不再敢小看IT中任何小事。雖然事后做了相應(yīng)的彌補(bǔ),但是亡羊補(bǔ)牢的事情還是越少越好。

發(fā)布:2007-03-25 10:24    編輯:泛普軟件 · xiaona    [打印此頁(yè)]    [關(guān)閉]
相關(guān)文章: