監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價咨詢管理系統(tǒng) | 工程設(shè)計(jì)管理系統(tǒng) | 簽約案例 | 購買價格 | 在線試用 | 手機(jī)APP | 產(chǎn)品資料
X 關(guān)閉

修復(fù)微軟Hyper-V虛擬機(jī)集群問題

申請免費(fèi)試用、咨詢電話:400-8352-114

文章來源:泛普軟件

這個系列包含四個部分,主要專注于微軟Hyper-V虛擬機(jī)集群問題的解決方法。所提到的問題及解決辦法包含了來自微軟、硬件廠商和個人的技巧,這些技巧有助于虛擬環(huán)境的總體穩(wěn)定性。

這里邊的許多技巧不僅僅適用于Hyper-V,也可能適用于VMware和Citrix XenServer。第一部分涉及硬件、驅(qū)動、補(bǔ)丁和配置等四類可能引起虛擬化環(huán)境不穩(wěn)定的因素。

所有的這些虛擬機(jī)問題都曾經(jīng)折騰過我,導(dǎo)致我的Hyper-V集群環(huán)境變得不穩(wěn)定。我的目的就是告訴你這些問題以便你能未雨綢繆。

固件升級

升級固件對穩(wěn)定性至關(guān)重要。在集群模式下,這不僅僅是BIOS的更新,因?yàn)槟惚仨毧紤]到完整的數(shù)據(jù)路徑,因此這要比單機(jī)環(huán)境復(fù)雜得多。一個固件的升級可以影響B(tài)IOS、HBA卡、光纖交換機(jī)和SAN存儲控制器。

當(dāng)我把Hyper-V遷移到刀片服務(wù)器之后,發(fā)現(xiàn)有很多因素可能影響虛擬化環(huán)境的穩(wěn)定性。相比機(jī)架式環(huán)境,刀片環(huán)境中,刀片機(jī)箱需要更新大量部件的固件。因此,當(dāng)我要升級某個部件的固件時,我不得不考慮該固件是否與環(huán)境中其他的、舊的固件有關(guān)。

以前,我發(fā)現(xiàn)我們的HP Virtual Connect網(wǎng)絡(luò)設(shè)備會自動重置。而機(jī)箱內(nèi)的其他刀片卻沒有這個問題。不過,當(dāng)主網(wǎng)絡(luò)和集群心跳失去連接30到45秒的情況下,Hyper-V集群則會出現(xiàn)問題。表現(xiàn)出好像有故障產(chǎn)生,而其他的集群節(jié)點(diǎn)會將虛擬機(jī)遷移到其余的主機(jī)上。

查看HP的文檔后發(fā)現(xiàn),Virtual Connect網(wǎng)絡(luò)設(shè)備的固件有一個缺陷,不過,在更新該固件之前,BIOS、HBA、HP Onboard Administrator和Virtual Connect光纖交換機(jī)的固件都需要更新。當(dāng)時一共有六個機(jī)箱,花了三個星期的時間,還好,更新完后,系統(tǒng)又穩(wěn)定起來了。

主機(jī)驅(qū)動

對現(xiàn)有的硬件來說,新的驅(qū)動總是會出現(xiàn)。雖然我不會僅僅因?yàn)樾掳姹镜尿?qū)動出來了就趕緊去更新,不過,有的情況確實(shí)需要更新。通常,當(dāng)新的固件更新之后,就需要更新與之對應(yīng)的許多驅(qū)動。

與固件升級相似,集群環(huán)境下的驅(qū)動升級也是關(guān)聯(lián)頗多。請記住:在集群模式下,驅(qū)動的一致性極為重要。

就拿FC HBA卡或者iSCSI驅(qū)動來說。特別是每一個連接到MPIO架構(gòu)中的卡。當(dāng)使用EMC PowerPath或者HP MPIO架構(gòu)時,為所有集群節(jié)點(diǎn)匹配與MPIO級別對應(yīng)的驅(qū)動很重要。

在某些情況下,混用和匹配MPIO級別驅(qū)動會引起集群的Failover功能失效。不僅HBA卡驅(qū)動會引起這個問題,當(dāng)集群中網(wǎng)絡(luò)或者電源管理模塊的驅(qū)動不一致時,也會發(fā)生其他的問題。

以前,我為集群增加節(jié)點(diǎn)時,曾經(jīng)遇到過這些問題。那時,最新的MPIO、HBA和網(wǎng)絡(luò)驅(qū)動都安裝好了??墒牵屡f節(jié)點(diǎn)驅(qū)動的不匹配導(dǎo)致我的虛擬化集群環(huán)境不穩(wěn)定并且有不可預(yù)知的問題。

那么,我的建議是什么? 為每一個節(jié)點(diǎn)安裝與目前固件匹配的同一版本的驅(qū)動。有時,大部分最新的固件更新都是最好的。我傾向于堅(jiān)持用穩(wěn)定的版本。那就是說,如果因?yàn)槟承┰蛞惭b新的驅(qū)動,就要試著立刻為每個主機(jī)都安裝該驅(qū)動。

補(bǔ)丁

服務(wù)器的虛擬化仍然處于成長中。盡管廠商的推動為虛擬化環(huán)境帶來了很多新的功能,但是這些新的特色和功能不可避免的有缺陷從而導(dǎo)致問題發(fā)生。雖然廠商們會經(jīng)常發(fā)布補(bǔ)丁,但是,有的時候,你很難找到這些補(bǔ)丁。

在我的Hyper-V集群中,僅有少數(shù)的案例需要較長的電話溝通來解決。大部分案例,我都會在問題發(fā)生之前找到補(bǔ)丁,或者給微軟的技術(shù)支持一個簡短的電話就可以搞定。

以下是我尋找補(bǔ)丁的三個站點(diǎn):

Microsoft Hyper-v

VMware

Citrix System’s XenServer

這些站點(diǎn)都非常有用,不過,微軟支持博客通常更有用。下次,當(dāng)你與微軟的技術(shù)支持通電話的時候,你可以問下他們是否有一個博客給出了你所遇到的問題的解決方法。另外,有一些對最新補(bǔ)丁的解析和增強(qiáng)會來自技術(shù)前沿的專家。這里是幾個我收藏的博客:

Jonathan's Virtual Blog

Hyper-V Notes From the Field

Energized about IT

無論是集群還是單機(jī),從你的虛擬化軟件提供商獲取最新的主機(jī)或者虛擬機(jī)補(bǔ)丁都是非常重要的。這個技術(shù)進(jìn)展很快,因?yàn)楫a(chǎn)品bug造成主機(jī)故障將會是災(zāi)難性的。如果你想在你的虛擬化環(huán)境中增加一個復(fù)雜的集群,你必須定期尋找新的補(bǔ)丁。

自動服務(wù)器恢復(fù)(ASR)重啟

ASR是一種服務(wù)器重啟機(jī)制,當(dāng)安裝代理感知到系統(tǒng)故障(比如,內(nèi)部錯誤或者OS自鎖)的時候,它會以Gracefully的模式重啟服務(wù)器。如果你不使用Hyper-V,大部分廠商都有一個形似的功能。

我要”揭露”的ASR功能來自于HP硬件,許多次錯誤的ASR行為導(dǎo)致我的主機(jī)集群冷斷電(在HP硬件上,有一些擁有相同問題的其他例子)。為此,我禁用了ASR。該技術(shù)的可靠性遭到了懷疑,我也因該功能不理會是否有虛擬機(jī)在運(yùn)行就蠻橫的關(guān)掉服務(wù)器而對它喪失了信心。

在我的印象中,HP ProLiant BL460c虛擬主機(jī)很穩(wěn)定。內(nèi)存芯片可能會失效,驅(qū)動也會間歇性的失效;另一方面,它的性能很不錯。而HP附送的軟件則是另外一回事。我建議在BIOS中禁止ASR和激發(fā)重啟的代理,從而提高虛擬主機(jī)集群的可靠性。

最后,匹配固件和驅(qū)動,升級補(bǔ)丁,禁止ASR重啟將會為你的虛擬集群主機(jī)提供一個穩(wěn)定的基礎(chǔ)。在本系列的其他三個部分中,我將介紹其他的Hyper-V集群問題。雖然一些問題是產(chǎn)品缺陷,一些是管理錯誤和失誤。無論如何,我將提供一些技巧避免這些問題和虛擬機(jī)停機(jī)。

發(fā)布:2007-04-21 11:10    編輯:泛普軟件 · xiaona    [打印此頁]    [關(guān)閉]
相關(guān)文章:
長沙OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設(shè)南路160號1層9號

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢:400-8352-114

加微信,免費(fèi)獲取試用系統(tǒng)

QQ在線咨詢

泛普長沙OA軟件行業(yè)資訊其他應(yīng)用

長沙OA 長沙新聞動態(tài) 長沙OA信息化 長沙OA快博 長沙OA軟件行業(yè)資訊 長沙軟件開發(fā)公司 長沙門禁系統(tǒng) 長沙物業(yè)管理軟件 長沙倉庫管理軟件 長沙餐飲管理軟件 長沙網(wǎng)站建設(shè)公司