監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價咨詢管理系統(tǒng) | 工程設(shè)計管理系統(tǒng) | 簽約案例 | 購買價格 | 在線試用 | 手機APP | 產(chǎn)品資料
X 關(guān)閉

修復(fù)微軟Hyper-V虛擬機集群問題

申請免費試用、咨詢電話:400-8352-114

文章來源:泛普軟件

這個系列包含四個部分,主要專注于微軟Hyper-V虛擬機集群問題的解決方法。所提到的問題及解決辦法包含了來自微軟、硬件廠商和個人的技巧,這些技巧有助于虛擬環(huán)境的總體穩(wěn)定性。

這里邊的許多技巧不僅僅適用于Hyper-V,也可能適用于VMware和Citrix XenServer。第一部分涉及硬件、驅(qū)動、補丁和配置等四類可能引起虛擬化環(huán)境不穩(wěn)定的因素。

所有的這些虛擬機問題都曾經(jīng)折騰過我,導(dǎo)致我的Hyper-V集群環(huán)境變得不穩(wěn)定。我的目的就是告訴你這些問題以便你能未雨綢繆。

固件升級

升級固件對穩(wěn)定性至關(guān)重要。在集群模式下,這不僅僅是BIOS的更新,因為你必須考慮到完整的數(shù)據(jù)路徑,因此這要比單機環(huán)境復(fù)雜得多。一個固件的升級可以影響B(tài)IOS、HBA卡、光纖交換機和SAN存儲控制器。

當(dāng)我把Hyper-V遷移到刀片服務(wù)器之后,發(fā)現(xiàn)有很多因素可能影響虛擬化環(huán)境的穩(wěn)定性。相比機架式環(huán)境,刀片環(huán)境中,刀片機箱需要更新大量部件的固件。因此,當(dāng)我要升級某個部件的固件時,我不得不考慮該固件是否與環(huán)境中其他的、舊的固件有關(guān)。

以前,我發(fā)現(xiàn)我們的HP Virtual Connect網(wǎng)絡(luò)設(shè)備會自動重置。而機箱內(nèi)的其他刀片卻沒有這個問題。不過,當(dāng)主網(wǎng)絡(luò)和集群心跳失去連接30到45秒的情況下,Hyper-V集群則會出現(xiàn)問題。表現(xiàn)出好像有故障產(chǎn)生,而其他的集群節(jié)點會將虛擬機遷移到其余的主機上。

查看HP的文檔后發(fā)現(xiàn),Virtual Connect網(wǎng)絡(luò)設(shè)備的固件有一個缺陷,不過,在更新該固件之前,BIOS、HBA、HP Onboard Administrator和Virtual Connect光纖交換機的固件都需要更新。當(dāng)時一共有六個機箱,花了三個星期的時間,還好,更新完后,系統(tǒng)又穩(wěn)定起來了。

主機驅(qū)動

對現(xiàn)有的硬件來說,新的驅(qū)動總是會出現(xiàn)。雖然我不會僅僅因為新版本的驅(qū)動出來了就趕緊去更新,不過,有的情況確實需要更新。通常,當(dāng)新的固件更新之后,就需要更新與之對應(yīng)的許多驅(qū)動。

與固件升級相似,集群環(huán)境下的驅(qū)動升級也是關(guān)聯(lián)頗多。請記?。涸诩耗J较?,驅(qū)動的一致性極為重要。

就拿FC HBA卡或者iSCSI驅(qū)動來說。特別是每一個連接到MPIO架構(gòu)中的卡。當(dāng)使用EMC PowerPath或者HP MPIO架構(gòu)時,為所有集群節(jié)點匹配與MPIO級別對應(yīng)的驅(qū)動很重要。

在某些情況下,混用和匹配MPIO級別驅(qū)動會引起集群的Failover功能失效。不僅HBA卡驅(qū)動會引起這個問題,當(dāng)集群中網(wǎng)絡(luò)或者電源管理模塊的驅(qū)動不一致時,也會發(fā)生其他的問題。

以前,我為集群增加節(jié)點時,曾經(jīng)遇到過這些問題。那時,最新的MPIO、HBA和網(wǎng)絡(luò)驅(qū)動都安裝好了??墒牵屡f節(jié)點驅(qū)動的不匹配導(dǎo)致我的虛擬化集群環(huán)境不穩(wěn)定并且有不可預(yù)知的問題。

那么,我的建議是什么? 為每一個節(jié)點安裝與目前固件匹配的同一版本的驅(qū)動。有時,大部分最新的固件更新都是最好的。我傾向于堅持用穩(wěn)定的版本。那就是說,如果因為某些原因要安裝新的驅(qū)動,就要試著立刻為每個主機都安裝該驅(qū)動。

補丁

服務(wù)器的虛擬化仍然處于成長中。盡管廠商的推動為虛擬化環(huán)境帶來了很多新的功能,但是這些新的特色和功能不可避免的有缺陷從而導(dǎo)致問題發(fā)生。雖然廠商們會經(jīng)常發(fā)布補丁,但是,有的時候,你很難找到這些補丁。

在我的Hyper-V集群中,僅有少數(shù)的案例需要較長的電話溝通來解決。大部分案例,我都會在問題發(fā)生之前找到補丁,或者給微軟的技術(shù)支持一個簡短的電話就可以搞定。

以下是我尋找補丁的三個站點:

Microsoft Hyper-v

VMware

Citrix System’s XenServer

這些站點都非常有用,不過,微軟支持博客通常更有用。下次,當(dāng)你與微軟的技術(shù)支持通電話的時候,你可以問下他們是否有一個博客給出了你所遇到的問題的解決方法。另外,有一些對最新補丁的解析和增強會來自技術(shù)前沿的專家。這里是幾個我收藏的博客:

Jonathan's Virtual Blog

Hyper-V Notes From the Field

Energized about IT

無論是集群還是單機,從你的虛擬化軟件提供商獲取最新的主機或者虛擬機補丁都是非常重要的。這個技術(shù)進(jìn)展很快,因為產(chǎn)品bug造成主機故障將會是災(zāi)難性的。如果你想在你的虛擬化環(huán)境中增加一個復(fù)雜的集群,你必須定期尋找新的補丁。

自動服務(wù)器恢復(fù)(ASR)重啟

ASR是一種服務(wù)器重啟機制,當(dāng)安裝代理感知到系統(tǒng)故障(比如,內(nèi)部錯誤或者OS自鎖)的時候,它會以Gracefully的模式重啟服務(wù)器。如果你不使用Hyper-V,大部分廠商都有一個形似的功能。

我要”揭露”的ASR功能來自于HP硬件,許多次錯誤的ASR行為導(dǎo)致我的主機集群冷斷電(在HP硬件上,有一些擁有相同問題的其他例子)。為此,我禁用了ASR。該技術(shù)的可靠性遭到了懷疑,我也因該功能不理會是否有虛擬機在運行就蠻橫的關(guān)掉服務(wù)器而對它喪失了信心。

在我的印象中,HP ProLiant BL460c虛擬主機很穩(wěn)定。內(nèi)存芯片可能會失效,驅(qū)動也會間歇性的失效;另一方面,它的性能很不錯。而HP附送的軟件則是另外一回事。我建議在BIOS中禁止ASR和激發(fā)重啟的代理,從而提高虛擬主機集群的可靠性。

最后,匹配固件和驅(qū)動,升級補丁,禁止ASR重啟將會為你的虛擬集群主機提供一個穩(wěn)定的基礎(chǔ)。在本系列的其他三個部分中,我將介紹其他的Hyper-V集群問題。雖然一些問題是產(chǎn)品缺陷,一些是管理錯誤和失誤。無論如何,我將提供一些技巧避免這些問題和虛擬機停機。

發(fā)布:2007-04-21 11:10    編輯:泛普軟件 · xiaona    [打印此頁]    [關(guān)閉]
相關(guān)文章:
長沙OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設(shè)南路160號1層9號

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢:400-8352-114

加微信,免費獲取試用系統(tǒng)

QQ在線咨詢

泛普長沙OA軟件行業(yè)資訊其他應(yīng)用

長沙OA 長沙新聞動態(tài) 長沙OA信息化 長沙OA快博 長沙OA軟件行業(yè)資訊 長沙軟件開發(fā)公司 長沙門禁系統(tǒng) 長沙物業(yè)管理軟件 長沙倉庫管理軟件 長沙餐飲管理軟件 長沙網(wǎng)站建設(shè)公司