監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價(jià)咨詢管理系統(tǒng) | 工程設(shè)計(jì)管理系統(tǒng) | 簽約案例 | 購買價(jià)格 | 在線試用 | 手機(jī)APP | 產(chǎn)品資料
X 關(guān)閉

別再讓數(shù)據(jù)中心“中暑”

申請免費(fèi)試用、咨詢電話:400-8352-114

來源:泛普軟件

前幾日,新浪“任你郵”的幾則公告拉響了數(shù)據(jù)中心的“中暑”警報(bào)。然而,我們發(fā)現(xiàn)在“中暑”的原因上,新浪與為其提供托管服務(wù)的中國網(wǎng)通北京通信數(shù)據(jù)中心的解釋卻不盡相同。首先,對(duì)機(jī)房“溫度”的描述并不一致。

因?yàn)閿?shù)據(jù)中心機(jī)房溫度有著嚴(yán)格的設(shè)定,基本都在20~25攝氏度之間,如果是網(wǎng)通機(jī)房溫度達(dá)到41~43攝氏度,機(jī)柜內(nèi)的溫度就不堪想象了。而無論服務(wù)器還是存儲(chǔ)設(shè)備,一般都是進(jìn)風(fēng)口的溫度略高于20攝氏度,出風(fēng)口的溫度則增加10余攝氏度,因?yàn)闅饬鲾y帶出來了系統(tǒng)運(yùn)行中產(chǎn)生的熱量。因此,網(wǎng)通所稱“高密度磁盤陣列組的出風(fēng)口”似乎更為精確。

其次,導(dǎo)致“溫度”過高的原因解釋也不同。北京通信公司市場部唐柳明的解釋是“碼放有些問題”。通常一個(gè)機(jī)架上只能放100套設(shè)備,但是新浪放了260套。而新浪公關(guān)部高級(jí)經(jīng)理孟翔鵬的說明是:“整體環(huán)境溫度不是新浪能夠控制的,受國內(nèi)整體電力控制等各方面問題的影響,機(jī)房空調(diào)的制冷性能有待提高。目前,新浪正在積極配合網(wǎng)通改善和解決機(jī)房空調(diào)的制冷性。”為了推遲、縮短服務(wù)中斷時(shí)間,新浪稱“己在力所能及的范圍內(nèi)進(jìn)行了各種努力,包括對(duì)設(shè)備進(jìn)行人工降溫和物理降溫各種手段。

事實(shí)上,“高溫”導(dǎo)致服務(wù)中斷的現(xiàn)象并非僅此一家。6月30日,重慶電信服務(wù)器突然“癱瘓”,渝中區(qū)、沙坪壩區(qū)、江北區(qū)電信用戶無法打開任何網(wǎng)頁。該市一專業(yè)人士推測,由于天氣高溫,機(jī)房散熱容易出現(xiàn)問題,導(dǎo)致出現(xiàn)設(shè)備故障。那么,現(xiàn)在對(duì)于用戶來講,更重要的是如何從技術(shù)上避免此類事件的再次發(fā)生!

存儲(chǔ)散熱都說“和技術(shù)無關(guān)”

網(wǎng)通的解釋引發(fā)了一個(gè)新的話題,即存儲(chǔ)散熱。幾位存儲(chǔ)技術(shù)人員都表示不太了解散熱問題,可見這個(gè)話題有多新。不過幾位在細(xì)一琢磨后,陳述的觀點(diǎn)又非常一致:存儲(chǔ)散熱無關(guān)(存儲(chǔ))技術(shù),但非常重要。

惠普存儲(chǔ)產(chǎn)品經(jīng)理張建軍表示,存儲(chǔ)設(shè)備大多采取標(biāo)準(zhǔn)散熱技術(shù),有專門的散熱工藝,一般的存儲(chǔ)技術(shù)人員并不了解。但他補(bǔ)充說,存儲(chǔ)設(shè)備對(duì)場地環(huán)境要求很高,用戶對(duì)散熱和通風(fēng)問題應(yīng)該非常重視。和很多存儲(chǔ)廠商做法一樣,惠普的工程師在設(shè)備安裝前,就會(huì)到機(jī)房現(xiàn)場去觀察是否有良好的散熱、通風(fēng)條件,并在方案書中給出詳細(xì)建議;同時(shí)惠普還提供機(jī)房場地評(píng)估服務(wù)。

EMC的采訪回應(yīng)則是在經(jīng)過“二傳”之后落到了售后工程師李俊身上,理由是“他經(jīng)常到用戶現(xiàn)場,對(duì)于存儲(chǔ)散熱有實(shí)際了解?!?/FONT>

李俊給了記者一些量化的概念:EMC低端存儲(chǔ)設(shè)備的功率通常是在200~300瓦;而高端存儲(chǔ)設(shè)備通常是一個(gè)機(jī)柜,在滿配的情況下整個(gè)機(jī)柜功率在1.5千瓦左右;而EMC最高端的存儲(chǔ)設(shè)備整個(gè)機(jī)柜的功率可達(dá)到6千瓦。功率越高,單位時(shí)間內(nèi)的散熱就越大。用戶在購買產(chǎn)品前也可以根據(jù)設(shè)備的功率核算出散熱量,看目前的制冷條件是否可以罩住它。

存儲(chǔ)散熱主要取決于場地溫度、擺放和機(jī)器配置三方面因素,但他的經(jīng)驗(yàn)是:如果空調(diào)溫度合適的話,一般存儲(chǔ)設(shè)備不會(huì)出現(xiàn)散熱問題。 以EMC的存儲(chǔ)設(shè)備為例,可以承受的溫度范圍是10~32攝氏度,而理想的工作環(huán)境是24~26攝氏度。如果溫度過高,就會(huì)導(dǎo)致電源、風(fēng)扇、磁盤故障率提高。廠商在安裝前后都會(huì)進(jìn)行確認(rèn)、巡檢,如果發(fā)現(xiàn)機(jī)柜內(nèi)的溫度不合適,就要求把機(jī)房空調(diào)調(diào)到一個(gè)理想值。

APC公司技術(shù)支持工程師金東提供的數(shù)字,印證了李俊的說法。在目前的機(jī)房環(huán)境下, 2 千瓦以下機(jī)柜在氣流通暢的情況下自然散熱可以得到基本保證。不過,為提高空間使用率、降低成本,磁盤陣列柜的體積越來越小、密度越來越高,在目前單向?qū)α魃岱绞降拇疟P陣列柜,如果一個(gè)機(jī)架中裝設(shè)太多磁盤陣列柜,散熱氣流不夠,就會(huì)出現(xiàn)散熱問題。有廠商推薦在磁盤陣列柜采用高效率的三相散熱(熱傳導(dǎo)、熱輻射、熱對(duì)流)系統(tǒng),只需要小量的氣流,就可以放心地在機(jī)架中高密度地裝置磁盤陣列柜,這對(duì)大型企業(yè)、ISP、IDC來說都有參考價(jià)值。

在一般存儲(chǔ)技術(shù)人員眼里,存儲(chǔ)散熱似乎無關(guān)技術(shù),但它在很大程度上影響著存儲(chǔ)設(shè)備可靠性以及業(yè)務(wù)連續(xù)性。已經(jīng)出現(xiàn)的故障事件,提醒用戶合理地節(jié)約空間,尤其是數(shù)據(jù)中心要嚴(yán)格遵守IT需求的環(huán)境標(biāo)準(zhǔn)嚴(yán)格管理和維護(hù),從而保證系統(tǒng)的穩(wěn)定運(yùn)行。從網(wǎng)通給出的解釋來看,此次就是因?yàn)槲锢砜臻g內(nèi)碼放過多設(shè)備,而導(dǎo)致的局部散熱問題。

服務(wù)器散熱關(guān)于“刀片”之爭

服務(wù)器是數(shù)據(jù)中心的“發(fā)熱”大戶,當(dāng)然也就是最容易中暑的成員。新浪的聲明也讓人的眼光不由自主地盯上它。在數(shù)據(jù)中心里,最常見的就是機(jī)架式服務(wù)器,在機(jī)架服務(wù)器中,服務(wù)器被做成1U、2U高塞進(jìn)機(jī)箱內(nèi),在狹小的空間里有大量的硬件高速運(yùn)行,且服務(wù)器一般要求24小時(shí)不間斷工作,散發(fā)的熱量非常大。那么,怎樣才能有效降低服務(wù)器內(nèi)部溫度呢?

中國惠普工業(yè)標(biāo)準(zhǔn)服務(wù)器產(chǎn)品部聯(lián)盟經(jīng)理王曉琳介紹說,服務(wù)器的熱量主要來自CPU等系統(tǒng)內(nèi)硬件和電源兩部分?,F(xiàn)在單顆服務(wù)器CPU的功率通常都在100多瓦以上,這意味著一個(gè)機(jī)架內(nèi)就有幾十顆滾熱的“心”在跳動(dòng)。另外,服務(wù)器都要配備從交流電轉(zhuǎn)為直流電的電源,尤其是機(jī)架服務(wù)器每臺(tái)服務(wù)器上都要配交流電源,甚至配置冗余電源。而交流電轉(zhuǎn)化為直流電的效率一般為60%~65%(惠普ProLiant服務(wù)器為70%~75%),此外的能耗顯然直接就變成熱量散出去了。

她給出的建議是,大數(shù)據(jù)中心應(yīng)該考慮采用刀片服務(wù)器。有兩大好處:一個(gè)是節(jié)省功耗,刀片服務(wù)器比傳統(tǒng)機(jī)架服務(wù)器的功耗可以省30%。她以惠普自己的產(chǎn)品為例:8臺(tái)DL360 2路機(jī)架式服務(wù)器,每臺(tái)功率是416瓦;而8臺(tái)BL20P刀片服務(wù)器,每臺(tái)功率是312瓦。一臺(tái)服務(wù)器就省了100多瓦。一個(gè)42U機(jī)柜里至少可以擺放30臺(tái),一個(gè)機(jī)柜就至少節(jié)省3000多瓦。另外,刀片服務(wù)器把電源集中起來了,大大降低了電源散熱。她還強(qiáng)調(diào)了惠普刀片服務(wù)器的幾大電源優(yōu)勢:一個(gè)是惠普刀片服務(wù)器把電源拿出機(jī)架外,做成一個(gè)電源機(jī)箱,里面插5~6電源模塊,可以給5個(gè)刀片服務(wù)器機(jī)箱(40/80個(gè)刀片服務(wù)器)供電;一個(gè)是惠普刀片服務(wù)器電源把交流電轉(zhuǎn)化為直流電的效率高達(dá)90%;一個(gè)是如果機(jī)房里有48伏直流供電,惠普可以把交流電源都省掉。

但是,刀片服務(wù)器密度更高,帶來的單位面積內(nèi)的散熱壓力更大。王曉琳也提到:如果要采用刀片服務(wù)器,一定要先解決功耗、散熱等問題。就實(shí)際應(yīng)用來看,目前用戶對(duì)刀片服務(wù)器散熱的顧慮要大于信心。7月4日本報(bào)刊登了一篇《讓服務(wù)器降溫》的文章。文章中提到,關(guān)注減少數(shù)據(jù)中心停機(jī)時(shí)間的企業(yè)協(xié)會(huì)Uptime Institute執(zhí)行總監(jiān)Kenneth  Brill評(píng)價(jià)說:“過去幾年里,數(shù)據(jù)中心的平均熱密度輸出不斷增加,今天這一數(shù)字為每平方英尺28瓦左右。但當(dāng)你采用刀片服務(wù)器,而且數(shù)量比較龐大的話,也許每平方英尺的熱密度輸出將達(dá)到400瓦?!?他還引用一些刀片服務(wù)器用戶所報(bào)告的數(shù)字,每機(jī)架的熱量輸出最多達(dá)到14千瓦,這與2臺(tái)家用微波爐發(fā)出的熱量相同。咨詢與外包公司Capgemini基礎(chǔ)設(shè)施總經(jīng)理Cees de Kuijer也在接受采訪時(shí)稱:“刀片服務(wù)器帶來一些問題:其中之一是發(fā)熱,另一個(gè)問題是供電。我們目前在采購上基本上不考慮選擇刀片服務(wù)器?!?/FONT>

那么,該如何解決刀片服務(wù)器的散熱矛盾?Gartner去年底發(fā)表的研究報(bào)告中給出的建議是:企業(yè)用戶要謹(jǐn)慎考慮部署刀片服務(wù)器和密度不斷增加的機(jī)架式系統(tǒng)?!安唤?jīng)過仔細(xì)的規(guī)劃以及缺少數(shù)據(jù)中心設(shè)備人員與服務(wù)器采購人員之間的協(xié)調(diào),數(shù)據(jù)中心將不能增加電功率或冷卻能力來適應(yīng)服務(wù)器部署的增加。我們認(rèn)為,一直到2008年底,服務(wù)器對(duì)散熱和冷卻的需要將阻礙90%的企業(yè)數(shù)據(jù)中心取得最大理論服務(wù)器密度?!比绻麖倪@個(gè)角度出發(fā),我們就容易理解為何很多數(shù)據(jù)中心的服務(wù)器機(jī)架上方往往都是空著的了。

事實(shí)上,服務(wù)器的散熱壓力已經(jīng)帶來了新的市場機(jī)遇。比如Liebert公司推出了精確冷卻系統(tǒng),APC推出了基于機(jī)柜的制冷解決方案。有了它們,數(shù)據(jù)中心等用戶可以盡情享受機(jī)架服務(wù)器、刀片服務(wù)器帶來的管理方便、節(jié)省空間、降低整體功耗,而不用再擔(dān)心功率密度越來越高的機(jī)架內(nèi)部安裝了熱彈,隨時(shí)威脅著系統(tǒng)的整體可靠性、可用性。

數(shù)據(jù)中心的“空調(diào)病”

從新浪兩次公告的內(nèi)容來看,都提到了機(jī)房溫度過高的問題。在新浪給記者的回復(fù)郵件中,也提到:新浪在己所能及的范圍內(nèi),進(jìn)行了各種努力,包括對(duì)設(shè)備進(jìn)行人工降溫和物理降溫各種手段。但是整體環(huán)境溫度不是新浪能夠控制的,還需要網(wǎng)通采取有效的手段,從根本上解決這個(gè)問題。

記者曾經(jīng)參觀過網(wǎng)通在北京亦莊的數(shù)據(jù)中心,其方方面面的嚴(yán)格管理給記者留下了深刻印象,本報(bào)在做業(yè)務(wù)連續(xù)性專題時(shí),也對(duì)此進(jìn)行了詳細(xì)的報(bào)道。當(dāng)然,任何一個(gè)數(shù)據(jù)中心都會(huì)出現(xiàn)這樣或者那樣的問題,像網(wǎng)通這樣國內(nèi)頂級(jí)數(shù)據(jù)中心也不能例外,但在溫度這個(gè)小節(jié)上失控還是令人不解。

一位同樣做數(shù)據(jù)中心的人士分析說,可能是相對(duì)于該數(shù)據(jù)中心現(xiàn)有的電力和空調(diào)條件下,覆載的設(shè)備量太大了,這樣一旦外界出現(xiàn)“高溫”等狀況,就會(huì)讓散熱問題浮上水面。新浪的答復(fù)也印證了這一點(diǎn):受國內(nèi)整體電力控制等各方面問題的影響,機(jī)房空調(diào)的制冷性能有待提高,目前,新浪正在積極配合網(wǎng)通改善和解決機(jī)房空調(diào)的制冷性。APC公司的技術(shù)工程師金東還介紹說,由于現(xiàn)在很多企業(yè)數(shù)據(jù)中心都是建立在寫字樓中,本身就要受到客觀條件的制約,比如無法安裝室外機(jī),無法提供24小時(shí)不間斷的冷卻水,只能使用中央空調(diào)等,這樣就更需要提前規(guī)劃出科學(xué)合理的散熱和通風(fēng)方案。

如果我們撇開空調(diào)問題不談的話,關(guān)鍵就在于:在現(xiàn)有空調(diào)條件下,如何更有效地降低系統(tǒng)自身的溫度。對(duì)此,APC提出的解決方法是:以機(jī)架為單元,控制IT微環(huán)境的溫度。通過合理設(shè)置冷、熱通道、引導(dǎo)冷風(fēng)均勻地送到每個(gè)IT設(shè)備的進(jìn)風(fēng)處,并將熱風(fēng)有效送到回風(fēng)處,保證將機(jī)架內(nèi)的溫度控制到適宜服務(wù)器工作的溫度。APC公司的技術(shù)工程師金東介紹說,傳統(tǒng)熱量控制方法是降低整個(gè)機(jī)房溫度從而期望達(dá)到“冷卻”服務(wù)器的作用,但事實(shí)證明這種方法只能是對(duì)整個(gè)房間的溫度有一個(gè)控制,并不能保證機(jī)架中服務(wù)器的溫度。在采用APC的解決方案后,機(jī)架的散熱能力從過去2千瓦提升到8千瓦。

此外,APC還提出了“熱通道”(Hot Aisle)和“冷通道”(Cold Aisle)的概念,改變了以往數(shù)據(jù)中心機(jī)柜面朝同一方向擺放的做法,采用“面對(duì)面、背靠背”的機(jī)柜擺放方式,這樣就符合了服務(wù)器等IT設(shè)備從正面進(jìn)風(fēng)、從后面排風(fēng)的設(shè)計(jì),從而有效地將冷、熱空氣分區(qū),大大地提高了制冷效率。

同樣,Liebert公司的精確冷卻系統(tǒng)也值得注意。美國Blacksburg市維吉尼亞綜合州立大學(xué)最近部署了大約1100臺(tái)基于Apple G5的系統(tǒng)組成的超級(jí)計(jì)算集群,系統(tǒng)花費(fèi)了大約200萬美元,但卻使數(shù)據(jù)中心能夠做到在3000平方英尺而不是原來10000平方英尺的空間布置系統(tǒng),并保證有效冷卻系統(tǒng)和未來幾年內(nèi)的需求。這種冷卻系統(tǒng)的特點(diǎn)之一是能夠從服務(wù)器機(jī)架吸出熱空氣,然后再與空調(diào)設(shè)備進(jìn)行熱量調(diào)節(jié)。

金東到過不少數(shù)據(jù)中心,還發(fā)現(xiàn)一些影響散熱效果的不良細(xì)節(jié),比如:高架地板有效高度不足30厘米;過度使用打孔地板,使寶貴的風(fēng)力分散;線纜沒有有效歸置,阻礙氣流的流動(dòng)等。他的建議是:在規(guī)劃新部署前,對(duì)冷卻能力和電源可用性進(jìn)行現(xiàn)實(shí)的分析;確保機(jī)架背部相對(duì),使冷熱氣流分開;確保機(jī)架后面或下面的線纜孔不阻塞氣流;不要過度使用打孔地板,把它們集中用在冷卻通道中;采取一些精確降溫技術(shù)等。

記者寫到這兒,由衷感嘆:細(xì)節(jié)決定成敗,點(diǎn)滴都是學(xué)問。而且,用戶在機(jī)房規(guī)劃之初,就要充分考慮和規(guī)劃配電、布線、散熱等細(xì)節(jié)。一旦在初期沒有足夠重視,總有一天它可能就會(huì)影響到整體可用性,并成為棘手難題。

數(shù)據(jù)中心機(jī)房里偶爾可以看到空調(diào)和電扇合力降溫。

事件回放:

新浪任你郵6月23日發(fā)出預(yù)警:“由于近日北京地區(qū)持續(xù)高溫,網(wǎng)通機(jī)房的溫度目前已經(jīng)到達(dá)41度,我們正在配合機(jī)房進(jìn)行降溫行動(dòng)。如果機(jī)房溫度持續(xù)升高,為了保證數(shù)據(jù)的安全,我們將在溫度到達(dá)43 度的時(shí)候暫時(shí)停止用戶的服務(wù)?!?/FONT>

新浪任你郵7月5日公告:由于網(wǎng)通機(jī)房溫度過高,為保護(hù)用戶的數(shù)據(jù)安全,今晨6:40至7:10我們被迫將部分任你郵服務(wù)器暫停30分鐘,進(jìn)行降溫維護(hù),造成部分用戶不能登陸和收發(fā)郵件,此問題已于今晨7:10解決,全面恢復(fù)服務(wù)。目前我們正在與網(wǎng)通方面協(xié)商采取更多的降溫辦法,保證服務(wù)器安全穩(wěn)定的運(yùn)行。

北京通信公司市場部回復(fù):7月5日,新浪“任你郵”服務(wù)的確中斷半小時(shí)。但并非機(jī)房溫度達(dá)到了41或者43攝氏度,而是高密度磁盤陣列組的出風(fēng)口達(dá)到了這一數(shù)值。主要原因是新浪在機(jī)架上碼放了過多的磁盤。

來源:CCW

發(fā)布:2007-04-22 10:42    編輯:泛普軟件 · xiaona    [打印此頁]    [關(guān)閉]
相關(guān)文章:
長春OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設(shè)南路160號(hào)1層9號(hào)

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢:400-8352-114

加微信,免費(fèi)獲取試用系統(tǒng)

QQ在線咨詢