監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價(jià)咨詢管理系統(tǒng) | 工程設(shè)計(jì)管理系統(tǒng) | 簽約案例 | 購買價(jià)格 | 在線試用 | 手機(jī)APP | 產(chǎn)品資料
X 關(guān)閉

分析:綠色能否讓高性能計(jì)算更快更便宜

申請(qǐng)免費(fèi)試用、咨詢電話:400-8352-114

文章來源:泛普軟件

高性能計(jì)算機(jī)已經(jīng)讓綠色計(jì)算的觀念更加深入人心。但是,綠色計(jì)算是否能給你提供一個(gè)更快、更好、更便宜的高性能集群呢?

綠色已經(jīng)成為了今年的熱門詞匯。用綠色的墨汁來打印你的小冊(cè)子、在你的產(chǎn)品描述中加入綠色概念以及“更快地為綠色做好準(zhǔn)備”就是很好的例子。但是,一旦牽扯到高性能計(jì)算機(jī)(HPC),就沒有那么簡單了。實(shí)際上,在一個(gè)性能至上的市場(chǎng)中,其它的任何因素看起來都居于次要位置。直到數(shù)據(jù)中心的電費(fèi)帳單到你眼前時(shí),你才領(lǐng)悟到其它因素的重要性。為了獲得更好性能的數(shù)據(jù)中心,也就意味著需要更多的空間、電能,散熱就變得更加難了。

綠色HPC是真正地優(yōu)化過的HPC。除非你不考慮你的預(yù)算,否則,性價(jià)比通常是用于衡量不同硬件解決方案的標(biāo)尺。盡管計(jì)算機(jī)的性能可以很容易地衡量,但是價(jià)格組成部分卻有一些模糊。通常情況下,價(jià)格組件包括基本的硬件采購成本,但是忽略了操作費(fèi)用。在當(dāng)前火熱的競(jìng)爭激烈的服務(wù)器市場(chǎng)中,這一分析很少被人們所注意到。下面的這個(gè)例子就可以很好地說明這個(gè)問題。

目前,1U雙槽集群節(jié)點(diǎn)需要大約300瓦的電能。散熱和電源傳輸中的損失可能會(huì)讓這個(gè)數(shù)字翻一倍,也就是600瓦。因此,通常情況下,一年一個(gè)單一的集群節(jié)點(diǎn)會(huì)需要5256千瓦時(shí)的電能。以0.1美元/千瓦時(shí)的成本來計(jì)算,一個(gè)單一集群節(jié)點(diǎn)每年的電能和散熱費(fèi)用大約是526美元。

而當(dāng)你把整個(gè)集群都考慮進(jìn)去的話,這一數(shù)字可能會(huì)增加到你難以置信的程度??紤]一個(gè)當(dāng)前市場(chǎng)上典型的集群價(jià)格,一個(gè)節(jié)點(diǎn)可能需要花費(fèi)3500美元(這包括機(jī)架、交換機(jī)等等)。如果使用標(biāo)準(zhǔn)的四核技術(shù),一個(gè)節(jié)點(diǎn)擁有兩個(gè)處理器共八個(gè)核。使用我們的平均節(jié)點(diǎn)價(jià)格,一個(gè)標(biāo)準(zhǔn)的128節(jié)點(diǎn)的集群(帶有256個(gè)處理器和1028個(gè)核)就需要耗費(fèi)448000美元?;谏鲜龅牟孪?,每年的電能和散熱預(yù)算就需要67300美元。那么如果以三年為一個(gè)周期,那么所需要的花費(fèi)就是201900美元,大概占到整個(gè)系統(tǒng)的45%。

計(jì)算價(jià)格可能由于市場(chǎng)條件和地理位置有所變化,但上述的分析也表明,三年數(shù)據(jù)中心的電能和散熱花費(fèi)也接近于整個(gè)集群硬件的40-50%的成本。

因此,相比于性價(jià)比來說,更加確切的衡量標(biāo)準(zhǔn)應(yīng)當(dāng)是架構(gòu)/操作比。忽略掉這些成本就會(huì)導(dǎo)致一個(gè)變形的、理想的性價(jià)比衡量標(biāo)準(zhǔn)。操作成本通常反映在所有權(quán)成本(TCO)標(biāo)準(zhǔn)中,但是高性能計(jì)算機(jī)則更期望使用性能標(biāo)準(zhǔn)。

綠色就是性能

基于上述的分析,任何減少電能和散熱成本的估計(jì)都會(huì)自動(dòng)地減少價(jià)格/性能比率(越低越好)。這個(gè)結(jié)論是相當(dāng)讓人感到震驚的,因?yàn)榫G色計(jì)算通常和低電能(例如低時(shí)鐘頻率)系統(tǒng)聯(lián)系在一起。在高性能計(jì)算機(jī)中,綠色則意味著變慢。它同時(shí)意味著更具效率。在本篇文章的余下部分,我們來看一下不同的針對(duì)HPC系統(tǒng)提高效率的辦法以及一些綠色HPC的新思路。

讓服務(wù)器更加綠色

由于很多當(dāng)前的機(jī)架服務(wù)器都使用相同的處理器、內(nèi)存以及硬盤,我們就暫且不討論這些組成部分了。換句話說,我們使用那些市場(chǎng)提供的以及廠商所作的可以讓這些組件更具效率的硬件。通過使用新的處理器,有一些新的節(jié)能特性可用;集群也展示了一個(gè)獨(dú)特的環(huán)境,通過任務(wù)調(diào)度來更好地管理(參考以下部分)。

電源供應(yīng)

如果你使用標(biāo)準(zhǔn)的機(jī)架式服務(wù)器,那么你可以控制的部分就是電源供應(yīng)。確認(rèn)你當(dāng)前使用了帶有電源利用率修正(PFC)功能的電源。一個(gè)超過0.8的帶有PFC的電源是更具效率的。不幸地是,一個(gè)沒有修正的電源,它的電源使用率因子可能是0.70-0.75,這樣就會(huì)浪費(fèi)電能。一個(gè)好的PFC電源可以得到0.95-0.99的電源使用率因子。除了PFC,電源的效率也不能不提到。在過去,一個(gè)典型的電源可能效率只有60-70%,這也就意味著30-40%的電能都以熱能的形式浪費(fèi)了。而好的電源可以達(dá)到80%以上的效率。

平衡你的調(diào)度

就像上面所說的那樣,大多數(shù)的廠商都在采用更具效率的供電策略。比如,Intel和AMD都在很多的處理器上提供了動(dòng)態(tài)頻率控制方法,通過使用Intel的SpeedStep和AMD的Cool’n Quiet特性。使用了這些特性,就可以動(dòng)態(tài)地改變一個(gè)處理器的時(shí)鐘頻率,這主要是通過在一個(gè)給定節(jié)點(diǎn)上修改/sys/devices/system/cpu/cpu_/cpufreq/文件系統(tǒng)來完成。一個(gè)處于閑置狀態(tài)的處理器應(yīng)當(dāng)在它不使用時(shí)降低頻率(通過cpufreq-selector命令來檢測(cè))。除此之外,如果你在你的節(jié)點(diǎn)上使用硬盤,那么當(dāng)前的硬盤都提供綠色節(jié)點(diǎn)。使用命令hdparm –S就可以設(shè)置一個(gè)計(jì)數(shù)器,也就可以讓硬盤進(jìn)入到低電能模式。你可能需要調(diào)整內(nèi)核將磁盤緩存寫入到硬盤的間隔(設(shè)置/proc/sys/vm/dirty_writeback_centisecs)。Syslog守護(hù)進(jìn)程可能需要被修改,它可以直接寫入到磁盤上??梢酝ㄟ^在/etc/syslog.conf文件中的每一個(gè)條目上附加一個(gè)“-”符號(hào)來使用緩存。

最具效率地控制上述電源節(jié)省特性的辦法就是通過調(diào)度?;旧?,任務(wù)調(diào)度可以知道每一個(gè)節(jié)點(diǎn)的狀態(tài)。當(dāng)沒有任務(wù)指派到節(jié)點(diǎn)上以及在性能狀態(tài)下一個(gè)任務(wù)正在運(yùn)行,書寫一個(gè)前工作腳本和后工作腳本以讓CPU和硬盤進(jìn)入到一個(gè)低電能狀態(tài)并不是一個(gè)很難的事情。改變這些狀態(tài)并不會(huì)真正招致實(shí)際的負(fù)擔(dān),并且這個(gè)對(duì)于調(diào)度來講也是微乎其微的。

一個(gè)更加節(jié)能的辦法就是讓所有沒有使用的節(jié)點(diǎn)完全斷電。Sun Grid Engine以及SLURM都有一些計(jì)劃來提供這種能力。Moab和AFS也具有相似的特性。這種能力在那些無磁盤的節(jié)點(diǎn)上尤其有用,因?yàn)榭焖俚膯?dòng)和節(jié)點(diǎn)供應(yīng)在網(wǎng)絡(luò)上完成。一般情況下,在電源提供后,60秒之內(nèi)一個(gè)節(jié)點(diǎn)就可以操作了。

另外一個(gè)辦法就是使用調(diào)度來控制物理任務(wù)的放置。思想就是放置/移走任務(wù)到機(jī)房相對(duì)溫度低的地方,惠普公司寫的一篇文章中給出了這種方法的一些結(jié)論。

讓機(jī)架更加綠色

更好的機(jī)架映射對(duì)于集群的綠色也是一個(gè)好的辦法。典型的1U服務(wù)器就有至少10-12個(gè)風(fēng)扇以及一個(gè)供電系統(tǒng)?;诘镀南到y(tǒng)可以讓一些設(shè)計(jì)改變并且在節(jié)點(diǎn)間共享風(fēng)扇的供電。如果你考慮一下,帶有1U服務(wù)器的一個(gè)典型機(jī)架具有42個(gè)1.7x18x26英尺的通道(通風(fēng)道),它們中的每一個(gè)必需保持充足的空氣流來散熱整個(gè)服務(wù)器。通過鞏固一定量的風(fēng)扇和供電,大量的電能都可以節(jié)省下來。一個(gè)很好的綠色機(jī)架的例子就是IBM的新iDataPlex。除此之外,還有一些小的子機(jī)架系統(tǒng)(適合于標(biāo)準(zhǔn)機(jī)架的刀片系統(tǒng))提供了綠色的特性。這其中的例子包括Supermicro Office機(jī)架、IBM BladeCenter S-Series以及Dell的M-Series。

另一個(gè)由Rackable Systems公司引領(lǐng)的技術(shù)就是基于DC的服務(wù)器。在這個(gè)設(shè)計(jì)中,每一個(gè)服務(wù)器和存儲(chǔ)系統(tǒng)都配備了一個(gè)高效率的48VDC電源,取代原來的標(biāo)準(zhǔn)交流供電。每一個(gè)機(jī)架柜都可以有效地將標(biāo)準(zhǔn)的交流電(AC)轉(zhuǎn)化為直流電(DC),在這個(gè)機(jī)架中。這種在節(jié)點(diǎn)上去掉AC到DC的轉(zhuǎn)換就意味著具有更高的電源效率(92%)以及從節(jié)點(diǎn)上更少的散熱需要。

Intel的實(shí)驗(yàn)

時(shí)常,有一些人決定測(cè)試一個(gè)由來已久的假設(shè)。這些假設(shè)在某些時(shí)間點(diǎn)上是有效的。但是,當(dāng)經(jīng)濟(jì)條件或者系統(tǒng)設(shè)計(jì)有時(shí)需要重新考慮已經(jīng)建立好的設(shè)計(jì)時(shí),那么就需要作出改變。最近,Intel就決定測(cè)試一個(gè)基本的假設(shè)。這就是,你的數(shù)據(jù)中心需要冷卻的空氣來工作。當(dāng)然,這聽起來像一個(gè)正確的假設(shè)。

為了測(cè)試這一想法,Intel調(diào)查了空氣節(jié)約器的使用,以優(yōu)化數(shù)據(jù)中心的電能和冷卻設(shè)施。通過10個(gè)月的一個(gè)周期,使用一個(gè)100%空氣交換的方法完成一個(gè)測(cè)試數(shù)據(jù)中心的散熱,而無論溫度、濕度以及空氣質(zhì)量的條件。而且,更重要的是,它們報(bào)告,并沒有增加太大的組件失效狀況。

一個(gè)更加詳細(xì)的描述可能會(huì)讓你更清楚。兩個(gè)數(shù)據(jù)中心在一個(gè)相對(duì)比較低濕度的環(huán)境下(亞利桑那州)建立。每一個(gè)都擁有448個(gè)刀片服務(wù)器。控制數(shù)據(jù)中心使用傳統(tǒng)的冷卻空氣(空調(diào)方法)。而第二個(gè)或者測(cè)試數(shù)據(jù)中心則使用外部的空氣。而操作的溫度范圍則是65-90F。如果進(jìn)入的空氣溫度高于90F,那么就使用冷卻的空氣來讓它保持在90F。如果進(jìn)入的空氣低于65F,那么,暖的廢氣就被回收利用以保持溫度在65F以上。標(biāo)準(zhǔn)的家庭過濾系統(tǒng)被使用,而沒有任何針對(duì)濕度的調(diào)節(jié)。那么,在節(jié)能數(shù)據(jù)中心失效率為4.46%;在控制中心則是2.45%。很重要的一點(diǎn)是,系統(tǒng)都要保持在推薦的98F操作溫度之下,因?yàn)樗⒉皇且粋€(gè)測(cè)試或者服務(wù)器的溫度限制。從數(shù)據(jù)來看,在測(cè)試端得服務(wù)器上的溫度在70-80F之間變動(dòng),而控制端的溫度則設(shè)定在68F。

這個(gè)實(shí)驗(yàn)的結(jié)論就是,數(shù)據(jù)中心的能量估計(jì)節(jié)省了67%,也就是對(duì)于一個(gè)10-MW的數(shù)據(jù)中心來講,省去了287萬美元的費(fèi)用。一個(gè)研究概況會(huì)包含更多的細(xì)節(jié),并且,這看起來該假設(shè)值得一試??赡茉诓贿h(yuǎn)的未來,你可以聽到關(guān)于這個(gè)想法的更多內(nèi)容。

Green500

Top500列表是那些世界上最快計(jì)算機(jī)的排名(通過運(yùn)行一個(gè)測(cè)試基準(zhǔn)來決定速度)。很長時(shí)間以來,這一列表的追隨者都希望能夠知道這些系統(tǒng)的電能耗費(fèi)情況。確實(shí),很多人都希望能夠看到每瓦的性能指標(biāo),也就是架構(gòu)成本可以計(jì)算到性價(jià)比的系統(tǒng)之內(nèi)。

幸運(yùn)的是,對(duì)于這些用戶來講,當(dāng)前有一個(gè)Green500列表,它給出了MFLOPS/Watt的計(jì)算機(jī)排名。最近,這個(gè)列表的第三個(gè)版本已經(jīng)給出。有趣的是,Top500上最快的計(jì)算機(jī)是IBM基于Cell的Roadrunner,來自于Los Alamos國家實(shí)驗(yàn)室。Roadrunner在Green500列表中排名第三,也就意味著速度和綠色兩者并不完全排斥。除此之外,排名前三的超級(jí)計(jì)算都史無前例的超過了400MFLOPS/watt這一高度。同樣,還傳來了一個(gè)好消息,基于Intel 45納米的低功耗四核Xeon處理器的系統(tǒng)和IBM的BlueGene/L機(jī)器已經(jīng)等同。

更少的熱量,更低的失效

Intel的試驗(yàn)是站不住腳的,更熱也就意味著更高的失效率。請(qǐng)注意,在Intel的試驗(yàn)中,測(cè)試端平均的溫度比起控制端的溫度并高不了多少。一個(gè)很好的定律就是,當(dāng)溫度每升高10攝氏度,失效率就會(huì)加倍(Intel的試驗(yàn)似乎很好的支持了上述定律)。當(dāng)集群增長時(shí),失效的數(shù)字就會(huì)變得越來越重要。很顯然,對(duì)于小的集群,低于5%的是效率是可以接受的;但是對(duì)于大的集群,這可能就會(huì)導(dǎo)致大量的服務(wù)器被取代。規(guī)則就是讓它保持低溫,并且持續(xù)時(shí)間更長。因此,除了節(jié)省成本以外,降低你的價(jià)格/性能比,系統(tǒng)可以持續(xù)的時(shí)間就長一些。

在過去的幾年里,高性能計(jì)算機(jī)已經(jīng)變得更具效率,但并不綠色。隨著時(shí)間的推移,更多的老系統(tǒng)將退出,而新的更加綠色的硬件和軟件將進(jìn)入到新的系統(tǒng)中,從而推進(jìn)綠色系統(tǒng)的發(fā)展。并且當(dāng)你計(jì)算價(jià)格/性能比時(shí),更加綠色就會(huì)意味著我們把更快、更好、更便宜放在首位。(IT專家網(wǎng))

發(fā)布:2007-04-22 09:09    編輯:泛普軟件 · xiaona    [打印此頁]    [關(guān)閉]
相關(guān)文章:

泛普重慶OA信息化其他應(yīng)用

重慶OA軟件 重慶OA新聞動(dòng)態(tài) 重慶OA信息化 重慶OA客戶 重慶OA快博 重慶OA行業(yè)資訊 重慶軟件開發(fā)公司 重慶網(wǎng)站建設(shè)公司 重慶物業(yè)管理軟件 重慶餐飲管理軟件 重慶倉庫管理系統(tǒng) 重慶門禁系統(tǒng) 重慶微信營銷 重慶ERP 重慶監(jiān)控公司 重慶金融行業(yè)軟件 重慶B2B、B2C商城系統(tǒng)開發(fā) 重慶建筑施工項(xiàng)目管理系統(tǒng)開發(fā)