監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價咨詢管理系統(tǒng) | 工程設計管理系統(tǒng) | 簽約案例 | 購買價格 | 在線試用 | 手機APP | 產(chǎn)品資料
X 關(guān)閉

如何幫助IDC卸掉“電手銬”

申請免費試用、咨詢電話:400-8352-114

文章來源:泛普軟件

作為一家以地球物理勘探與服務業(yè)務為主的企業(yè),東方地球物理公司對高性能計算旺盛的需求,使得原本被忽視的電能需求成為束縛他們發(fā)展的“手銬”,他們希望找到一種有效的方法從中解脫出來。

成本之痛

2008年8月7日,北京2008奧運會開幕式前一天,東方地球物理公司(以下簡稱BGP)研究院副總工程師、處理中心總工、教授級高工賴能和從河北涿州驅(qū)車北京,一天跑了兩個地方,上地和中關(guān)村,與4家公司進行技術(shù)交流,高密度的工作安排一切都是為了數(shù)據(jù)中心如何提高設備利用率、如何節(jié)能降耗。

“目前我們每天的電費大約3萬多元?!睋?jù)賴能和說道,從2002年到2007年,BGP所擁有的CPU數(shù)量、總體運算能力、總存儲容量分別增長了40倍、7354倍和300倍?!拔覀儸F(xiàn)在擁有超過1.5萬顆CPU、2.6萬多個核、2000T存儲規(guī)模的數(shù)據(jù)中心,每年光電費成本就超過1000多萬元?!?/P>

作為中石油的找油先鋒。賴能和所在的東方地球物理公司主要以地球物理勘探業(yè)務為主,國內(nèi)業(yè)務分布在12個省區(qū)15個油田,國際業(yè)務分布在全球30多個國家。BGP在全球地球物理服務公司中綜合實力排名第四位,陸上地震勘探排全球第一位。

據(jù)賴能和透露,BGP之所以具有如此強大的勘探能力,高性能計算(HPC)發(fā)揮了重要的作用?!癈PU和計算能力的增加,間接地給BGP帶來的就是能耗不斷增加?!辟嚹芎徒o記者算了一筆賬:如果增加1萬顆CPU,考慮到空間、照明、人員等環(huán)境因素和制冷設備冗余,光是大功率的專業(yè)空調(diào)就需要新增 22臺。如果將來增加到2.5萬~3萬顆CPU,加上機房制冷空調(diào)、UPS等設備的能耗,那時的電費真可謂是一個“天文數(shù)字”了。

計算能力的增加是目前石油勘探行業(yè)的發(fā)展形勢所迫。一方面,要確保國家能源安全,這一任務非常艱巨;另一方面,近年來隨著油氣勘探開發(fā)的不斷深入,勘探開發(fā)的技術(shù)難度越來越大。油氣公司為了解決復雜地表及地下地質(zhì)構(gòu)造成像問題,提高地震資料成像精度和勘探開發(fā)效益,減少勘探開發(fā)風險,加大了地震疊前偏移處理技術(shù)的推廣應用力度,所以勘探公司必須大幅度增加自身的計算能力。

“每年的電費真讓人心痛!”賴能和在為能耗的問題而苦惱之時,管理的困境也在圍繞著他。

管理之困

相比于其他企業(yè),BGP數(shù)據(jù)中心絕對是個“老壯派”,自1964年建立已歷經(jīng)了40多年的發(fā)展:1995年以前完全是大型機時代,機器從最早 1973年的DJS150百萬次/秒計算能力開始,到1977年物探局引進的千萬次/秒計算能力的CYBER1724計算機。自1995年后,進入 UNIX時代,BGP開始引進IBMSP2機器,2002年開始應用PC集群。除計算能力增長很快外,機房面積也扶搖直上。直到現(xiàn)在,BGP的數(shù)據(jù)中心已超過3600平米,加上其他地區(qū)分院的機房,總面積高達6000平米。

數(shù)據(jù)中心計算能力和面積的飛漲增加了管理的復雜性?!?萬多顆CPU管理非常繁雜,如何合理調(diào)配,充分發(fā)揮它門的性能,是個大課題。”據(jù)賴能和解釋,與CPU相配套的存儲、網(wǎng)絡技術(shù)的發(fā)展得并沒有像CPU的發(fā)展那么快,所以CPU的性能很難充分發(fā)揮出來。另外,面對高密度的機房,人力已經(jīng)無法管理。以涿州為例,150個機柜分布于2層樓中,每層1600平米。哪個機柜的CPU出現(xiàn)問題,哪個地方的網(wǎng)絡堵塞了,只有專業(yè)人員到現(xiàn)場才能看出來,即使看出來,可能也無法真正了解清楚,這很費時間。管理人員很難了解到機柜的利用率是多少,當一部分服務器完成計算任務之后,它們處于閑置狀態(tài)很難快速傳遞到管理平臺之中。數(shù)據(jù)的安全也令人擔心,磁盤都是機械和電子設備,難免出現(xiàn)磁盤本身的故障和人員操作的失誤,幾千TB的數(shù)據(jù)都是BGP寶貴的數(shù)字資產(chǎn)。

設施的安全性也不可掉以輕心。UPS、空調(diào)等諸多設備,要保證它們運營時的安全,是不是存在安全隱患?目前雖然采取了一些溫度、濕度、漏水的監(jiān)控措施,但還是不夠完善。今年7月悶熱潮濕的天氣比較多,再加上空調(diào)排水管的老化,接頭地方不牢,數(shù)據(jù)中心的空調(diào)突然出現(xiàn)滴水。這可急壞了管理層和技術(shù)人員,機房里那么多的設備,最怕的就是水,萬一哪臺有個好歹……好在發(fā)現(xiàn)得及時,沒有造成太大影響。但這次事件給領(lǐng)導敲響了警鐘,也引起了高度重視,他們立即組織人員重點找原因,進行排查。

賴能和說:“像我們這樣的大型數(shù)據(jù)中心,要有安保措施、報警系統(tǒng)、自動監(jiān)控系統(tǒng),這樣才能更好地杜絕運營中的安全隱患。”經(jīng)過這次事情后,他們立刻著手進行整改。

優(yōu)化之艱

與普通數(shù)據(jù)中心不同,HPC的節(jié)能降耗是一項系統(tǒng)工程。普通的數(shù)據(jù)中心可以通過降低電壓、動態(tài)平衡負荷的方式來降低CPU能耗,但是高性能計算機因為負擔的數(shù)據(jù)量大,在CPU、操作系統(tǒng)、應用軟件、機房制冷層面,都應該指定具有節(jié)能降耗的解決方案。而且這些解決方案必須相互間有所關(guān)聯(lián)和互動,才能保證整體節(jié)能降耗的效率和效果。

賴能和舉了個例子,如果要達到1萬顆CPU的計算能力,考慮空間、照明、人員等環(huán)境因素和制冷設備冗余,總共需要100KW專業(yè)空調(diào)22臺。降耗節(jié)能是數(shù)據(jù)中心非常關(guān)心的一個問題,近5年他們已投入1300多萬元,經(jīng)歷四五次大的改造,進行資源優(yōu)化配置、技術(shù)改造,收到了近億元的經(jīng)濟效益。

2003年~2004年,主要針對CPU資源利用率進行提升。他們曾用軟件測試過兩套128CPU處理能力的集群在資源常規(guī)處理時的利用率,發(fā)現(xiàn)它們只有14%。而主要原因出在I/O網(wǎng)絡上,。他們調(diào)整了節(jié)點的標配,并針對石油物理的應用進行優(yōu)化,增加了配套的外部設施,這樣將CPU的利用率提高到30%以上。

2005年~2006年,他們又進行了32位向64位轉(zhuǎn)移的改造。經(jīng)過測試,在價格相當?shù)那闆r下,64位的某疊前偏移軟件在64位的集群上的運行速度,比32位的某疊前偏移軟件在32位的集群上快2~2.5倍。同時,64位機器處理文件的大小突破了2G的限制,內(nèi)存突破了4G的限制,對疊前時間偏移的運行效率有明顯的提高。之后,他們又遷移了3000顆CPU,由于利用率的提高,投資大幅度減少,為公司省下上千萬元費用。

2007年的改造重點在存儲系統(tǒng)。原來他們的儲存絕大多數(shù)是小盤陣,單用戶應用時效果還不錯,但多用戶使用時性能得不到保證。2006年~2007年已投入幾千萬元引進400TB的SAN全光纖架構(gòu)的共享存儲系統(tǒng)。目的就是為了對存儲和計算資源進行大規(guī)模的優(yōu)化整合,以前是CPU在等數(shù)據(jù),現(xiàn)在磁盤硬件轉(zhuǎn)速提高3倍,故障點減少,也沒有數(shù)據(jù)的孤島,CPU利用率又得以提高,常規(guī)處理的利用率提高到接近40%。

綠色之鑒

除在IT設備的節(jié)能動腦筋外,機房的基礎(chǔ)設施和散熱設備的改造也會帶來可觀的成本節(jié)約?!癈PU的快速增長,對我們的場地面積占用很大,電費上升非??欤郧拔覀儗?IT設備外的配套設施也沒有考慮得那么周全。我們統(tǒng)計分析后發(fā)現(xiàn),在每年的支出中,除CPU等軟硬件之外,其他基礎(chǔ)設施和散熱設備費用占1/3,應有很多文章可做?!辟嚹芎驼f道。

隨著石油勘探行業(yè)高性能計算規(guī)模的擴大,迫切需要解決高密度機房的散熱和制冷問題。據(jù)賴能和介紹,他們采取的措施有很多,如改造機房地板,引入格柵來定向調(diào)節(jié)風向、風量和風速,并設置定向機柜以更好地排熱。通過格柵等技術(shù)定向調(diào)節(jié)風量使其均勻,因此能夠大大降低溫度,節(jié)省電量,每年能夠因此節(jié)約電費幾十萬元。此外,通過整治高頻諧波,可以降低諧波率,也能夠降低每年數(shù)百萬元的電費。

在數(shù)據(jù)中心的管理中,他們意識到資產(chǎn)管理有可視化的重要性。能不能在一個全面的視圖中,非常細致地捕捉到每一個局部的信息,并可以在操作臺上控制?他們正在嘗試應用一些數(shù)字化管理手段,來進行資產(chǎn)和運營成本的精細化管理。未來會把CPU、存儲、網(wǎng)絡等資源監(jiān)控與OA系統(tǒng)整合,這樣就不用一天跑幾次數(shù)據(jù)中心了,在辦公室里就可以看到數(shù)據(jù)中心的全部情況,進行資源的實時管理。

擴建之機

數(shù)據(jù)中心的業(yè)務這6年發(fā)生了非常大的變化,與2002年相比,業(yè)務增長5倍,產(chǎn)值增長5倍,而人員沒有增加。未來3-5年,賴能和說:“我們在 ‘藍色國土’的開發(fā)上,比陸地要快得多得多,CPU還要增加二三倍。”“我們已經(jīng)沒有地方擺下更多的IT設備。”2006年1月,他們就著手規(guī)劃未來的數(shù)據(jù)中心,總部新機房面積超過設計為6000平方米,2009年年底投產(chǎn)。未來的數(shù)據(jù)中心會更加綠色、更加自動化,信息化管理手段更高,向著更加智能化方向發(fā)展?!辟嚹芎驼f。(CIO Insight)

發(fā)布:2007-04-22 09:10    編輯:泛普軟件 · xiaona    [打印此頁]    [關(guān)閉]
相關(guān)文章:

泛普重慶OA信息化其他應用

重慶OA軟件 重慶OA新聞動態(tài) 重慶OA信息化 重慶OA客戶 重慶OA快博 重慶OA行業(yè)資訊 重慶軟件開發(fā)公司 重慶網(wǎng)站建設公司 重慶物業(yè)管理軟件 重慶餐飲管理軟件 重慶倉庫管理系統(tǒng) 重慶門禁系統(tǒng) 重慶微信營銷 重慶ERP 重慶監(jiān)控公司 重慶金融行業(yè)軟件 重慶B2B、B2C商城系統(tǒng)開發(fā) 重慶建筑施工項目管理系統(tǒng)開發(fā)