監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價(jià)咨詢管理系統(tǒng) | 工程設(shè)計(jì)管理系統(tǒng) | 甲方項(xiàng)目管理系統(tǒng) | 簽約案例 | 客戶案例 | 在線試用
X 關(guān)閉

從歸檔中尋求數(shù)據(jù)的潛在價(jià)值

申請免費(fèi)試用、咨詢電話:400-8352-114

崔昊

     在我們經(jīng)歷了一個(gè)輝煌的計(jì)算年代之后,我們發(fā)現(xiàn),越來越多的數(shù)據(jù)已經(jīng)讓我們走進(jìn)了一個(gè)更加關(guān)心存儲(chǔ)的年代。在這個(gè)年代里,數(shù)據(jù)的計(jì)算與數(shù)據(jù)的存儲(chǔ)相比,好像已經(jīng)顯得不那么重要,因?yàn)殡S著數(shù)據(jù)的從KB、MB、GB再到TB與PB,如果不能解決存儲(chǔ)的問題,那么再大的計(jì)算量也只能成為服務(wù)器的FLOPS符號(hào)。同時(shí),因?yàn)閿?shù)據(jù)挖掘、知識(shí)管理日益為人所知,以及越來越多的針對存儲(chǔ)的法規(guī)需要遵從,數(shù)據(jù)的存儲(chǔ)成為了企業(yè)必須要面對的難題。

  當(dāng)存儲(chǔ)的需求從未像現(xiàn)在這樣旺盛的時(shí)候,我們只有簡單的儲(chǔ)存、備份和恢復(fù),因?yàn)槟菚r(shí)候我們的數(shù)據(jù)僅僅是幾塊硬盤就可以應(yīng)付的小case,而現(xiàn)在我們的存儲(chǔ)越發(fā)復(fù)雜,變成了備份、恢復(fù)、歸檔、災(zāi)難備份、持續(xù)數(shù)據(jù)保護(hù)、重復(fù)數(shù)據(jù)刪除等一大堆復(fù)雜的名詞,存儲(chǔ)工作也隨著這些名詞越發(fā)的細(xì)致起來。在這些名詞中,歸檔這項(xiàng)曾經(jīng)大家認(rèn)為只是簡單重復(fù)勞動(dòng)的工作,逐步走到了存儲(chǔ)工作的臺(tái)前,我們看到,很多因素讓歸檔成為了企業(yè)必須要考慮的問題。

  法規(guī)遵從是歸檔的“源動(dòng)力”?

  在談起歸檔的時(shí)候,很多人的第一反應(yīng),就是對法規(guī)遵從的要求,誠然,越來越多的國家對于企業(yè)數(shù)據(jù)的長久保存做出了嚴(yán)格規(guī)定,如美國就對其上市公司頒布了要求企業(yè)保存數(shù)據(jù)的薩班斯法案,而就在我寫這篇文章的前幾天,中國人民銀行正式頒布了《金融機(jī)構(gòu)客戶身份識(shí)別和客戶身份資料及交易記錄保存管理辦法》,據(jù)此辦法規(guī)定,我國的金融機(jī)構(gòu)應(yīng)當(dāng)自業(yè)務(wù)關(guān)系結(jié)束當(dāng)年或者一次性交易記賬當(dāng)年計(jì)起至少保存5年。交易記錄則自交易記賬當(dāng)年計(jì)起至少保存5年。

  無論是美國的薩班斯法案還是國內(nèi)針對金融機(jī)構(gòu)新出臺(tái)的此項(xiàng)規(guī)定,都對企業(yè)保存其數(shù)據(jù)有了嚴(yán)格的要求,正因?yàn)槿绱?,企業(yè)必須要保存大量的重復(fù)、使用頻度低的過期數(shù)據(jù),這些數(shù)據(jù)也許是幾年甚至十幾年以前的數(shù)據(jù),雖然看似這些數(shù)年前的數(shù)據(jù)只有區(qū)區(qū)幾GB,但是當(dāng)現(xiàn)在成為過去,今天的TB、PB級(jí)的數(shù)據(jù)需要被永久保存的時(shí)候,企業(yè)就不得不面對如山一樣的數(shù)據(jù)災(zāi)難。

  因此,歸檔看似隨著法規(guī)遵從的要求,成為了數(shù)據(jù)存儲(chǔ)的新的熱點(diǎn),實(shí)際上,這種對歸檔的需求在我們看來是企業(yè)在被動(dòng)的接受,如果企業(yè)不保存數(shù)據(jù)就會(huì)收到懲罰或訴訟失敗等言論甚囂塵上。

  對此我們難免就有疑問,歸檔的出現(xiàn)要比這些所有的法律法規(guī)早的多,難道法規(guī)遵從真的是歸檔的“源動(dòng)力”?難道企業(yè)沒有主動(dòng)的歸檔需求么?

  歸檔的需求來源于信息的價(jià)值

  其實(shí),當(dāng)我們翻看全球網(wǎng)絡(luò)存儲(chǔ)工業(yè)協(xié)會(huì)(SNIA)如何解釋歸檔的時(shí)候,我們發(fā)現(xiàn),我們的看法與SNIA不謀而合。據(jù)SNIA的《網(wǎng)絡(luò)存儲(chǔ)雙語詞典》解釋,Archive(歸檔)是指數(shù)據(jù)集合的一致性拷貝,通常用以長期持久地保存事務(wù)或者應(yīng)用狀態(tài)記錄。一般情況下,歸檔通常用以審計(jì)和分析的目的,而不是用于應(yīng)用恢復(fù)的目的。

  我們認(rèn)為,這才是歸檔的真正意義所在。

  事實(shí)上我們都知道,所有企業(yè)去存儲(chǔ)去歸檔的數(shù)據(jù),都來自于企業(yè)的生產(chǎn),這些數(shù)據(jù)都是企業(yè)在整個(gè)企業(yè)活動(dòng)中所積累的,而不僅僅是0和1的堆疊。這些數(shù)據(jù)的出現(xiàn),不僅體現(xiàn)著企業(yè)發(fā)展的軌跡,更不是一些簡單的報(bào)表,在這個(gè)競爭的年代,它們是明鏡,可以了解企業(yè)的情況;它們是羅盤,可以指引企業(yè)的方向;它們更是翅膀,可以幫助企業(yè)騰飛。

  就像EMC公司客戶技術(shù)主管楊明軒先生所說,現(xiàn)在的電信行業(yè)提供了電話清單、計(jì)費(fèi)詳單的查詢,但是只提供給我們五個(gè)之前月、一個(gè)當(dāng)前月的記錄,很多用戶對這種服務(wù)頗有怨言,但是實(shí)際上,電信公司也希望保存超過六個(gè)月的歷史數(shù)據(jù),這些數(shù)據(jù)其實(shí)就是它們的競爭資源。

  隨著在數(shù)據(jù)挖掘和知識(shí)管理在今天的日臻完善,包括Microsoft SQL Server Analysis、Cognos、Business Objects在內(nèi)的多種商務(wù)智能(BI)軟件開始為企業(yè)所熟知并應(yīng)用在其生產(chǎn)中,越來越多的企業(yè)正在這些BI軟件來從其數(shù)據(jù)中尋找價(jià)值,以我們剛才所說的電信行業(yè)為例,電信公司正在利用對用戶過往的花費(fèi)組成,如主叫通話時(shí)長、被叫通話時(shí)長、短信、上網(wǎng)流量所占比例,有針對性的推出一些手機(jī)通話套餐和手機(jī)服務(wù),實(shí)際上我們看到的99套餐、199套餐,雖然被指與單向收費(fèi)有悖,但是仍有許許多多的用戶選擇,就是因?yàn)橛脩舭l(fā)現(xiàn)這些套餐,確實(shí)適合自己的通信要求,而這些套餐的時(shí)長、費(fèi)率的組合都是與對過往數(shù)據(jù)的挖掘分不開的。

  因此我們看到對數(shù)據(jù)的所蘊(yùn)藏的價(jià)值的渴望與企業(yè)競爭的需要,越來越多的企業(yè)會(huì)需要那些曾被稱作“過期”的數(shù)據(jù),雖然這些數(shù)據(jù)可能只是在進(jìn)行BI的時(shí)候需要那么一兩次,但就是這一兩次所帶來的巨大價(jià)值,促進(jìn)了企業(yè)主動(dòng)歸檔的發(fā)展。我們看到,對于企業(yè)來說,被動(dòng)的消極的應(yīng)付法規(guī)遵從的需求,只能夠保證其“生存”,而積極的存儲(chǔ)數(shù)據(jù)并從中挖掘價(jià)值,將保證企業(yè)的“發(fā)展”。

  實(shí)際上,在我們與很多企業(yè)的交流中,其中一個(gè)CIO提到,如果說到底是哪一點(diǎn)更吸引他們?nèi)w檔數(shù)據(jù),他會(huì)讓CFO明白,讓數(shù)據(jù)賺錢比讓數(shù)據(jù)省錢來的更加有價(jià)值。

  CAS 進(jìn)行有效“歸檔” 而不僅僅是存儲(chǔ)

  就像我們所說的,歸檔在那些法律法規(guī)頒布之前就已經(jīng)存在了,一直以來,磁帶占據(jù)著歸檔市場的老大位置,很多企業(yè)用磁帶來進(jìn)行備份已經(jīng)有十幾年了,但是磁帶有著其不可逾越的問題。

  首先,磁帶介質(zhì)的脆弱和容易丟失讓很多管理員頭痛不已,在談起磁帶的脆弱性時(shí),曾經(jīng)有過8年磁帶銷售經(jīng)歷的EMC的技術(shù)顧問黃斌先生深有感觸,他表示,磁帶存儲(chǔ)的維護(hù)量太大,驅(qū)動(dòng)器容易壞,磁帶更容易壞,他曾經(jīng)有一個(gè)客戶的公司在寫字樓,寫字樓沒有專用的機(jī)房,北方地區(qū)冬天有暖氣,機(jī)房里機(jī)器數(shù)量很多,溫度很高,45度多,在這么高的溫度下磁帶一個(gè)月就全壞了,因?yàn)榇艓撬芰辖橘|(zhì)纏在一起,溫度高就連在一起,數(shù)據(jù)就讀不出來了,所以磁帶很怕高溫。除此以外,磁帶還不能摔不能受潮,更不能接觸任何的帶磁性的物質(zhì)。于是,很多客戶每天都在小心翼翼的維護(hù)著自己的磁帶。

  其次是讀取,因?yàn)榇艓У捻樞驅(qū)懭耄樞蜃x取特點(diǎn),這就造成如果要讀磁帶最里面的數(shù)據(jù),將要把整盤磁帶讀取一遍,而且這還是在確定數(shù)據(jù)在哪一盤磁帶的前提下,否則在磁帶上搜索數(shù)據(jù)將會(huì)是漫長而又痛苦的。同時(shí),磁帶讀取次數(shù)也有限,因?yàn)榇艓洗欧酆苋菀酌撀洌砸槐P磁帶在讀取了30次左右之后,就會(huì)因?yàn)榇欧勖撀涠荒芡暾淖x取出數(shù)據(jù)。

  據(jù)EMC大中國區(qū)副總裁曹暉介紹,銀行用磁帶已經(jīng)幾十年了,但是現(xiàn)在數(shù)據(jù)迅速增長。在現(xiàn)在商業(yè)社會(huì),如果需要查詢的資料,比如會(huì)計(jì)制度要審核,根本不可能允許數(shù)據(jù)在很長時(shí)間之后才從磁帶中獲取。

  而這一切都被磁盤存儲(chǔ)所解決,其實(shí)在很多的用戶接觸了磁帶歸檔和磁盤歸檔之后,他們便被磁盤的高速讀取和穩(wěn)定性所吸引。但是我們知道,磁盤存儲(chǔ)門類繁多,那么到底什么樣的磁盤存儲(chǔ)最適合歸檔呢?

  實(shí)際上我們談了那么多關(guān)于磁盤存儲(chǔ)的優(yōu)點(diǎn)與歸檔的重要性,我們很難去避開一個(gè)名詞,CAS。大概在五年前,EMC以先行者的身份推出了Centera系統(tǒng),基于內(nèi)容尋址存儲(chǔ)(Content-addressable storage CAS)的歸檔產(chǎn)品。“內(nèi)容尋址存儲(chǔ)(Content-addressable storage,CAS)”是根據(jù)內(nèi)容(而不是位置)檢索存儲(chǔ)信息的,其具有面向?qū)ο蟠鎯?chǔ)特征,基于磁記錄技術(shù),它按照所存儲(chǔ)數(shù)據(jù)內(nèi)容的數(shù)字指紋尋址,具有良好的可搜索性、安全性、可靠性和擴(kuò)展性。于是,從2002年世界上第一個(gè)內(nèi)容尋址存儲(chǔ) (CAS) 解決方案EMC Centera出現(xiàn)開始,CAS技術(shù)就被越來越多的業(yè)內(nèi)專家所稱道。

  毫無例外的,我們依舊會(huì)談到CAS對法規(guī)遵從的突出貢獻(xiàn),在CAS設(shè)備中進(jìn)行記錄管理與普通陣列是不同的。一旦記錄被存儲(chǔ),就不能被改變,也不能被復(fù)寫。因此,記錄被存儲(chǔ)后,跟蹤記錄修改是沒有任何意義的?D?D也就是說,存儲(chǔ)后不支持任何形式的修改。我們一旦將對象(文件)存儲(chǔ)在CAS中,這個(gè)對象就會(huì)受到控制,不可更改。對于大多數(shù)用戶來說,一個(gè)對象就是一個(gè)文件,文件的不可更改意味著這個(gè)文件不能被復(fù)寫。這個(gè)性質(zhì)使它符合很多規(guī)章制度的管理需要。

  但是另一方面,我們?nèi)灾饕獜钠髽I(yè)的“主動(dòng)歸檔”去看看CAS帶給了我們什么。黃斌先生表示,EMC Centera為代表的CAS在存儲(chǔ)上可以說帶來了第三次浪潮,CAS具有的簡單管理和高可用性,幫助它大幅度降低了企業(yè)的歸檔管理難度。從技術(shù)角度來說,CAS和SAN、NAS在技術(shù)層面有一個(gè)最大的區(qū)別。SAN、NAS在存儲(chǔ)文件的時(shí)候是按照地址存放文件,用戶找文件的時(shí)候一定要知道它放在哪個(gè)磁盤分區(qū)的哪個(gè)目錄里,否則就要搜索。而CAS沒有分區(qū)、沒有目錄,不需要記住文件路徑,只需要把數(shù)據(jù)交給CAS,CAS會(huì)生成一個(gè)數(shù)字指紋,相當(dāng)于公民身分證,靠一串?dāng)?shù)字和字母組合的數(shù)字指紋來識(shí)別某一段的數(shù)據(jù)。當(dāng)用戶需要找這個(gè)數(shù)據(jù)的時(shí)候,只要提交數(shù)字指紋來獲取數(shù)據(jù),所以它的技術(shù)和傳統(tǒng)的SAN、NAS是完全不同的。這樣的管理性能,成為了很多SAN或NAS系統(tǒng)管理員被無窮無盡的分區(qū)、卷和目錄所折磨時(shí)的渴望。

  當(dāng)企業(yè)擁有簡單的管理并能獲得安全且符合法規(guī)遵從要求時(shí),企業(yè)對于歸檔的積極性遠(yuǎn)遠(yuǎn)比單純的被動(dòng)遵從法律要高的多,據(jù)楊明軒先生介紹,從2002年EMC推出第一臺(tái)CAS產(chǎn)品Centera開始,現(xiàn)在在國外已經(jīng)有4000多個(gè)用戶購買了將近一萬臺(tái)的Centera產(chǎn)品,薩班斯法案的立法者,美國證券交易協(xié)會(huì)就采用了Centera進(jìn)行電子郵件存儲(chǔ)管理。而在國內(nèi),青島大學(xué)醫(yī)學(xué)院附屬醫(yī)院是EMC的第一個(gè)國內(nèi)CAS用戶,雖然此前默默無聞,但是實(shí)際上其已經(jīng)應(yīng)用Centera兩年多了。在青島大學(xué)醫(yī)學(xué)院附屬醫(yī)院Centera主要針對醫(yī)療行業(yè)的PACS系統(tǒng),保存醫(yī)院的影像數(shù)據(jù)。他表示,這種數(shù)據(jù)要采用歸檔的方式保存,但是這種數(shù)據(jù)并不是一種死數(shù)據(jù),而是讓醫(yī)務(wù)人員能夠訪問的一種活躍數(shù)據(jù),我們看到這實(shí)際上正好印證了我們此前所說的“歸檔的需求來源于信息的價(jià)值”,在這里,醫(yī)院的價(jià)值就是可以幫助醫(yī)生更快的了解病人的病情,而CAS正幫助著醫(yī)院快速的訪問這些數(shù)據(jù)并從中獲得其價(jià)值。

  在現(xiàn)在的企業(yè)里,我們看到了越來越多的CAS歸檔系統(tǒng),但是這些歸檔系統(tǒng)的作用已經(jīng)離曾經(jīng)的歸檔越來越遠(yuǎn)了,企業(yè)歸檔不再是為了歸檔而歸檔,他們正努力從歸檔中挖掘價(jià)值,CAS讓他們可以快速的歸檔并快速的讀取,用以支持企業(yè)的數(shù)據(jù)挖掘、知識(shí)管理和眾多在線業(yè)務(wù),數(shù)據(jù)從歸檔系統(tǒng)中被提取出來,通過敲敲打打,仔細(xì)剖析,成為了企業(yè)的競爭價(jià)值。在這種環(huán)境下,CAS煥發(fā)了青春,我們曾經(jīng)說過,存儲(chǔ)行業(yè)從來不缺少新聞和新技術(shù),某些技術(shù)也許沉睡了幾天幾個(gè)月甚至幾年,但是總會(huì)有一天突然出來宣告它的大旗仍然飄揚(yáng),而隨著用戶應(yīng)用的普及,這些技術(shù)也會(huì)慢慢的再次宣告它的存在,也許內(nèi)容尋址存儲(chǔ)(Content-addressable storage CAS)就是這樣一個(gè)技術(shù)。

 

發(fā)布:2007-03-25 10:58    編輯:泛普軟件 · xiaona    [打印此頁]    [關(guān)閉]
相關(guān)文章:
南昌OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設(shè)南路160號(hào)1層9號(hào)

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢:400-8352-114

加微信,免費(fèi)獲取試用系統(tǒng)

QQ在線咨詢