監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價(jià)咨詢管理系統(tǒng) | 工程設(shè)計(jì)管理系統(tǒng) | 簽約案例 | 購買價(jià)格 | 在線試用 | 手機(jī)APP | 產(chǎn)品資料
X 關(guān)閉

重復(fù)數(shù)據(jù)刪除與壓縮孰優(yōu)孰劣?

申請(qǐng)免費(fèi)試用、咨詢電話:400-8352-114

文章來源:泛普軟件

容量?jī)?yōu)化長(zhǎng)期以來是次級(jí)存儲(chǔ)的事情:次級(jí)存儲(chǔ)上主要是數(shù)量眾多的重復(fù)數(shù)據(jù)(常常是磁盤到磁盤備份的產(chǎn)物)和要求不太高的I/O模式。應(yīng)對(duì)這方面難題的解決方案很多,包括結(jié)合了諸多創(chuàng)新技術(shù)的方案,如文件單一實(shí)例、固定和可變長(zhǎng)度的子文件重復(fù)數(shù)據(jù)刪除、壓縮及更多技術(shù)。這個(gè)領(lǐng)域的解決方案證明了它們有時(shí)能夠把存儲(chǔ)數(shù)據(jù)縮減到原來所占空間的1/20,或者縮減得更多。由于容量?jī)?yōu)化有著如此誘人的發(fā)展前景,類似解決方案的市場(chǎng)規(guī)模已超過20億美元。

對(duì)于為支持近乎失控的數(shù)據(jù)增長(zhǎng)而焦頭爛額的IT經(jīng)理來說,這些技術(shù)無疑在其他方面(即次級(jí)存儲(chǔ)以外的方面)也有用武之地。而最明顯的莫過于所有那些數(shù)據(jù)的真正根源:主存儲(chǔ)。但是對(duì)于將興趣付諸實(shí)踐的IT經(jīng)理來說,嘗試往往以失敗告終。不像大多數(shù)次級(jí)存儲(chǔ)環(huán)境,主存儲(chǔ)對(duì)性能往往極其敏感,而且不包括數(shù)量眾多的幾乎相同的數(shù)據(jù)。如果運(yùn)用重復(fù)數(shù)據(jù)刪除技術(shù),對(duì)于那些幾乎相同的數(shù)據(jù)就能得到立竿見影的效果。

刪重VS. 壓縮

我們需要一系列獨(dú)特的功能來優(yōu)化存儲(chǔ)數(shù)據(jù)在主存儲(chǔ)上占用的空間。特別是,很難在不影響應(yīng)用性能的情況下對(duì)主存儲(chǔ)進(jìn)行優(yōu)化,無論是文件還是數(shù)據(jù)塊。主存儲(chǔ)中的隨機(jī)I/O模式,加上生產(chǎn)應(yīng)用對(duì)性能的嚴(yán)格要求,已經(jīng)使得對(duì)主存儲(chǔ)容量進(jìn)行優(yōu)化成為幾乎不可能接受的挑戰(zhàn)。

就在不久前,還沒有切實(shí)可行的方法來克服上述問題。由于現(xiàn)有的重復(fù)數(shù)據(jù)刪除技術(shù)對(duì)存儲(chǔ)性能、數(shù)據(jù)完整性及/或數(shù)據(jù)管理流程有影響,通常不盡如人意。幸好對(duì)用戶們來說,如今出現(xiàn)了一類新的數(shù)據(jù)壓縮解決方案,它們有望克服主存儲(chǔ)優(yōu)化(Primary Storage Optimization,PSO)的特定挑戰(zhàn)。

對(duì)照主存儲(chǔ)優(yōu)化的標(biāo)準(zhǔn),讓我們看看重復(fù)數(shù)據(jù)刪除(刪重)和壓縮這兩項(xiàng)主要競(jìng)爭(zhēng)技術(shù)的相比較結(jié)果如何。

重復(fù)數(shù)據(jù)刪除技術(shù)可以找出冗余數(shù)據(jù)塊,然后只保存一個(gè)副本,從而縮減數(shù)據(jù)集的大小。但盡管重復(fù)數(shù)據(jù)刪除通常能為備份數(shù)據(jù)流提供12:1到20:1的壓縮比,但在大多數(shù)主存儲(chǔ)環(huán)境下,這個(gè)壓縮比會(huì)跌到2:1。

更重要的是,重復(fù)數(shù)據(jù)刪除會(huì)導(dǎo)致性能下降,而這不符合主存儲(chǔ)的要求。在主存儲(chǔ)中,存儲(chǔ)系統(tǒng)常常超量配置,就是為了獲得性能的提高。盡管固態(tài)磁盤(SSD)等下一代技術(shù)能提高性能,且能減少磁盤的數(shù)量,但耗費(fèi)內(nèi)存、造成延遲的重復(fù)數(shù)據(jù)刪除還沒有為此做好準(zhǔn)備。

重復(fù)數(shù)據(jù)刪除給如今的控制器帶來了太長(zhǎng)的周期和太大的開銷,原因在于工作過程涉及諸多步驟,如緩存數(shù)據(jù)塊、在內(nèi)存中的B樹或類似索引中跟蹤引用、擴(kuò)大和縮小模式匹配窗口、緩存和重寫進(jìn)入到磁盤上的數(shù)據(jù)流。這類開銷(取代傳統(tǒng)上的數(shù)據(jù)從控制器傳輸?shù)酱疟P),加上毫秒級(jí)的旋轉(zhuǎn)磁盤延遲(SSD的延遲較短),明顯影響了許多應(yīng)用工作負(fù)載的性能,尤其是有大量活躍數(shù)據(jù)的工作負(fù)載。所以,適合運(yùn)用重復(fù)數(shù)據(jù)刪除的數(shù)據(jù)仍然很有限。重復(fù)數(shù)據(jù)刪除的數(shù)據(jù)縮減也許好處很明顯,高度冗余、以讀操作為主的數(shù)據(jù)集增加額外延遲也在所不惜。一些用戶發(fā)現(xiàn),用戶主目錄和VMware或Hyper-V的啟動(dòng)映像就是這種情況,它們含有大量相互重疊、相對(duì)靜態(tài)的數(shù)據(jù)。

現(xiàn)在再來談?wù)剶?shù)據(jù)壓縮方法,評(píng)估它們?yōu)橹鞔鎯?chǔ)優(yōu)化準(zhǔn)備的情況。就在不久前,還無法在不影響性能或危及數(shù)據(jù)完整性的情況下實(shí)時(shí)壓縮數(shù)據(jù)。但是Storwize等廠商提供的新技術(shù)已改變了態(tài)勢(shì),讓壓縮不但切實(shí)可行,還成為適合主存儲(chǔ)優(yōu)化(PSO)的方案。

壓縮解決方案各不相同,如今最先進(jìn)的解決方案是指網(wǎng)絡(luò)內(nèi)(帶內(nèi))設(shè)備,除了內(nèi)置或控制器功能外,它們還能壓縮數(shù)據(jù),并能針對(duì)分布在多個(gè)系統(tǒng)上的數(shù)據(jù)集進(jìn)行壓縮。這種帶內(nèi)解決方案能夠提供全速存儲(chǔ)性能,又不給現(xiàn)有的控制器帶來負(fù)擔(dān)(實(shí)際上它們還能優(yōu)化控制器的交互),同時(shí)運(yùn)用最先進(jìn)的壓縮算法。

實(shí)時(shí)壓縮又是如何進(jìn)行的呢?這種方法通常使用介于NAS存儲(chǔ)陣列(運(yùn)行NFS或CIFS)和數(shù)據(jù)用戶之間的硬件設(shè)備。使用Lempel-Ziv(LZ)等標(biāo)準(zhǔn)壓縮技術(shù),以壓縮格式寫入的每個(gè)文件完全保留了原始數(shù)據(jù)的完整性,而訪問或重新創(chuàng)建原始文件所需的全部信息都包含在剛剛壓縮的文件里面。這種“無損”壓縮方法確保了數(shù)據(jù)完整性不受到危及,這對(duì)于遵循《健康保險(xiǎn)可攜性及責(zé)任性法案》(HIPAA)和《薩班斯-奧克斯利法案》等重要的行業(yè)法規(guī)來說至關(guān)重要。而相比之下,重復(fù)數(shù)據(jù)刪除技術(shù)用指向其他數(shù)據(jù)的指針取代文件級(jí)和子文件級(jí)的數(shù)據(jù)模式,從理論上來說,這些指針可能會(huì)出現(xiàn)引用錯(cuò)誤。

帶內(nèi)解決方案在整條數(shù)據(jù)路徑提供了端到端驗(yàn)證機(jī)制,可以提供更好的完整性。由于保留了數(shù)據(jù)完整性以及在硬件設(shè)備里操作,這種壓縮滿足了PSO標(biāo)準(zhǔn)中的第三和第四個(gè)標(biāo)準(zhǔn)(見鏈接一)。

但更重要的是,實(shí)時(shí)嵌入式壓縮把主存儲(chǔ)容量的需求平均減少了50%到90%,有效壓縮比隨存儲(chǔ)數(shù)據(jù)的類型不同而有變化。比如說,數(shù)據(jù)庫和文本文件通常能獲得超過80%的壓縮比;而PDF和其他格式文檔的壓縮比通常只有50%。

壓縮還可以改善底層存儲(chǔ)系統(tǒng)的整體性能,其累加效應(yīng)完全抵消了極小的硬件設(shè)備開銷。這種解決方案在數(shù)據(jù)最初寫入時(shí)壓縮數(shù)據(jù),因而形成的磁盤I/O比較少,還減輕了磁盤的工作負(fù)載。數(shù)據(jù)壓縮后傳送到存儲(chǔ)陣列,增加了存儲(chǔ)緩存的有效容量,讓陣列可以滿足來自讀寫緩存的更多請(qǐng)求。由于讀寫在緩存里面而不是在磁盤上得到實(shí)現(xiàn),所以使讀寫速度加快了。為了進(jìn)一步加快讀取速度,帶內(nèi)設(shè)備可通過設(shè)備緩存來加大陣列緩存。

目前在這個(gè)市場(chǎng)中提供解決方案的主要廠商是Storwize。在IBM與Storwize共同進(jìn)行的一系列性能測(cè)試中,這兩家公司設(shè)法比較了壓縮給各種應(yīng)用工作負(fù)載在吞吐量和響應(yīng)時(shí)間方面帶來的影響。在TPC-C基準(zhǔn)測(cè)試中,與不使用壓縮的基準(zhǔn)情況相比,壓縮設(shè)備大大縮短了響應(yīng)時(shí)間,提高了吞吐量,還降低了NAS系統(tǒng)上的CPU和磁盤占用率。結(jié)論是,這種壓縮解決方案起碼能保持應(yīng)用性能;在許多情況下,還能提升應(yīng)用性能。

此外,壓縮的好處還會(huì)造福于存儲(chǔ)數(shù)據(jù)的整個(gè)生命周期,而不僅僅造福于主存儲(chǔ)。它不像重復(fù)數(shù)據(jù)刪除技術(shù),當(dāng)數(shù)據(jù)訪問時(shí)會(huì)重新膨脹(re-inflated)。壓縮后的數(shù)據(jù)仍可以保持壓縮狀態(tài),只要壓縮設(shè)備仍在帶內(nèi),那么數(shù)據(jù)訪問時(shí),不需要“重新膨脹”或解壓縮。由于數(shù)據(jù)在存儲(chǔ)層之間轉(zhuǎn)移時(shí),壓縮機(jī)制仍在原來位置,壓縮后數(shù)據(jù)甚至可以優(yōu)化存儲(chǔ),避開法規(guī)遵從等棘手問題。此外,壓縮后的數(shù)據(jù)轉(zhuǎn)移到近線或離線存儲(chǔ)庫后,仍可以借助其他廠商的重復(fù)數(shù)據(jù)刪除算法來加以優(yōu)化。

給存儲(chǔ)經(jīng)理的建議

如今主存儲(chǔ)環(huán)境中的數(shù)據(jù)存儲(chǔ)區(qū)(data store)在迅速變大,加上維護(hù)或提升性能服務(wù)級(jí)別的要求,優(yōu)化主存儲(chǔ)顯得必不可少。這對(duì)存儲(chǔ)經(jīng)理和公司的利潤(rùn)來說都事關(guān)重大。存儲(chǔ)經(jīng)理再也不能通過投入更多資金和運(yùn)營資源來應(yīng)對(duì)挑戰(zhàn)的辦法,以應(yīng)對(duì)存儲(chǔ)容量的瘋狂增長(zhǎng)和更嚴(yán)格服務(wù)級(jí)別協(xié)議(SLA)所帶來的雙重挑戰(zhàn)。此外,容量與性能之爭(zhēng)現(xiàn)在上升到了新的水平——SSD技術(shù)蓄勢(shì)待發(fā),等待合適的存儲(chǔ)架構(gòu)和價(jià)位,從而變成主流。但就算SSD成為主流,其較小的容量也會(huì)加劇存儲(chǔ)經(jīng)理面臨的容量問題。添加SSD很可能變成為了提升性能而超量配置容量,這是一種過時(shí)的做法,會(huì)給存儲(chǔ)管理員帶來新的壓力,必須優(yōu)化主存儲(chǔ)容量。

一些廠商的重復(fù)數(shù)據(jù)刪除技術(shù)處理近線數(shù)據(jù)和備份數(shù)據(jù)時(shí)效果非常好,比如EMC(Data Domain)、Exagrid、飛康、NetApp、昆騰、Sepaton及其他廠商。對(duì)于擁有先進(jìn)的重復(fù)數(shù)據(jù)刪除和優(yōu)化架構(gòu)的一些廠商來說,比如GreenBytes、Ocarina和Permabit,重復(fù)數(shù)據(jù)刪除增強(qiáng)了其優(yōu)化主存儲(chǔ)庫中數(shù)據(jù)的功能。但是對(duì)主存儲(chǔ)的關(guān)鍵任務(wù)生產(chǎn)工作負(fù)載來說,重復(fù)數(shù)據(jù)刪除還不是首選的解決方案。

帶內(nèi)壓縮是重復(fù)數(shù)據(jù)刪除之外的一種切實(shí)可行的選擇。我們建議用戶考慮其主存儲(chǔ)基礎(chǔ)設(shè)施中磁盤上數(shù)據(jù)的成本影響,考慮使用以實(shí)時(shí)嵌入的方式壓縮數(shù)據(jù),然后傳送到存儲(chǔ)陣列的外部PSO設(shè)備。此外,為了避免影響數(shù)據(jù)完整性和法規(guī)遵從,IT經(jīng)理應(yīng)該只考慮提供無損壓縮的解決方案。

如果用戶選擇了正確的數(shù)據(jù)壓縮解決方案,勢(shì)必會(huì)得到諸多好處,包括提高存儲(chǔ)效率,在整個(gè)數(shù)據(jù)生命周期內(nèi)減少容量、降低成本。在更大的背景下,如果容量?jī)?yōu)化策略結(jié)合針對(duì)主存儲(chǔ)的數(shù)據(jù)壓縮與針對(duì)次級(jí)存儲(chǔ)的重復(fù)數(shù)據(jù)刪除,有望讓企業(yè)能夠從存儲(chǔ)方面投入的資本支出和運(yùn)營支出得到最大的回報(bào)。

發(fā)布:2007-04-21 11:08    編輯:泛普軟件 · xiaona    [打印此頁]    [關(guān)閉]
相關(guān)文章:
長(zhǎng)沙OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設(shè)南路160號(hào)1層9號(hào)

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢:400-8352-114

加微信,免費(fèi)獲取試用系統(tǒng)

QQ在線咨詢

泛普長(zhǎng)沙OA軟件行業(yè)資訊其他應(yīng)用

長(zhǎng)沙OA 長(zhǎng)沙新聞動(dòng)態(tài) 長(zhǎng)沙OA信息化 長(zhǎng)沙OA快博 長(zhǎng)沙OA軟件行業(yè)資訊 長(zhǎng)沙軟件開發(fā)公司 長(zhǎng)沙門禁系統(tǒng) 長(zhǎng)沙物業(yè)管理軟件 長(zhǎng)沙倉庫管理軟件 長(zhǎng)沙餐飲管理軟件 長(zhǎng)沙網(wǎng)站建設(shè)公司