監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價咨詢管理系統(tǒng) | 工程設(shè)計管理系統(tǒng) | 甲方項目管理系統(tǒng) | 簽約案例 | 客戶案例 | 在線試用
X 關(guān)閉

非結(jié)構(gòu)化數(shù)據(jù)的歸檔術(shù)

申請免費試用、咨詢電話:400-8352-114

朱立谷

 

固定內(nèi)容都是非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)。與交易數(shù)據(jù)(數(shù)據(jù)庫)相比,固定內(nèi)容的數(shù)量增長速度更快,管理難度也更大。調(diào)查顯示,全球數(shù)據(jù)量的75%都是固定內(nèi)容數(shù)據(jù),針對非結(jié)構(gòu)化數(shù)據(jù)的歸檔成了當(dāng)務(wù)之急。

文件存儲與搜索技術(shù)的現(xiàn)狀

非結(jié)構(gòu)化數(shù)據(jù)的分類

文件存儲的現(xiàn)狀

一些國家的法規(guī)對固定內(nèi)容的歸檔存儲提出了嚴(yán)格要求。例如,2002年7月25日,美國頒布了《薩班斯-奧克斯萊法案》。該法案敦促企業(yè)必須建立正確的IT基礎(chǔ)架構(gòu),選擇適當(dāng)?shù)碾娮游臋n存儲技術(shù)以便實現(xiàn)法規(guī)遵從。

在傳統(tǒng)的網(wǎng)絡(luò)存儲和文件系統(tǒng)中存儲的是二進(jìn)制流文件,不允許對固定內(nèi)容對象建立更豐富的數(shù)據(jù)模型,因此,在傳統(tǒng)的文件系統(tǒng)中要找到需要的內(nèi)容非常困難??梢姡脩裘媾R的挑戰(zhàn)從數(shù)據(jù)存儲變成了數(shù)據(jù)管理,幫助用戶迅速找到需要的信息成為存儲系統(tǒng)的一個新的功能需求。

為了實現(xiàn)對數(shù)量龐大的數(shù)字內(nèi)容進(jìn)行高效的存儲與搜索,學(xué)術(shù)界和企業(yè)界從網(wǎng)絡(luò)存儲架構(gòu)和文件搜索技術(shù)兩個方面進(jìn)行了大量研究。

網(wǎng)絡(luò)存儲架構(gòu)的研究

由于基于塊(SAN)和文件(NAS)的網(wǎng)絡(luò)存儲不能同時滿足高性能和數(shù)據(jù)共享的需求,對象存儲的概念應(yīng)運而生。對象存儲能有效結(jié)合SAN和NAS系統(tǒng)的優(yōu)點,通過數(shù)據(jù)和元數(shù)據(jù)的分離簡化管理,還可直接訪問磁盤,以提高性能,同時滿足高性能和數(shù)據(jù)共享的需求。在面向?qū)ο蟮拇鎯ο到y(tǒng)研究和開發(fā)中,有兩個分支引起了學(xué)術(shù)界和企業(yè)界的廣泛關(guān)注。其中一個分支是智能存儲,如NASD、LUSTRE等,另一個分支則是基于內(nèi)容的存儲,如內(nèi)容尋址存儲 (Content Addressable Storage,CAS)。

在CAS中,傳統(tǒng)的文件名被一個根據(jù)文件內(nèi)容通過某種特定算法計算出來的字符串所取代。它是一個表征該數(shù)據(jù)對象的全局惟一的數(shù)字標(biāo)識符,或稱為數(shù)字指紋。一種常用的方法是根據(jù)數(shù)據(jù)內(nèi)容計算出固定長度的Hash來代替文件名。CAS維持一個描述組成原數(shù)據(jù)對象的各個數(shù)據(jù)塊的數(shù)字標(biāo)識符清單,為具體應(yīng)用提供可用的CAS數(shù)據(jù)塊,以重組原數(shù)據(jù)對象。對于網(wǎng)絡(luò)存儲系統(tǒng)的客戶端而言,只需使用這一數(shù)字標(biāo)識符來實現(xiàn)對內(nèi)容的存取。

由于CAS采用的是基于對象的接口,因此在數(shù)據(jù)對象的存儲過程中,它既可以達(dá)到塊接口的速度和效率,又在數(shù)據(jù)對象共享和管理中具有文件接口的便利。因此,對于固定內(nèi)容數(shù)據(jù)的存儲,CAS具有很高的性能。

CAS將應(yīng)用和內(nèi)容的物理位置完全隔離,可以自動檢測數(shù)據(jù)對象的變化,實時保護(hù)數(shù)據(jù)對象不被惡意修改,維持?jǐn)?shù)據(jù)對象的完整性。同時,數(shù)據(jù)對象的數(shù)字指紋是從內(nèi)容得到的全球惟一的ID,可以用于WORM和內(nèi)容認(rèn)證。

除此之外,CAS技術(shù)提供了單一實例存儲,可消除數(shù)據(jù)冗余,提高存儲空間利用率。由于相同內(nèi)容的數(shù)據(jù)對象的數(shù)字指紋是一致的,因此在同一CAS系統(tǒng)中,相同內(nèi)容的文件只允許存在非策略性的一個存儲實例。

CAS技術(shù)的上述特點使之在文件歸檔和法規(guī)遵從等領(lǐng)域擁有獨特的優(yōu)勢,特別適合長久保存非結(jié)構(gòu)和半結(jié)構(gòu)化數(shù)據(jù)。

業(yè)界知名的基于內(nèi)容的存儲原型系統(tǒng)包括貝爾實驗室開發(fā)的Venti網(wǎng)絡(luò)存儲系統(tǒng)、加利福尼亞大學(xué)研究開發(fā)的 Deep Store歸檔存儲系統(tǒng),以及Intel等開發(fā)的CASPER分布式文件系統(tǒng)。

基于內(nèi)容的存儲系統(tǒng)也有很多,比如EMC推出的業(yè)界第一款CAS產(chǎn)品——Centera、Permabit公司推出的軟件CAS產(chǎn)品——Permeon Reference Vault等。HDS、HP、IBM、Nexsan、Sun等廠商和許多初創(chuàng)公司也相繼推出了CAS產(chǎn)品。

目前,主要的CAS產(chǎn)品使用API來實現(xiàn)存儲,因此必須在API基礎(chǔ)上開發(fā)應(yīng)用程序,或者依靠內(nèi)容管理系統(tǒng)與其他產(chǎn)品進(jìn)行集成才能使用,但這樣的集成系統(tǒng)往往是昂貴而低效的。2006年,ESG的一份研究報告稱,讓存儲系統(tǒng)具有搜索功能是CAS技術(shù)發(fā)展的必由之路。

文件搜索技術(shù)的研究

在過去10多年中,文件系統(tǒng)技術(shù)并沒有大的變革,而新數(shù)據(jù)類型(如電子郵件、多媒體)不斷出現(xiàn),包括了豐富的元數(shù)據(jù)。傳統(tǒng)的文件系統(tǒng)是基于目錄和文件的層次型結(jié)構(gòu),沒有給予元數(shù)據(jù)信息足夠重要的位置,對于存儲在文件系統(tǒng)中的數(shù)據(jù)都缺乏語義支持,因此不能提供高層的、基于語義的關(guān)聯(lián)式數(shù)據(jù)存取。認(rèn)識到現(xiàn)有的文件系統(tǒng)的不足,學(xué)術(shù)界和企業(yè)界做了大量工作,研究如何提高文件的搜索和獲取效率,主要方向包括通過擴(kuò)展文件系統(tǒng)的元數(shù)據(jù)屬性構(gòu)建新型文件系統(tǒng),以及利用文件的元數(shù)據(jù)信息進(jìn)行文件瀏覽與搜索。

名詞解釋:固定內(nèi)容

固定內(nèi)容(Fixed Content)就是自創(chuàng)建以后不再更改,并具有長時間保存價值的數(shù)據(jù)對象,如辦公文檔、電子郵件、電視新聞、醫(yī)療圖片等。固定內(nèi)容包含了與企業(yè)業(yè)務(wù)相關(guān)的內(nèi)容和可為企業(yè)提供價值的信息,因此也稱為參考數(shù)據(jù)(Reference Data)。

鏈 接:語義文件系統(tǒng)

語義文件系統(tǒng)通過增加文件屬性的數(shù)量,使文件系統(tǒng)包含更多的元數(shù)據(jù),進(jìn)而利用這些元數(shù)據(jù)信息提供更豐富的功能。語義文件系統(tǒng)利用元數(shù)據(jù)抽取工具獲取更多的元數(shù)據(jù),記錄用戶活動,并采用手工或其他方法對文件進(jìn)行標(biāo)注,最后將這些信息結(jié)合起來形成統(tǒng)一元數(shù)據(jù),并通過元數(shù)據(jù)信息在非結(jié)構(gòu)化文件和數(shù)據(jù)庫數(shù)據(jù)之間建立起鏈接。

語義文件系統(tǒng)是實現(xiàn)虛擬文件系統(tǒng)的一個有效途徑,如Microsoft的WinFS和Apple公司的Spotlight虛擬文件夾。虛擬文件夾可采用XML格式的文本文件表示,內(nèi)容是對數(shù)據(jù)庫進(jìn)行查詢后返回的結(jié)果組成的列表,包含了指向符合某種規(guī)則的文件或文件夾的鏈接。

語義文件系統(tǒng)可對文件進(jìn)行高效的分類,如Linux平臺下基于用戶空間文件系統(tǒng)(Filesystem in Userspace)的TagFS采用智能標(biāo)簽(Smart Tagging)機(jī)制,動態(tài)地讓數(shù)據(jù)文件具備特定的標(biāo)簽,加了標(biāo)簽的數(shù)據(jù)文件的呈現(xiàn)能依據(jù)用戶的偏好與意圖分類,并依據(jù)權(quán)重排序后呈現(xiàn)。

語義文件系統(tǒng)便于用戶對數(shù)據(jù)文件進(jìn)行高效的搜索。目前,將語義文件系統(tǒng)和各種桌面應(yīng)用相結(jié)合成為業(yè)界的研究熱點,也就是桌面搜索。

內(nèi)容存儲思想的提出

面向內(nèi)容存儲的技術(shù)與應(yīng)用

CAS存儲系統(tǒng)的功能單一,不能提供可直接使用的文件對象瀏覽和搜索功能,雖然可以滿足文件歸檔和留存的需求,但不能滿足電子發(fā)現(xiàn)的需求。文件搜索有很好的文件搜索功能,能夠滿足電子發(fā)現(xiàn)的需求,但不提供數(shù)據(jù)組織和管理功能,不能滿足長期留存的需求。這個局限是由于目前的研究將數(shù)據(jù)存儲與數(shù)據(jù)管理技術(shù)完全隔離開造成的,實際上違背了用戶的需求。將數(shù)據(jù)存儲和數(shù)據(jù)管理技術(shù)進(jìn)行綜合研究具有巨大的應(yīng)用價值,CAS和文件搜索的融合可以為企業(yè)文件歸檔和電子發(fā)現(xiàn)提供可行的技術(shù)方法。

通過對面向內(nèi)容存儲的技術(shù)的研究發(fā)現(xiàn),存儲技術(shù)與數(shù)據(jù)管理技術(shù)存在一個融合規(guī)則,即CAS與元數(shù)據(jù)(數(shù)據(jù)管理)的融合就是對象存儲,對象存儲與內(nèi)容管理的融合屬于信息存儲范疇,而信息存儲與知識管理的技術(shù)融合就是內(nèi)容存儲。

內(nèi)容存儲涉及廣泛的技術(shù)領(lǐng)域,包括對象存儲、內(nèi)容管理、元數(shù)據(jù)、語義Web,同時內(nèi)容存儲具有廣闊的應(yīng)用空間,如數(shù)據(jù)分類、信息發(fā)表、內(nèi)容檢索等??梢赃@樣認(rèn)為,將語義Web技術(shù)和文件搜索引擎技術(shù)應(yīng)用于內(nèi)容存儲,特別是將語義Web和信息存儲中的核心技術(shù)進(jìn)行融合必定會取得良好的效果。

內(nèi)容存儲

傳統(tǒng)的存儲系統(tǒng)是追求高性能而不是數(shù)據(jù)保留的長久性,是在塊中分布數(shù)據(jù)而不是使空間效率最大化,是為了讀寫數(shù)據(jù)而不是永久地保存數(shù)據(jù),并且只提供了一些安全措施,沒有堅實的抗毀性。

固定內(nèi)容的存儲需要具有區(qū)別于文件系統(tǒng)的特性,即可以極大地降低存儲成本,具有不可改變的特性(一次寫入,多次讀取),可以動態(tài)擴(kuò)展,提高可靠性。固定內(nèi)容的存儲比磁帶系統(tǒng)具有更小的延時,還有通用接口、搜索能力(尤其是在PB級存儲系統(tǒng)中)。使用固定內(nèi)容的存儲,幾十年或幾百年后對資料進(jìn)行讀取都可以像現(xiàn)在對本地或分布系統(tǒng)的讀取一樣方便。固定內(nèi)容數(shù)據(jù)必須被長期保存,以便今后檢索,保存的時間可能會超過存儲硬件的預(yù)計壽命,甚至可能超過存儲軟件系統(tǒng)和其接口的使用壽命。

文件系統(tǒng)依賴于基于位置-數(shù)據(jù)映射的方法來尋址數(shù)據(jù)(居留于文件系統(tǒng)中的文件),數(shù)據(jù)隨時可以修改。文件系統(tǒng)的數(shù)據(jù)定位方法(如文件名)可能是非常復(fù)雜和脆弱的。固定內(nèi)容存儲使用存取標(biāo)記機(jī)制來進(jìn)行對象尋址,只要客戶應(yīng)用程序用一個記號和數(shù)據(jù)(數(shù)據(jù)庫記錄)關(guān)聯(lián)起來,擁有適當(dāng)?shù)拇嫒?quán)限的應(yīng)用服務(wù)器或客戶端就可以從任何地理位置獲取數(shù)據(jù)。當(dāng)一個客戶端發(fā)出請求,CAS產(chǎn)生一個全球惟一的標(biāo)識(存取標(biāo)記),稍后可以用來獲取對象??蛻粼诙ㄎ粚ο髸r不必?fù)?dān)心掛載點、路徑或操作系統(tǒng)文件名的限制。應(yīng)用(客戶端或服務(wù)器)只需要提交一個標(biāo)記,CAS服務(wù)器就將對象返回。

通過從網(wǎng)絡(luò)類型、接口類型、尋址方法和關(guān)鍵特性等幾個方面與NAS和SAN對比可以發(fā)現(xiàn),CAS特別適合于固定內(nèi)容的存儲需要。

CAS是一種對象存儲系統(tǒng)。CAS中數(shù)據(jù)存儲的基本單元是對象。與常規(guī)存儲系統(tǒng)中所使用的文件或塊不同,對象包括文件數(shù)據(jù)加上定義數(shù)據(jù)的不同方面的屬性。這些屬性可以是在一個文件的基礎(chǔ)上定義的元數(shù)據(jù)和服務(wù)質(zhì)量。與通常的塊存儲不同,對象存儲系統(tǒng)必須跟蹤系統(tǒng)中每個塊的所有屬性。這簡化了存儲系統(tǒng)的任務(wù),并通過將數(shù)據(jù)的管理與數(shù)據(jù)自身一起存儲,從而增加了存儲系統(tǒng)的靈活性。

CAS解決了傳統(tǒng)的基于文件名存取數(shù)據(jù)的一些缺點。例如,它可以識別兩個文件名不同但是內(nèi)容完全相同的文件,可以避免相同數(shù)據(jù)的多次存儲,從而節(jié)省大量的空間。另外,CAS還具有高可管理性、高可用性和安全性好等優(yōu)勢。

內(nèi)容管理

相對于存儲在關(guān)系數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)而言,內(nèi)容管理的對象是以各類非結(jié)構(gòu)化數(shù)據(jù)為主的數(shù)字內(nèi)容,包括企業(yè)的各種文檔、報表、賬單、網(wǎng)頁、圖片、傳真、掃描影像,以及大量多媒體的音頻、視頻信息等。與業(yè)務(wù)信息系統(tǒng)中大量用于交易記錄、流程控制和統(tǒng)計分析的數(shù)據(jù)相比,固定內(nèi)容具有某種特定和持續(xù)的價值,這種價值在共享、檢索、分析等使用過程中得以產(chǎn)生和放大,并最終對企業(yè)的業(yè)務(wù)和戰(zhàn)略產(chǎn)生影響。

內(nèi)容管理的目標(biāo)是,實現(xiàn)對各種環(huán)境下以各類非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)為主的內(nèi)容的綜合管理,提供內(nèi)容采集、創(chuàng)建、加工、存儲、傳遞、組織、服務(wù)和反饋等內(nèi)容全生命周期過程中所需的各項功能,以及元數(shù)據(jù)管理、智能檢索和分析、數(shù)字版權(quán)和內(nèi)容安全等專項技術(shù),使內(nèi)容得到高效利用和增值,給內(nèi)容所有者和消費者帶來效益。

內(nèi)容存儲與內(nèi)容管理的結(jié)合

存儲與內(nèi)容管理結(jié)合的方式

固定內(nèi)容存儲和企業(yè)內(nèi)容管理擁有完全相同的對象,即非結(jié)構(gòu)化數(shù)據(jù),兩者必定能夠建立起某種聯(lián)系。

在EMC Centera中,應(yīng)用程序不再使用傳統(tǒng)的文件訪問或塊訪問接口,要求應(yīng)用程序必須進(jìn)行修改,以使用新的API來實現(xiàn)存儲。EMC開放了Centera的API接口,以吸引獨立軟件開發(fā)商在其API基礎(chǔ)上開發(fā)應(yīng)用程序,或?qū)υ械膽?yīng)用進(jìn)行移植。目前,許多廠家的內(nèi)容管理系統(tǒng)通過與Centera系統(tǒng)結(jié)合實現(xiàn)了具體的應(yīng)用,如電子郵件歸檔系統(tǒng)、醫(yī)療圖像歸檔與管理系統(tǒng)、文檔歸檔與內(nèi)容管理系統(tǒng)等。

Permabit公司的CAS產(chǎn)品——Compliance Vault提供了更多能夠滿足法規(guī)遵從的功能和特性。Compliance Vault軟件能夠被安裝在任何符合Intel標(biāo)準(zhǔn)架構(gòu)的服務(wù)器上,并兼容來自不同廠商(Dell、HP和IBM)的存儲設(shè)備。每一臺安裝了 Compliance Vault軟件的服務(wù)器都將成為Permabit Permeon存儲解決方案中的存儲節(jié)點。Compliance Vault為外部應(yīng)用提供了標(biāo)準(zhǔn)的CIFS/NFS API,可與大多數(shù)內(nèi)容管理產(chǎn)品協(xié)同合作。但是,Compliance Vault本身并沒有提供搜索和容量報告功能,這些功能必須由Permabit的合作伙伴來實現(xiàn)。

目前,CAS產(chǎn)品不能提供一個完整的固定內(nèi)容存儲解決方案,必須依靠與其他產(chǎn)品進(jìn)行集成才能應(yīng)用。不但如此,CAS產(chǎn)品本身還十分昂貴。美國PRIAA工業(yè)協(xié)會的報告指出,1臺EMC的Centera的價格為10萬~20萬美元;Archivias聲稱其ArC(2004年4月推出)的價格為Centera的一半;而Sun的IntelliStore(2005年6月推出)最低配置(4TB)的價格為7.5萬美元。據(jù)此計算,這些CAS產(chǎn)品加上其他配套軟硬件組成的固定內(nèi)容存儲解決方案最少要花費數(shù)百萬元,這顯然是中小型企業(yè)難以負(fù)擔(dān)的。

用戶希望存儲廠商根據(jù)用戶的實際應(yīng)用量身定制存儲與管理統(tǒng)一的服務(wù)系統(tǒng),而不是提供許多單一功能的產(chǎn)品,然后組合成一個昂貴而低效的集成系統(tǒng)。

如果充分利用固定數(shù)據(jù)對象中的元數(shù)據(jù)作為橋梁,便可以將內(nèi)容管理技術(shù)和CAS技術(shù)結(jié)合起來,將目前CAS和內(nèi)容管理集成的固定內(nèi)容存儲管理方案變成對外提供存儲和管理統(tǒng)一服務(wù)的一體化解決方案。因此,中國傳媒大學(xué)計算機(jī)學(xué)院推出了一種新的基于內(nèi)容管理的存儲系統(tǒng)平臺,稱為CAStor內(nèi)容存儲-管理系統(tǒng),將CAS存儲與內(nèi)容管理結(jié)合在一起。

傳統(tǒng)的存儲系統(tǒng)包括DAS、NAS和SAN,它們基于文件系統(tǒng)尋址存儲系統(tǒng)中的數(shù)據(jù),并進(jìn)行數(shù)據(jù)管理,因此不具有固定內(nèi)容存儲需要的特性。CAS內(nèi)容尋址存儲系統(tǒng)將數(shù)據(jù)分級、元數(shù)據(jù)技術(shù)、高速索引和搜索技術(shù)集成到存儲系統(tǒng)中,便于和內(nèi)容管理軟件進(jìn)行集成,構(gòu)成固定內(nèi)容存儲方案。CAStor內(nèi)容存儲-管理系統(tǒng)是一種純軟件的存儲系統(tǒng)架構(gòu),適合于各種開放的PC服務(wù)器和磁盤陣列,采用內(nèi)容尋址技術(shù),可為企業(yè)提供集存儲服務(wù)、內(nèi)容管理、內(nèi)容服務(wù)于一體的系統(tǒng)平臺。

發(fā)布:2007-03-25 10:58    編輯:泛普軟件 · xiaona    [打印此頁]    [關(guān)閉]
相關(guān)文章:
南昌OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設(shè)南路160號1層9號

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢:400-8352-114

加微信,免費獲取試用系統(tǒng)

QQ在線咨詢