基于知識管理的數(shù)字檔案館的數(shù)據(jù)挖掘

來源：泛普軟件

1.數(shù)據(jù)挖掘定義與分類

數(shù)字檔案館，作為傳統(tǒng)實體檔案館在信息時代的新型組織形式，是實體檔案館在信息時代不斷創(chuàng)新和發(fā)展的必然，是迎接知識經(jīng)濟時代挑戰(zhàn)，拓展傳統(tǒng)實體檔案館功能，滿足用戶需求，提供個性化、多樣化服務的關鍵，也是提高社會檔案意識的新契機。那么，如何從數(shù)字檔案館浩如煙海的大量數(shù)字化資源中提煉、挖掘出有價值的，對數(shù)字檔案館進行知識積累、知識創(chuàng)新有著數(shù)據(jù)支撐作用的有效信息，這是未來數(shù)字檔案館建設所面臨的重要課題。數(shù)據(jù)挖掘技術(shù)正是解決這一難題的有效途徑，數(shù)據(jù)挖掘是當今計算機領域的熱點，其成果也廣泛應用于圖書情報領域，筆者受這些研究的啟發(fā)，力圖就數(shù)據(jù)挖掘技術(shù)在基于知識管理的數(shù)字檔案館中的應用進行探討。

1.數(shù)據(jù)挖掘定義與分類

1.1數(shù)據(jù)挖掘的定義

數(shù)據(jù)挖掘是一門很廣義的交叉學科，脫胎于計算機，雖然已應用到諸多領域，圖書、情報界的實踐也已經(jīng)充分驗證其價值，但在檔案界，數(shù)據(jù)挖掘仍然被當成深奧的技術(shù)和理論，很多檔案工作者對個這概念還是云霧迷蒙，比較模糊。那么什么是數(shù)據(jù)挖掘呢？數(shù)據(jù)挖掘（Data Ming），就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中，提取隱含在其中的、人們事先不知道的、但又是潛在的有用信息和知識的過程①。這個過程的目的是為了發(fā)現(xiàn)隱藏在大量數(shù)據(jù)泥沙中的 “知識金礦”，因此，將數(shù)據(jù)挖掘定義為“數(shù)據(jù)中的知識挖掘”更為恰當②。所以，數(shù)據(jù)挖掘也被人稱為知識挖掘、知識抽取等。

1.2數(shù)據(jù)挖掘的分類

數(shù)據(jù)挖掘可以根據(jù)挖掘任務的不同，把數(shù)據(jù)挖掘方法分為概念描述、關聯(lián)分析、分類分析、聚類分析、偏差檢測等多種類型，具體如下：

1.2.1概念描述（Concept description）

就是通過分析和比較，將某類相互關聯(lián)的數(shù)據(jù)進行匯總，歸納出此類對象的相關特征，對關于此類的大量信息進行描述，這些描述是抽象的，有意義的。它的類型有兩種：特征性描述和區(qū)別性描述。1）特征性描述適用于描述某類對象的共同之處，例如，某檔案館的檔案數(shù)據(jù)庫中存在大量的用戶基本信息，其中涉及：姓名、年齡、工作、利用喜好等信息，如果對歷史研究者進行描述，很有可能得出以下結(jié)果：以高校教師、學生為主，以編修各種志書、撰寫史學研究文章為目的。2）區(qū)別性描述，用于描述兩個或多個類對象之間的差異，例如，對企業(yè)用戶和歷史研究者特征進行比較，也許能得出以下規(guī)則：主要利用生產(chǎn)管理和科研管理方面的檔案信息，以取得一定經(jīng)濟效益和社會效益為目的。

1.2.2關聯(lián)分析（Association analysis）

就是描述數(shù)據(jù)庫中數(shù)據(jù)項之間存在的相關特性，即挖掘出隱藏在數(shù)據(jù)項之間的相互關系，具體來說，若其中兩項數(shù)據(jù)或多項數(shù)據(jù)存在著某種關聯(lián)，其中一項數(shù)據(jù)就能依據(jù)其它數(shù)據(jù)進行預測。關聯(lián)分析能發(fā)現(xiàn)用戶利用不同檔案信息之間的關聯(lián)，分析預測用戶利用模式。

1.2.3分類分析（Classification analysis）

就是將數(shù)據(jù)庫中的數(shù)據(jù)有序的聚合在一起，有助于人們對事物的全面把握③。分類分析可分為結(jié)構(gòu)化數(shù)據(jù)分類分析，如關系數(shù)據(jù)庫中的數(shù)據(jù)，和非結(jié)構(gòu)化數(shù)據(jù)分類分析，如文本數(shù)據(jù)。分類分析的具體過程為：用一組特征不同的類別為一個數(shù)據(jù)集合中的數(shù)據(jù)進行分類，然后找出描述這些數(shù)據(jù)的模型，并根據(jù)這個模型將數(shù)據(jù)劃分到不同的類別中，利用這個模型可以預測未知的數(shù)據(jù)。分類分析可以通過已有用戶檔案數(shù)據(jù)庫中的數(shù)據(jù)，揭示用戶特征和用戶利用行為之間的關系，并按照影響用戶行為的程度對這些數(shù)據(jù)進行分類，用來預測未來的用戶行為。

1.2.4聚類分析（Clustering analysis）

就是將數(shù)據(jù)庫中的數(shù)據(jù)劃分為不同數(shù)據(jù)類的過程，它與分類分析不同，前者是在預先不考慮已知分類模型的情況下，把數(shù)據(jù)放入不同的分類中，聚類的目的是根據(jù)最大化類內(nèi)的相似性，最小化類間的相似性這一原則合理的劃分數(shù)據(jù)集合④，簡單來說就是使類內(nèi)的差別最小化，類間的差別最大化，這樣就可以把類似的數(shù)據(jù)組織在一起并導出某種規(guī)則。

1.2.5偏差檢測（Deviation detection）

就是通過發(fā)現(xiàn)數(shù)據(jù)庫中的異常情況對偏差的數(shù)據(jù)進行分析的過程，重點是發(fā)現(xiàn)數(shù)據(jù)中的異常變化，數(shù)據(jù)庫中的數(shù)據(jù)變異可能是人為錯誤引起的，更有可能是數(shù)據(jù)更新等自然變化的結(jié)果。偏差檢測的意義在于可以有效排除大量不相關的數(shù)據(jù)。例如，某檔案館在形成某種編研成果之前，先在用戶信息數(shù)據(jù)庫中進行檢索，并與檔案館數(shù)據(jù)庫中的已有資源結(jié)合，再用數(shù)據(jù)挖掘技術(shù)將不想關的用戶利用模型排除，把剩下的作為重點，制定有針對性的編研策略。

2.基于知識管理的數(shù)字檔案館中的數(shù)據(jù)挖掘

前面已經(jīng)介紹了數(shù)據(jù)挖掘的概念及模式，那么基于知識管理的數(shù)字檔案館的數(shù)據(jù)挖掘應該是怎樣的呢？筆者認為首先應對數(shù)字檔案館資源、知識管理和數(shù)據(jù)挖掘的關系定位。數(shù)字檔案館的知識資源要被組織和發(fā)現(xiàn)，這是數(shù)字檔案館實現(xiàn)現(xiàn)代化科學管理，提供快捷、優(yōu)質(zhì)服務的基礎。對數(shù)字檔案館實施知識管理是應對知識經(jīng)濟時代挑戰(zhàn)，最大化數(shù)字檔案館知識資源潛力，最終實現(xiàn)數(shù)字檔案館知識創(chuàng)新的必然要求。沒有實施知識管理的數(shù)字檔案館無法滿足未來發(fā)展的需要，缺乏管理對象的知識也成了無源之水。數(shù)據(jù)挖掘是組織和發(fā)現(xiàn)數(shù)字檔案館中知識資源的有效途徑，為數(shù)字檔案館實施知識管理創(chuàng)造了條件，是兩者得以無縫鏈接的承上啟下階段。這里的數(shù)據(jù)挖掘不能看成是純粹的信息處理技術(shù)，它是對信息處理技術(shù)集群進行協(xié)調(diào)和管理的方法和策略。基于知識管理的數(shù)字檔案館中的數(shù)據(jù)挖掘是以網(wǎng)絡和數(shù)字化資源為基礎，立足于多種信息技術(shù)的協(xié)調(diào)和配合，以實施挖掘算法和挖掘模型為手段，以組織和發(fā)現(xiàn)數(shù)字檔案館中已存在的知識資源，為實施知識管理提供管理對象為目的，讓數(shù)字檔案館有效利用知識，實現(xiàn)知識創(chuàng)新的過程。

3.基于知識管理的數(shù)字檔案館中的主要挖掘?qū)ο?/P>

3.1數(shù)字檔案館中的固化資源

這是存在于數(shù)字檔案館中的顯性知識，即記錄于一定物質(zhì)載體上的知識⑤，包括：已數(shù)字化的館藏資源、現(xiàn)行電子文件、檢索工具、編研成果，與數(shù)字檔案館工作相關的各種法律法規(guī)、規(guī)章制度、行業(yè)標準等，圍繞數(shù)字檔案館建設所產(chǎn)生的研究成果、技術(shù)資料及有助于數(shù)字檔案館發(fā)展的其它相關知識。

3.2數(shù)字檔案館中的智力資源

這是存在于數(shù)字檔案館中的隱性知識，是存在于檔案館行政管理人員、政策法規(guī)研究人員、信息技術(shù)人員、對外協(xié)調(diào)人員等頭腦中所儲備的大量非編碼智力資源，包括：各種管理方法、計算機處理技術(shù)、處理問題的能力等。由于人是知識管理的核心，是知識管理中最活躍的最主動的因素⑥，所以對這部分知識的挖掘也是數(shù)字檔案館知識挖掘的重點。

3.3用戶利用行為信息

用戶的利用行為信息包括兩方面，利用信息和反饋信息。利用信息是用戶為了解決現(xiàn)實問題，滿足學術(shù)、科研、生產(chǎn)等需求，在實施具體利用行為時所產(chǎn)生的信息，包括：訪問內(nèi)容、訪問頻率、訪問時間等，它們反映出用戶對數(shù)字化資源的個性化、多樣化需求及利用規(guī)律。反饋信息是在檔案利用這一連續(xù)活動中，檔案利用者發(fā)現(xiàn)的問題和情況、提出的要求、意見、評價和效益等⑦。對這些數(shù)據(jù)的挖掘，可用于對用戶未來利用趨勢的分析預測，以及提出在此基礎上的管理決策，為提高數(shù)字檔案館的服務水平提供依據(jù)。

發(fā)布：2007-04-27 16:20 編輯：泛普軟件 · xiaona [打印此頁] [關閉]

相關欄目：

上一篇：ERP選型切勿迷戀平臺型產(chǎn)品

下一篇：HR：企業(yè)績效管理應用實踐的幾大誤區(qū)

重慶OA系統(tǒng)

聯(lián)系方式

成都公司：成都市成華區(qū)建設南路160號1層9號

重慶公司：重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓

咨詢：400-8352-114

加微信，免費獲取試用系統(tǒng)

QQ在線咨詢

電話咨詢：
4008352114

QQ在線咨詢

基于知識管理的數(shù)字檔案館的數(shù)據(jù)挖掘

泛普重慶OA行業(yè)資訊其他應用