當(dāng)前位置:工程項目OA系統(tǒng) > 領(lǐng)域應(yīng)用 > 免費人力資源系統(tǒng) > 免費檔案管理軟件
淺析基于數(shù)據(jù)挖掘的數(shù)字檔案信息管理研究
論文關(guān)鍵詞:數(shù)字化 圖書管理 檔案化
論文摘要:隨著社會主義現(xiàn)代化的發(fā)展,計算機技術(shù)的進步,信息技術(shù)在社會發(fā)展的各個領(lǐng)域都扮演著極其重要的角色。信息化建設(shè)更是被我國列為經(jīng)濟社會發(fā)展的首要內(nèi)容。網(wǎng)頁檔案化管理包括文檔、文字翻譯轉(zhuǎn)換、圖片資料、聲像資料、多媒體遠程會議等。尤其是大學(xué)檔案館更側(cè)重教學(xué)與科研,網(wǎng)頁檔案化管理是必然的趨勢。
在信息化發(fā)展的今天,圖書館,特別是大學(xué)圖書館不僅要對信息進行簡單的數(shù)字轉(zhuǎn)換和管理,更要對新興事物網(wǎng)絡(luò)進行檔案化管理和歸檔,包括文檔、文字翻譯轉(zhuǎn)換、圖片資料、聲像資料、多媒體遠程會議等。所以網(wǎng)絡(luò)檔案化管理,成為當(dāng)今圖書管理的必然趨勢,這就必須對檔案化管理的技術(shù)和法律相關(guān)問題進行深入闡述和探討。
所謂數(shù)據(jù)挖掘(Data Mining),就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識的過程。這些數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),也可以是半結(jié)構(gòu)化的,如文本,圖形,圖像數(shù)據(jù),甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)了的知識可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還可以進行數(shù)據(jù)自身的維護。數(shù)據(jù)挖掘借助了多年來數(shù)理統(tǒng)計技術(shù)和人工智能以及知識工程等領(lǐng)域的研究成果構(gòu)建自己的理論體系,是涉及數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、機械學(xué)、人工神經(jīng)網(wǎng)絡(luò)、可視化、并行計算等的交叉學(xué)科,是目前國際上數(shù)據(jù)庫和決策支持領(lǐng)域的最前沿的研究方向之一。
一、數(shù)據(jù)挖掘的功能
數(shù)據(jù)挖掘通過預(yù)測未來趨勢及行為,做出預(yù)測性的、基于知識的決策。數(shù)據(jù)挖掘的目標(biāo)是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、有意義的知識,按其功能可分為以下幾類。
1、關(guān)聯(lián)分析
關(guān)聯(lián)分析能尋找到數(shù)據(jù)庫中大量數(shù)據(jù)的相關(guān)聯(lián)系,常用的一種技術(shù)為關(guān)聯(lián)規(guī)則和序列模式。關(guān)聯(lián)規(guī)則是發(fā)現(xiàn)一個事物與其他事物間的相互關(guān)聯(lián)性或相互依賴性。
2、聚類
輸入的數(shù)據(jù)并無任何類型標(biāo)記,聚類就是按一定的規(guī)則將數(shù)據(jù)劃分為合理的集合,即將對象分組為多個類或簇,使得在同一個簇中的對象之間具有較高的相似度,而在不同簇中的對象差別很大。聚類增強了人們對客觀現(xiàn)實的認識,是概念描述和偏差分析的先決條件。聚類技術(shù)主要包括傳統(tǒng)的模式識別方法和數(shù)學(xué)分類學(xué)。
3、自動預(yù)測趨勢和行為
數(shù)據(jù)挖掘自動在大型數(shù)據(jù)庫中進行分類和預(yù)測,尋找預(yù)測性信息,自動地提出描述重要數(shù)據(jù)類的模型或預(yù)測未來的數(shù)據(jù)趨勢,這樣以往需要進行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。
4、概念描述
對于數(shù)據(jù)庫中龐雜的數(shù)據(jù),人們期望以簡潔的描述形式來描述匯集的數(shù)據(jù)集。概念描述就是對某類對象的內(nèi)涵進行描述并概括出這類對象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。生成一個類的特征性只涉及該類對象中所有對象的共性。生成區(qū)別性描述的方法很多,如決策樹方法、遺傳算法等。
5、偏差檢測
數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規(guī)則的特例、觀測結(jié)果與模型預(yù)測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是尋找觀測結(jié)果與參照值之間有意義的差別。這常用于金融銀行業(yè)中檢測欺詐行為,或市場分析中分析特殊消費者的消費習(xí)慣。
二、數(shù)據(jù)挖掘在建設(shè)現(xiàn)代化高校檔案館中的應(yīng)用
1、資源類數(shù)據(jù)包括館藏檔案經(jīng)過數(shù)字化加工而產(chǎn)生的各類電子檔案、電子文件中心中存儲的各類電子檔案、檔案軟件收集的信息、檔案信息網(wǎng)建設(shè)和維護信息。我們從研究大學(xué)檔案用戶的信息需求出發(fā),數(shù)據(jù)挖掘為大學(xué)檔案館全面掌握和準(zhǔn)確理解檔案用戶的信息需求提供了方法。
(1) 利用Web訪問信息挖掘技術(shù)發(fā)現(xiàn)其中的關(guān)聯(lián)模式、序列模式和Web訪問趨勢等,構(gòu)建多維視圖的用戶興趣模型。從而可以確定檔案信息或服務(wù)受歡迎的程度,發(fā)現(xiàn)用戶訪問模式和用戶需求的趨勢,從不同側(cè)面來研究用戶的信息需求,為優(yōu)化檔案館的檔案信息資源建設(shè)提供了科學(xué)依據(jù)。
(2) 收集大學(xué)檔案網(wǎng)web服務(wù)器保留的用戶注冊信息、訪問記錄,以及有關(guān)用戶與系統(tǒng)交互的信息等原始數(shù)據(jù),經(jīng)過清洗、濃縮和轉(zhuǎn)換形成便于統(tǒng)計分析的用戶查閱數(shù)據(jù)庫、日志數(shù)據(jù)庫、用戶定制信息庫、用戶反饋信息等各種數(shù)據(jù)集合。
[1] [2] 下一頁
- 1試論社會保險電子檔案管理系統(tǒng)的創(chuàng)新
- 2試論基建施工企業(yè)檔案與檔案信息化工作
- 3淺析信息資源管理背景下 檔案信息開發(fā)人員科學(xué)思維的構(gòu)建
- 4試析信息化條件下如何改進檔案管理工作
- 5簡論落后地區(qū)醫(yī)療人事檔案管理問題及改革模式研究
- 6淺談當(dāng)前高校學(xué)生檔案管理工作者應(yīng)具備的能力素質(zhì)
- 7關(guān)于新形式下高?;n案管理工作的創(chuàng)新
- 8試析檔案管理信息平臺的深化與應(yīng)用
- 9試論檔案信息化過程中若干問題的理性思考
- 10淺析人力資源檔案管理存在的問題及措施
- 11淺析基于數(shù)據(jù)挖掘的數(shù)字檔案信息管理研究
- 12關(guān)于信息公開背景下的突發(fā)公共衛(wèi)生事件檔案管理初探
- 13淺談高等學(xué)校財務(wù)電子檔案的管理
- 14試論設(shè)項目電子文件歸檔質(zhì)量控制
- 15關(guān)于檔案信息服務(wù)中隱私權(quán)的保護問題研究
- 16試論新時期高校民生檔案工作
- 17淺議企業(yè)技術(shù)創(chuàng)新環(huán)境下的檔案信息化建設(shè)
- 18試論檔案信息資源的開發(fā)利用與整合
- 19淺析普通高校網(wǎng)絡(luò)教育學(xué)籍管理工作研究
- 20淺析企業(yè)檔案信息管理開發(fā)與利用的重要性
- 21簡論學(xué)生健康體檢檔案信息化促進健康管理
- 22試論數(shù)字檔案信息系統(tǒng)檢索效率研究
- 23淺談信息化背景下加強高校教學(xué)檔案管理的幾點思考
- 24淺談信息時代高校檔案信息化管理工作的探索與實踐
- 25淺談新背景下的高校教學(xué)檔案管理
- 26淺析數(shù)字圖書館咨詢服務(wù)模式對數(shù)字檔案館的啟示
- 27對于博物館檔案管理問題與對策研究
- 28對于新形式下的檔案管理的創(chuàng)新服務(wù)
- 29試論高校教學(xué)檔案數(shù)字化建設(shè)中存在的問題及對策