當前位置:工程項目OA系統(tǒng) > 泛普各地 > 江西OA系統(tǒng) > 南昌OA系統(tǒng) > 南昌OA快博
從內(nèi)隱到外顯-淺談知識挖掘(AMT研究院 管燦)
數(shù)據(jù)庫對大家來說早已不是一個陌生的概念,數(shù)據(jù)庫系統(tǒng)提供了對紛繁復雜資料的管理和簡單處理,人們可以利用這些資料進行商業(yè)分析和科學研究。但隨著全球范圍內(nèi)資料量的急劇增加,面對龐大的數(shù)據(jù)庫人們的需求已經(jīng)不只是簡單的查詢和維護,而是希望能夠?qū)@些數(shù)據(jù)進行較高層次的處理、分析以得到關(guān)于資料、信息總體特征和對發(fā)展趨勢的預測。尤其是知識管理概念的提出,對知識的有效收集、利用和共享提出了更高層次的要求,作為知識管理支撐工具之一的傳統(tǒng)資料挖掘技術(shù)已經(jīng)不能完全滿足知識管理所提出的需要,于是知識挖掘應運而生。
知識挖掘技術(shù)的提出
根據(jù)Nonaka提出的著名知識螺旋圖(圖1)。我們明確了知識挖掘在知識管理中所起的作用。
圖1 知識螺旋圖
這副圖說明組織中的知識不斷在進行著隱性知識和顯性知識的相互轉(zhuǎn)化,而知識管理所要實現(xiàn)的,就是組織中個人的隱性知識(即內(nèi)隱)到組織的顯性知識(外顯),再到組織的內(nèi)部知識之間的轉(zhuǎn)化。知識管理就是要為這樣的轉(zhuǎn)化創(chuàng)造條件,以促使轉(zhuǎn)化的順利完成,從而實現(xiàn)知識在組織中的有效利用和共享。在這個過程中,在從個人的內(nèi)隱知識轉(zhuǎn)化到組織的外顯知識時,需要知識挖掘技術(shù)這個有利的支持工具。
知識挖掘的概念
知識挖掘的定義幾經(jīng)變動,最新的描述性定義是由Usama M.Fayyyad等給出的,即認為知識挖掘是從資料集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。這個定義可以這樣來理解:資料記錄的是有關(guān)事實的集合,是一些原始的信息。模式是一個用語言來表示的一個表達式,它可用來描述資料集的某個子集。對大量資料進行分析的過程,包括資料準備、模式搜索、知識評價,以及反復的修改求精,是一個非平凡的過程。因為,它要求一定程度的智能性、自動性。這個有效性,體現(xiàn)在發(fā)現(xiàn)知識的模式對于新的資料仍保持有一定的可信度。新穎性則要求發(fā)現(xiàn)的模式必須是新的。潛在有用性是指發(fā)現(xiàn)的知識在將來有實際效用,如用于決策支持系統(tǒng)里可提高經(jīng)濟效益,而可理解性體現(xiàn)在發(fā)現(xiàn)的模式能夠被用戶理解。
知識挖掘?qū)o序的信息變?yōu)橛行虻闹R,提高信息的共享程度和使用效率。知識挖掘中要研究機器學習理論,包括學習的計算復雜性和樣本復雜性;研究挖掘有效的方法和算法,各種算法的評價體系,等等。
知識挖掘與數(shù)據(jù)挖掘
談起知識挖掘,就不能不提到數(shù)據(jù)挖掘,直到現(xiàn)在理論界對于這兩種技術(shù)仍然沒有明顯的區(qū)分。從某種意義上來說,兩者同屬于一個概念,但側(cè)重點又有所不同。
數(shù)據(jù)挖掘就是應用一系列技術(shù)從大型數(shù)據(jù)庫或者資料倉庫的資料中提取人們感興趣的信息和知識,這些知識或信息是隱含的、事先未知而潛在有用的,提取的知識表示為概念(Concepts)、規(guī)則(Rules)、模式(Patterns)等形式。隨著數(shù)據(jù)庫信息量的日益龐大,數(shù)據(jù)挖掘的出現(xiàn),是為了解決所謂“資料豐富,但信息貧乏”的狀況。
到目前為止,數(shù)據(jù)挖掘技術(shù)經(jīng)過一個這樣的發(fā)展過程:第一代數(shù)據(jù)挖掘軟件的特點是支持一個或少數(shù)幾個資料挖掘算法,典型的系統(tǒng)如Salford Systems公司早期的CART系統(tǒng)。但是,如果資料足夠大,并且頻繁的變化,這就需要利用數(shù)據(jù)庫或者資料倉庫技術(shù)進行管理,第一代系統(tǒng)就不能滿足需求。在第一代數(shù)據(jù)挖掘軟件的基礎上,經(jīng)過增加一定的算法,人們推出了第二代數(shù)據(jù)挖掘軟件。其具有的特點是與數(shù)據(jù)庫管理系統(tǒng)(DBMS)集成,支持數(shù)據(jù)庫和資料倉庫,和它們具有高性能的接口,具有高的可擴展性,并且能夠挖掘大資料集、以及更復雜的資料集,還可通過支持資料挖掘模式(data mining schema)和資料挖掘查詢語言增加系統(tǒng)的靈活性。典型的系統(tǒng)如DBMiner,能通過DMQL挖掘語言進行挖掘操作。同樣,第二代數(shù)據(jù)挖掘軟件仍然有不足之處,如只注重模型的生成。但正因為研究如何和預言模型系統(tǒng)集成導致了第三代數(shù)據(jù)挖掘系統(tǒng)的開發(fā)。
知識挖掘的概念前面已經(jīng)提到過了,知識挖掘?qū)儆谥R科學中的概念。與知識科學相關(guān)的其它問題還有:知識的數(shù)學理論、知識的邏輯基礎、知識模型、知識共享等。從更廣的范圍來講,知識挖掘的概念要大于數(shù)據(jù)挖掘,對挖掘技術(shù)本身和挖掘的結(jié)果要求也更高一些。因為知識挖掘不僅僅要求所得知識的有用,還要新穎,有潛在價值,并能被客戶理解。
知識挖掘的概念較之數(shù)據(jù)挖掘要新,但它已被越來越多的領(lǐng)域所采用,并取得了較好效果。這些領(lǐng)域有科學研究、市場營銷、金融投資、產(chǎn)品制造、通信網(wǎng)路管理等。不過,知識挖掘目前仍處于發(fā)展的早期,還有很多研究難題和面臨的挑戰(zhàn),如數(shù)據(jù)的巨量性、動態(tài)性、噪聲性、缺值和稀疏性,發(fā)現(xiàn)模式的可理解性、價值性,應用系統(tǒng)的集成,用戶的交互操作,知識的更新管理,復雜數(shù)據(jù)庫的處理等等。
知識挖掘不同于搜索引擎
信息檢索指文本信息檢索,包括信息的存儲、組織、表現(xiàn)、查詢、存取等各個方面,其核心為文本信息的索引和檢索。從歷史上看,信息檢索經(jīng)歷了手工檢索、計算機檢索到目前網(wǎng)絡化、智能化檢索等多個發(fā)展階段。知識挖掘是信息檢索的一個分支,目前主要是指文本挖掘技術(shù),目的是幫助人們更好的發(fā)現(xiàn)、組織、表示信息,提取知識,滿足信息檢索的高層次需要,其具體內(nèi)容包括摘要、分類(聚類)和相似性檢索等方面。
搜索引擎的發(fā)展和應用得益于互聯(lián)網(wǎng)技術(shù)的突飛猛進,搜索引擎技術(shù)中也普遍采用了全文信息檢索技術(shù),但互聯(lián)網(wǎng)上的信息搜索和企業(yè)信息搜索是不同的,知識挖掘和搜索引擎的區(qū)別很容易理解:
首先是資料量。知識挖掘的一般索引庫規(guī)模多在GB級,但互聯(lián)網(wǎng)網(wǎng)頁搜索需要處理幾千萬上億的網(wǎng)頁,搜索引擎的基本策略都是采用檢索服務器群集,對大多數(shù)企業(yè)應用來說,這是不適合也不必要的。
其次是內(nèi)容的相關(guān)性。Google等搜索引擎發(fā)展了網(wǎng)頁鏈接分析技術(shù),根據(jù)互聯(lián)網(wǎng)上網(wǎng)頁被連接次數(shù)作為重要性評判的依據(jù)。而真正在作知識挖掘時,由于組織內(nèi)部網(wǎng)站的網(wǎng)頁鏈接是由網(wǎng)站內(nèi)容采編發(fā)布系統(tǒng)決定的,其鏈接次數(shù)存在偶然因素,這時的檢索要求按照內(nèi)容的相關(guān)性排序,即與檢索要求最相關(guān)的信息排在檢索結(jié)果的前面,鏈接分析技術(shù)此種排序基本不起作用。
再就是安全性?;ヂ?lián)網(wǎng)搜索引擎都基于文件系統(tǒng),但組織在采用知識挖掘技術(shù)時,其面對的信息、知識庫一般會安全和集中地存放在資料倉庫中以保證資料安全和管理的要求。
最后就是個性化和智能化的程度。由于搜索引擎資料和客戶規(guī)模的限制,相關(guān)反饋、知識檢索、知識挖掘等計算密集的智能技術(shù)很難應用,而組織專門采用的知識挖掘應用在智能化和個性方面要去更高,走得更遠。
知識挖掘與知識發(fā)現(xiàn)
知識發(fā)現(xiàn)(KDD)是從資料、信息中發(fā)現(xiàn)有用知識的整個過程,這個過程具體包括:
1. 學習某個應用領(lǐng)域:包括應用中的預先知識和目標。
2. 建立目標資料集:選擇一個資料集或在多資料集的子集上聚焦。
3. 資料轉(zhuǎn)換:找到數(shù)據(jù)的特征表示,用維變換或轉(zhuǎn)換方法減少有效變量的數(shù)目或找到資料的不變式。
4. 知識挖掘功能:決定資料 / 知識挖掘的目的。
5. 知識挖掘:搜索或產(chǎn)生一個特定的感興趣的模式或一個特定的資料集。
6. 解釋:解釋某個發(fā)現(xiàn)的模式,去掉多余的不切題意的模式,轉(zhuǎn)換某個有用的模式,以使用戶明白。
7. 發(fā)現(xiàn)知識:把這些知識結(jié)合到運行系統(tǒng)中,獲得這些知識的作用或證明這些知識。用預先、可信的知識檢查和解決知識中可能的矛盾。
由上面的過程看來,可以認為知識挖掘是知識發(fā)現(xiàn)(Knowledge Discovery in
Database)的一個特定步驟,它是一系列技術(shù)及應用,或者說是對大容量資料及資料間關(guān)系進行考察和建模的方法集,是從數(shù)據(jù)庫中抽取隱含的、以前未知的、具有潛在應用價值的信息的過程,其目標是將大容量資料轉(zhuǎn)化為有用的知識和信息。知識挖掘是KDD最核心的部分,知識挖掘的成敗將直接影響到所發(fā)現(xiàn)知識的好壞。
知識挖掘技術(shù)是為實現(xiàn)知識從內(nèi)隱到外顯轉(zhuǎn)化服務的。它和數(shù)據(jù)挖掘技術(shù)從某種意義上來講有非常多的共同點,但其對結(jié)果的要求更高,更具價值性。知識挖掘不同于目前普遍為人所熟知的互聯(lián)網(wǎng)搜索引擎技術(shù),它針對的是某些特定的數(shù)據(jù)庫、知識庫,服務的是特定的組織相關(guān)人員。知識挖掘是知識發(fā)現(xiàn)的其中一個步驟,但是是最關(guān)鍵、最核心的部分。
- 1對手淘汰與用戶淘汰
- 2知識化電廠管理模型的研究(一)(李江林)
- 3OA系統(tǒng)辦公管理系統(tǒng)建設大連XX集團協(xié)同辦公系統(tǒng)
- 4知識之前,人人平等
- 5看美國企業(yè)的檔案工作
- 6[技術(shù)] 南昌OA的實現(xiàn)技術(shù)與方法分析(AMT 袁磊)
- 7管理OA促進企業(yè)管理革新和OA深度應用的捷徑
- 8AMT咨詢沈靈芝:隱性知識該如何管理?
- 9項目管理思想在南昌OA中的應用(2004-06-17)
- 10南昌OA 修復企業(yè)信息化斷鏈(1)
- 11[理論] 四個必須克服的障礙(林偉仁 譯)
- 12OA辦公軟件南昌哪家公司的好?
- 13將管理思想融入企業(yè)知識門戶(劉建偉)
- 14南昌OA軟件實用不?哪家比較好?
- 15如何跨越知識鴻溝——知識共享的實現(xiàn)方法·上(AMT研究院 徐嵩泉)
- 16非結(jié)構(gòu)化數(shù)據(jù)的歸檔術(shù)
- 17危機管理:探究在中國跨國公司危機管理的短板
- 18江西省港航局召開OA系統(tǒng)應用研討會
- 19三思文庫·知識經(jīng)濟系列·總序
- 20信息生命周期管理(ILM)崎嶇前行
- 21企業(yè)信息化:南昌OA要有人負責
- 22關(guān)于渠道支配的幾個理論問題
- 23[原創(chuàng)]我理解的南昌OA之一:目標驅(qū)動的南昌OA
- 24[理論] 建立以適應共享為基礎的企業(yè)管理體系
- 25中國保險業(yè),你離南昌OA還有多遠?(AMT研究院 葛星)
- 26南昌OA的起點(孫洪波)
- 27基于Web的PDM系統(tǒng)的文檔管理
- 28應用ASP技術(shù)實現(xiàn)對PDM軟件的客戶化開發(fā)
- 29知識型企業(yè)中的南昌OA模式分析 (AMT研究院 袁磊)
- 30解讀南昌OA七個認識錯誤
成都公司:成都市成華區(qū)建設南路160號1層9號
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓
版權(quán)所有:泛普軟件 渝ICP備14008431號-2 渝公網(wǎng)安備50011202501700號 咨詢電話:400-8352-114