申請免費試用、咨詢電話:400-8352-114
知識管理與搜索引擎
近10年,以信息為基礎(chǔ)的組織或知識型企業(yè)煥發(fā)勃勃生機,創(chuàng)造和傳播知識已經(jīng)成為檢驗企業(yè)核心能力的關(guān)鍵要素,知識的創(chuàng)造和應(yīng)用能力成為不折不扣的企業(yè)核心競爭力的強力支撐。
知識管理,是針對知識本身的,包括對知識的創(chuàng)造、獲取、加工、存儲、傳播和應(yīng)用的管理。對于企業(yè)而言,知識除儲存于員工的大腦中外,還根植于企業(yè)長期積累的各種文檔,以及其他應(yīng)用系統(tǒng)的數(shù)據(jù)當(dāng)中。如何在企業(yè)龐雜的信息數(shù)據(jù)中挖掘出知識,則需要選擇相關(guān)的工具,企業(yè)知識搜索引擎則是其中之一。
針對企業(yè)知識搜索引擎的應(yīng)用需求,來自于龍卷風(fēng)科技設(shè)計開發(fā)的The Information Retrieval Management System R3 (IRMS R3),希望透過IRMS R3的開發(fā)平臺,讓搜索引擎技術(shù)能對企業(yè)知識管理應(yīng)用提供更多的支持。
數(shù)據(jù)整合
企業(yè)內(nèi)部的知識存在于各種信息載體當(dāng)中,如辦公文檔(MSOffice PDF等文件)、企業(yè)網(wǎng)站、員工論壇、OA、
CRM等應(yīng)用系統(tǒng)數(shù)據(jù)。針對企業(yè)中龐雜的非結(jié)構(gòu)文檔,各種應(yīng)用復(fù)雜的數(shù)據(jù)存儲方式,IRMS R3中提出了虛擬數(shù)據(jù)庫層 (Data Virtualization Layer)的概念。
IRMS R3中虛擬數(shù)據(jù)庫層的構(gòu)思與該系統(tǒng)其它階層采用的平臺開發(fā)理念是一致的。在這個底層,虛擬數(shù)據(jù)庫層分為數(shù)據(jù)提取層(Data Source Composer)和文件解析層(Data Extraction Layer),兩個組件來協(xié)同進行各種復(fù)雜的數(shù)據(jù)存儲格式的解析。
其中,數(shù)據(jù)提取層(Data Source Composer)能分析在各種文件管理系統(tǒng)、內(nèi)容管理系統(tǒng)(Documentum、FileNET等)或其它信息處理軟件(IBM Notes、MSExchange、各種DBMS等)中所找到的分布式數(shù)據(jù)庫數(shù)據(jù)。將企業(yè)內(nèi)部的各個異構(gòu)數(shù)據(jù)環(huán)境整合起來,使得企業(yè)知識搜索引擎可以覆蓋企業(yè)內(nèi)部所有的知識載體,讓價值信息無一漏網(wǎng)。
而文件解析層則能分析各種文件格式(TXT、 MS Office、PDF、EML、ZIP等),并對這些文件的各種屬性進行提取,從而提供使用者可以通過文件屬性,文件內(nèi)容等多個維度定位需要的文檔,獲取信息,并將其轉(zhuǎn)化為知識。
為了適應(yīng)不同企業(yè)更復(fù)雜的數(shù)據(jù)環(huán)境,這兩個階層提供靈活的擴展性,都可以通過簡單的程序開發(fā)來支持企業(yè)內(nèi)部獨特的數(shù)據(jù)存儲方式及文檔格式。像龍卷風(fēng)數(shù)據(jù)索引系統(tǒng)(Indexing System)和標(biāo)準(zhǔn)的檢索組件(Standard Retrieval Components)都經(jīng)過特別設(shè)計,能滿足以雙字節(jié)字符集(如繁簡中文,日文等)格式或存有多國語系文件的跨國企業(yè)知識搜索引擎的需求。
同時,IRMS R3符合行業(yè)標(biāo)準(zhǔn)、松散耦合的開放式的組件設(shè)計,能隨時加入有新功能的組件或其它廠商的組件,從而強化系統(tǒng)功能。
信息總線技術(shù)
IRMS R3中信息總線 (Info Bus) 在整個信息平臺具有承先啟后的關(guān)鍵地位。一方面,它和底層的虛擬數(shù)據(jù)層整合,各種數(shù)據(jù)源會統(tǒng)一經(jīng)過虛擬數(shù)據(jù)層的分析,并將取得的內(nèi)容統(tǒng)一存放到信息總線上。同時,對于上層的IR組件模塊(搜尋引擎模塊、自然語言處理模塊、自動分類模塊等)而言,信息總線則扮演信息提供者的角色,統(tǒng)一將透過虛擬數(shù)據(jù)層粹取出來的數(shù)據(jù)進行集中管理,并提供各IR組件取用。如此一來,各個IR組件不需負擔(dān)數(shù)據(jù)源分析的工作,直接讀取信息總線上的數(shù)據(jù),即可輕易取得各種異構(gòu)數(shù)據(jù)源的內(nèi)容。
值得注意的是,IRMS R3 的信息總線并不是單純的數(shù)據(jù)儲存點。為配合信息檢索(Information Retrieval)的信息處理需求,R3的信息總線是被設(shè)計成一個隊列式(Queue)的儲存架構(gòu)。一開始,所有從虛擬數(shù)據(jù)層取得的數(shù)據(jù)會先被置放在隊列儲存中心(Queue Store)集中管理。等到上層的各個IR組件要開始處理數(shù)據(jù)時,在隊列儲存中心(Queue Store)的資料會被移轉(zhuǎn)到處理儲存中心(Process Store)。這樣可以確保原始數(shù)據(jù)的內(nèi)容選取以及內(nèi)容分析可同時并行。最后,當(dāng)各個IR組件完成所需的數(shù)據(jù)分析,數(shù)據(jù)會被統(tǒng)一搬移到歷史儲存中心(History Store),方便將來如果有個別IR組件需要重新讀取數(shù)據(jù)內(nèi)容時,直接讀取位于歷史儲存中心的數(shù)據(jù),即可取得完整的數(shù)據(jù)內(nèi)容。
知識地圖和關(guān)鍵詞檢索
Delphi Group曾經(jīng)做過的一份調(diào)查顯示,一般人最希望的知識管理工具,「搜索引擎」和「自動分類」排名在前十名之中。因此,企業(yè)內(nèi)若要讓知識的利用率提高,提供完整的信息檢索工具是必然的工作,但必須了解
導(dǎo)覽(Navigation) + 搜索(Search) = 完整的信息檢索方式
因此,對于企業(yè)知識搜索引擎而言,單純的關(guān)鍵詞檢索僅能提供對已知關(guān)鍵詞匯下的查詢,而構(gòu)建企業(yè)知識地圖對于知識搜索則是十分必要的。
IRMS R3中的自動分類組件提供了以機器自動學(xué)習(xí)技術(shù)為基礎(chǔ)的內(nèi)容/消息分類器(Content/Message classifier),可將暨有的內(nèi)容或消息分類到預(yù)先定義的目錄樹中,或是更進一步的透過訓(xùn)練機制來做分類工作?;贗RMS R3的自動分類組件構(gòu)建企業(yè)知識地圖,使得使用者結(jié)合導(dǎo)覽+搜索的完整信息檢索方式,更快更準(zhǔn)確的在
企業(yè)信息數(shù)據(jù)中發(fā)現(xiàn)所需知識,以便應(yīng)用,開拓創(chuàng)造思維。
同時,IRMS R3提供最新的導(dǎo)覽式動態(tài)分類服務(wù),它整合了全文檢索(Full-Text Search)以及自動分類(Auto-Classification)的兩大信息檢索技術(shù),提供使用者一個完整的信息檢索應(yīng)用情境。
IRMS R3 導(dǎo)覽式動態(tài)分類服務(wù)將分類與搜索接口進行了完美的結(jié)合,使用者除了可以利用全文檢索取得符合查詢條件的結(jié)果集并且逐一瀏覽,還能夠進一步實時的取得該查詢集合對應(yīng)于整個信息分類(知識地圖)的分布情況。使用者可以在最短時間內(nèi)了解整個查詢結(jié)果集合的特性及分布情況,同時也能有效率地從眾多數(shù)據(jù)集合中篩選出切合自己需要的目標(biāo)信息。
Java/MS COM Model
●相關(guān)鏈接●
企業(yè)級搜索引擎的特點
企業(yè)網(wǎng)絡(luò)基礎(chǔ)設(shè)施的逐步完善,企業(yè)業(yè)務(wù)系統(tǒng)和應(yīng)用系統(tǒng)紛紛上馬,導(dǎo)致企業(yè)積累的信息資源迅速膨脹,甚至出現(xiàn)了諸如“拯救被信息淹沒的企業(yè)”這樣的呼吁。于是,企業(yè)級搜索引擎的發(fā)展日益引人注目。與互聯(lián)網(wǎng)搜索引擎相比較,企業(yè)級搜索引擎具有以下特點:
GB級索引數(shù)據(jù)量
面向企業(yè)本身的數(shù)據(jù)或與企業(yè)相關(guān)的數(shù)據(jù),索引庫規(guī)模在GB級,數(shù)據(jù)量至多以千萬條計。
多源異構(gòu)數(shù)據(jù)類型
多源異構(gòu)的復(fù)雜數(shù)據(jù)結(jié)構(gòu),結(jié)構(gòu)化(關(guān)系型數(shù)據(jù)庫)、非結(jié)構(gòu)化(HTML、Office系列、文檔文件系統(tǒng)和郵件系統(tǒng)等)和半結(jié)構(gòu)化(XML等)數(shù)據(jù)資源;以文本、數(shù)值以及多媒體形式存在的數(shù)據(jù)資源,可能分布在不同介質(zhì)的載體和操作管理平臺上。
數(shù)據(jù)實時更新
企業(yè)內(nèi)部的搜索結(jié)果往往關(guān)系到企業(yè)的運營與決策,因此必須實時反應(yīng)企業(yè)信息更新,動態(tài)更新索引,保證數(shù)據(jù)一致性。
內(nèi)容相關(guān)性
數(shù)據(jù)源中相互鏈接的程度不高,只能是基于內(nèi)容的相關(guān)性排序。
嚴格的安全性
做為企業(yè)級搜索引擎應(yīng)能夠繼承數(shù)據(jù)庫原有的安全機制,更要能讓用戶在其訪問權(quán)限范圍內(nèi)返回相應(yīng)的查詢結(jié)果。
全面搜索
衡量搜索引擎性能的指標(biāo)之一是查全率(Recall),即檢索出的相關(guān)結(jié)果與網(wǎng)絡(luò)資源庫中所有相關(guān)結(jié)果的比率。互聯(lián)網(wǎng)搜索引擎無法做到全面搜索,因為任何一個搜索引擎服務(wù)商都無法窮盡互聯(lián)網(wǎng)上的每個網(wǎng)頁。而企業(yè)級搜索引擎在某些應(yīng)用中,是不允許有所遺漏的檢索。
準(zhǔn)確搜索
衡量搜索引擎性能的另一個指標(biāo)是查準(zhǔn)率(Precision),即檢索出的相關(guān)結(jié)果與檢索出的所有結(jié)果的比率?;ヂ?lián)網(wǎng)搜索引擎受到海量數(shù)據(jù)(TB級甚至更高)和龐大用戶數(shù)的限制,相對而言,企業(yè)級搜索引擎在提高信息檢索結(jié)果的精度上,可以走得更遠。
對一個檢索系統(tǒng)來講,查全率和查準(zhǔn)率不可能兩全其美,目前有的企業(yè)級搜索引擎通過提供更加復(fù)雜細致的檢索選項和檢索表達式,或者是提供一些可調(diào)節(jié)的系統(tǒng)參數(shù),來部分滿足兩全其美的需求。
個性化檢索
基于智能代理技術(shù)(Intelligent Agents Technology)的信息過濾和個性化服務(wù)。
|