監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價(jià)咨詢(xún)管理系統(tǒng) | 工程設(shè)計(jì)管理系統(tǒng) | 甲方項(xiàng)目管理系統(tǒng) | 簽約案例 | 客戶(hù)案例 | 在線(xiàn)試用
X 關(guān)閉

架起結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)之間的橋梁(AMT 唐曉輝 編譯)

申請(qǐng)免費(fèi)試用、咨詢(xún)電話(huà):400-8352-114

AMTeam.org

什么是“非結(jié)構(gòu)化數(shù)據(jù)”?大家為什么大聲疾呼要求提供結(jié)構(gòu)化數(shù)據(jù)呢?結(jié)構(gòu)化數(shù)據(jù)指的是諸如企業(yè)財(cái)務(wù)賬目和生產(chǎn)數(shù)據(jù)、學(xué)生的分?jǐn)?shù)數(shù)據(jù)等存在邏輯關(guān)系的數(shù)據(jù)和信息,非結(jié)構(gòu)化數(shù)據(jù)的則是一些文本數(shù)據(jù)、圖像聲音等多媒體數(shù)據(jù)等等。非結(jié)構(gòu)化的數(shù)據(jù)通常占到一個(gè)組織所有信息的80%~90%,比如:Word和PowerPoint文檔、電子郵件以及企業(yè)網(wǎng)內(nèi)的時(shí)事通訊等等。公司的雇員總是抱怨在開(kāi)始一個(gè)新項(xiàng)目的時(shí)候總要從頭開(kāi)始尋找相關(guān)資料,從一長(zhǎng)串文件夾中找到他們要的資料總會(huì)花費(fèi)他們大量的時(shí)間。IT部門(mén)正在努力讓用戶(hù)能夠獲取并盡量多的使用組織內(nèi)的數(shù)據(jù),想把這些數(shù)據(jù)和組織內(nèi)更多的活動(dòng)聯(lián)系起來(lái)?,F(xiàn)在的熱門(mén)話(huà)題就是如何克服現(xiàn)有的關(guān)系數(shù)據(jù)庫(kù)中面向記錄的數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù)包之間的差距。企業(yè)中非結(jié)構(gòu)化的電子文檔數(shù)據(jù)越來(lái)越多,現(xiàn)在的首要目標(biāo)是要知道一個(gè)企業(yè)如何利用所有可能的信息才能使企業(yè)的運(yùn)作更加有效?但是很多公司、企業(yè)卻發(fā)現(xiàn)這并不是一個(gè)簡(jiǎn)單的任務(wù)。

 首先,處理所有的原始數(shù)據(jù)是一個(gè)非常令人生畏的事情;其次,對(duì)一個(gè)特定的用戶(hù)或者任務(wù)而言,并不需要所有的信息,因此很多IT部門(mén)開(kāi)始只關(guān)注那些價(jià)值更高的應(yīng)用,這些應(yīng)用只使用到那些更容易“消化”的信息;甚至更為嚴(yán)重的是,一些IT部門(mén)只設(shè)計(jì)獲取那些特殊應(yīng)用的信息訪問(wèn)途徑,這和企業(yè)更高層次的信息訪問(wèn)目標(biāo)是相違背的。上述這些趨勢(shì)可能會(huì)打亂企業(yè)的長(zhǎng)期的計(jì)劃。

 企業(yè)在信息訪問(wèn)方面的最大目標(biāo)――對(duì)所有信息的智能化訪問(wèn)――要求企業(yè)能夠支持對(duì)很多不同任務(wù)、部門(mén)以及涉及到很多個(gè)人工作的項(xiàng)目的信息的訪問(wèn)。知識(shí)工作者沒(méi)有那么多的時(shí)間學(xué)習(xí)很多不同的操作界面或者去很多不同的地方把各種不同的信息收集到一起去完成他們的各種工作。這是我們首先要解決的問(wèn)題。這種現(xiàn)實(shí)已經(jīng)導(dǎo)致了門(mén)戶(hù)網(wǎng)站這個(gè)概念的出現(xiàn)和實(shí)現(xiàn)。然而門(mén)戶(hù)網(wǎng)站還不夠,我們想要的并不是僅僅把所有的文檔集中到一點(diǎn)(很多公眾網(wǎng)就是這樣的)。

 “企業(yè)搜索”只能通過(guò)瀏覽器一頁(yè)一頁(yè)的上翻下翻,根本不能滿(mǎn)足企業(yè)現(xiàn)在的信息需求。很多更高級(jí)的功能――分類(lèi)、信息可視化、數(shù)據(jù)挖掘和分析等等――正在被逐步開(kāi)發(fā)利用,以?xún)?yōu)化企業(yè)的原始資料的搜索。如果這些功能能夠有效的利用,這必將給用戶(hù)對(duì)信息的訪問(wèn)帶來(lái)極大的便利。

 但是企業(yè)首先必須清楚他們所尋找的是什么?他們已經(jīng)有哪些了?以及他們將如何使用這些信息?為了得到更好的信息訪問(wèn),我們有必要明確關(guān)于信息的一些概念和區(qū)別。當(dāng)然,現(xiàn)有的運(yùn)行良好的結(jié)構(gòu)化數(shù)據(jù)(關(guān)系數(shù)據(jù)庫(kù))與非結(jié)構(gòu)化數(shù)據(jù)(文檔)的區(qū)別很重要。一個(gè)企業(yè)也要區(qū)分內(nèi)部和外部需求。通常,項(xiàng)目需求調(diào)查總是說(shuō),知識(shí)管理系統(tǒng)應(yīng)該把信息需求的各個(gè)方面都整合其中,但實(shí)際上這并不是一件簡(jiǎn)單的事。

 結(jié)構(gòu)化/非結(jié)構(gòu)化:毫無(wú)疑問(wèn),用戶(hù)希望從關(guān)系數(shù)據(jù)庫(kù)中獲取數(shù)據(jù)、從門(mén)戶(hù)網(wǎng)站上獲取相關(guān)的文檔。但是我們要再次強(qiáng)調(diào)的是:提供很多“高質(zhì)量”的網(wǎng)頁(yè)鏈接是一種很不充分的、效率不高的方式。用戶(hù)需要內(nèi)容分析技術(shù)以展示模式或者不規(guī)則信息,需要信息可視化功能來(lái)顯示并操作有用的知識(shí)?!八阉鳌边€遠(yuǎn)遠(yuǎn)不夠,知識(shí)工作者需要的是“找到”。

 內(nèi)部網(wǎng)/外部網(wǎng):非常明顯,每個(gè)企業(yè)都非常價(jià)值的內(nèi)部網(wǎng)絡(luò)信息供企業(yè)內(nèi)部使用,同時(shí)企業(yè)也會(huì)提供外部網(wǎng)頁(yè)或者網(wǎng)站供公眾訪問(wèn)。挑戰(zhàn)就在于如何讓企業(yè)內(nèi)部人員能夠隨時(shí)訪問(wèn)自己企業(yè)的所有信息并盡可能方便的訪問(wèn)企業(yè)外部其它地方的信息,同時(shí)又要防范企業(yè)外部人員看到他們不應(yīng)該看到的企業(yè)內(nèi)部信息。比如:一個(gè)配藥公司的研究人員很想通過(guò)自己的賬戶(hù)訪問(wèn)關(guān)于市場(chǎng)的新聞,而他自己的賬戶(hù)又可以隨時(shí)訪問(wèn)很多內(nèi)部網(wǎng)的關(guān)于公司配藥方面的極有價(jià)值的信息。此時(shí)會(huì)不會(huì)出現(xiàn)什么問(wèn)題呢?這是我們必須要考慮的問(wèn)題。

 內(nèi)容/上下文:現(xiàn)在流行的搜索方式――基于內(nèi)容的搜索――只限于文檔內(nèi)“關(guān)鍵詞”的搜索。文檔總是包含很多詞組,這些詞組之間有著各種各樣的關(guān)系。基于內(nèi)容的搜索方式會(huì)根據(jù)關(guān)鍵詞給出很多相關(guān)或者不相關(guān)的文檔鏈接。如果一個(gè)文檔有各種各樣的關(guān)于上下文的索引,能夠幫助用戶(hù)決定一個(gè)特殊的資源是否能夠滿(mǎn)足他的需要,這將為用戶(hù)帶來(lái)很大的便利。比如對(duì)研究者而言,每篇文章后面的參考文獻(xiàn)都可能是和他所要研究課題非常相關(guān)的文檔。如果搜索引擎能夠基于參考文獻(xiàn)給出用戶(hù)想要的搜索結(jié)果,這也許比基于文檔內(nèi)關(guān)鍵詞給出的成千上萬(wàn)的搜索結(jié)果更有用。

 操作層/戰(zhàn)略層:一些重要的文檔通常都會(huì)存儲(chǔ)起來(lái)以支持企業(yè)特定的操作層目標(biāo)的實(shí)現(xiàn)(比如,制藥公司的藥物配方文檔)。這些文檔在使用后都會(huì)按規(guī)定或者其它原因而保留、嚴(yán)格的管理起來(lái)。查閱、使用這些文檔都有一些困難或者風(fēng)險(xiǎn)。而通常,在未來(lái)的信息、知識(shí)管理中卻不得不花費(fèi)大量的時(shí)間和精力來(lái)處理這些過(guò)去的嚴(yán)格保存的文檔。因此很多項(xiàng)目在進(jìn)行中只去找一些很容易獲得的信息。這是一個(gè)嚴(yán)重的錯(cuò)誤。制定相關(guān)措施,定期公布一些保密的文檔也是非常重要的。

 我們都知道“知識(shí)就是力量”,但是普遍存在的一種現(xiàn)象就是:一旦某些文檔或者信息產(chǎn)生,它們就有可能在組織內(nèi)保存起來(lái)、不再使用,這種情況給組織帶來(lái)不必要的損失。很多CIO和CEO們對(duì)此也無(wú)能為力,不知道如何是好。對(duì)于一個(gè)有前瞻性的組織來(lái)說(shuō),答案就是增加能夠廣泛使用并行之有效的信息(各種形式、組織內(nèi)各個(gè)部門(mén)的信息)檢索方式。這也是信息時(shí)代我們要努力實(shí)現(xiàn)的一個(gè)目標(biāo)。

作者聯(lián)系方式:tangxh99@mails.tsinghua.edu.cn


發(fā)布:2007-03-25 10:39    編輯:泛普軟件 · xiaona    [打印此頁(yè)]    [關(guān)閉]
相關(guān)文章:
上海OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設(shè)南路160號(hào)1層9號(hào)

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢(xún):400-8352-114

加微信,免費(fèi)獲取試用系統(tǒng)

QQ在線(xiàn)咨詢(xún)