監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價咨詢管理系統(tǒng) | 工程設計管理系統(tǒng) | 甲方項目管理系統(tǒng) | 簽約案例 | 客戶案例 | 在線試用
X 關閉

架起結構化和非結構化數(shù)據(jù)之間的橋梁(AMT 唐曉輝 編譯)

申請免費試用、咨詢電話:400-8352-114

AMTeam.org

什么是“非結構化數(shù)據(jù)”?大家為什么大聲疾呼要求提供結構化數(shù)據(jù)呢?結構化數(shù)據(jù)指的是諸如企業(yè)財務賬目和生產數(shù)據(jù)、學生的分數(shù)數(shù)據(jù)等存在邏輯關系的數(shù)據(jù)和信息,非結構化數(shù)據(jù)的則是一些文本數(shù)據(jù)、圖像聲音等多媒體數(shù)據(jù)等等。非結構化的數(shù)據(jù)通常占到一個組織所有信息的80%~90%,比如:Word和PowerPoint文檔、電子郵件以及企業(yè)網內的時事通訊等等。公司的雇員總是抱怨在開始一個新項目的時候總要從頭開始尋找相關資料,從一長串文件夾中找到他們要的資料總會花費他們大量的時間。IT部門正在努力讓用戶能夠獲取并盡量多的使用組織內的數(shù)據(jù),想把這些數(shù)據(jù)和組織內更多的活動聯(lián)系起來?,F(xiàn)在的熱門話題就是如何克服現(xiàn)有的關系數(shù)據(jù)庫中面向記錄的數(shù)據(jù)和非結構化的數(shù)據(jù)包之間的差距。企業(yè)中非結構化的電子文檔數(shù)據(jù)越來越多,現(xiàn)在的首要目標是要知道一個企業(yè)如何利用所有可能的信息才能使企業(yè)的運作更加有效?但是很多公司、企業(yè)卻發(fā)現(xiàn)這并不是一個簡單的任務。

 首先,處理所有的原始數(shù)據(jù)是一個非常令人生畏的事情;其次,對一個特定的用戶或者任務而言,并不需要所有的信息,因此很多IT部門開始只關注那些價值更高的應用,這些應用只使用到那些更容易“消化”的信息;甚至更為嚴重的是,一些IT部門只設計獲取那些特殊應用的信息訪問途徑,這和企業(yè)更高層次的信息訪問目標是相違背的。上述這些趨勢可能會打亂企業(yè)的長期的計劃。

 企業(yè)在信息訪問方面的最大目標――對所有信息的智能化訪問――要求企業(yè)能夠支持對很多不同任務、部門以及涉及到很多個人工作的項目的信息的訪問。知識工作者沒有那么多的時間學習很多不同的操作界面或者去很多不同的地方把各種不同的信息收集到一起去完成他們的各種工作。這是我們首先要解決的問題。這種現(xiàn)實已經導致了門戶網站這個概念的出現(xiàn)和實現(xiàn)。然而門戶網站還不夠,我們想要的并不是僅僅把所有的文檔集中到一點(很多公眾網就是這樣的)。

 “企業(yè)搜索”只能通過瀏覽器一頁一頁的上翻下翻,根本不能滿足企業(yè)現(xiàn)在的信息需求。很多更高級的功能――分類、信息可視化、數(shù)據(jù)挖掘和分析等等――正在被逐步開發(fā)利用,以優(yōu)化企業(yè)的原始資料的搜索。如果這些功能能夠有效的利用,這必將給用戶對信息的訪問帶來極大的便利。

 但是企業(yè)首先必須清楚他們所尋找的是什么?他們已經有哪些了?以及他們將如何使用這些信息?為了得到更好的信息訪問,我們有必要明確關于信息的一些概念和區(qū)別。當然,現(xiàn)有的運行良好的結構化數(shù)據(jù)(關系數(shù)據(jù)庫)與非結構化數(shù)據(jù)(文檔)的區(qū)別很重要。一個企業(yè)也要區(qū)分內部和外部需求。通常,項目需求調查總是說,知識管理系統(tǒng)應該把信息需求的各個方面都整合其中,但實際上這并不是一件簡單的事。

 結構化/非結構化:毫無疑問,用戶希望從關系數(shù)據(jù)庫中獲取數(shù)據(jù)、從門戶網站上獲取相關的文檔。但是我們要再次強調的是:提供很多“高質量”的網頁鏈接是一種很不充分的、效率不高的方式。用戶需要內容分析技術以展示模式或者不規(guī)則信息,需要信息可視化功能來顯示并操作有用的知識?!八阉鳌边€遠遠不夠,知識工作者需要的是“找到”。

 內部網/外部網:非常明顯,每個企業(yè)都非常價值的內部網絡信息供企業(yè)內部使用,同時企業(yè)也會提供外部網頁或者網站供公眾訪問。挑戰(zhàn)就在于如何讓企業(yè)內部人員能夠隨時訪問自己企業(yè)的所有信息并盡可能方便的訪問企業(yè)外部其它地方的信息,同時又要防范企業(yè)外部人員看到他們不應該看到的企業(yè)內部信息。比如:一個配藥公司的研究人員很想通過自己的賬戶訪問關于市場的新聞,而他自己的賬戶又可以隨時訪問很多內部網的關于公司配藥方面的極有價值的信息。此時會不會出現(xiàn)什么問題呢?這是我們必須要考慮的問題。

 內容/上下文:現(xiàn)在流行的搜索方式――基于內容的搜索――只限于文檔內“關鍵詞”的搜索。文檔總是包含很多詞組,這些詞組之間有著各種各樣的關系?;趦热莸乃阉鞣绞綍鶕?jù)關鍵詞給出很多相關或者不相關的文檔鏈接。如果一個文檔有各種各樣的關于上下文的索引,能夠幫助用戶決定一個特殊的資源是否能夠滿足他的需要,這將為用戶帶來很大的便利。比如對研究者而言,每篇文章后面的參考文獻都可能是和他所要研究課題非常相關的文檔。如果搜索引擎能夠基于參考文獻給出用戶想要的搜索結果,這也許比基于文檔內關鍵詞給出的成千上萬的搜索結果更有用。

 操作層/戰(zhàn)略層:一些重要的文檔通常都會存儲起來以支持企業(yè)特定的操作層目標的實現(xiàn)(比如,制藥公司的藥物配方文檔)。這些文檔在使用后都會按規(guī)定或者其它原因而保留、嚴格的管理起來。查閱、使用這些文檔都有一些困難或者風險。而通常,在未來的信息、知識管理中卻不得不花費大量的時間和精力來處理這些過去的嚴格保存的文檔。因此很多項目在進行中只去找一些很容易獲得的信息。這是一個嚴重的錯誤。制定相關措施,定期公布一些保密的文檔也是非常重要的。

 我們都知道“知識就是力量”,但是普遍存在的一種現(xiàn)象就是:一旦某些文檔或者信息產生,它們就有可能在組織內保存起來、不再使用,這種情況給組織帶來不必要的損失。很多CIO和CEO們對此也無能為力,不知道如何是好。對于一個有前瞻性的組織來說,答案就是增加能夠廣泛使用并行之有效的信息(各種形式、組織內各個部門的信息)檢索方式。這也是信息時代我們要努力實現(xiàn)的一個目標。

作者聯(lián)系方式:tangxh99@mails.tsinghua.edu.cn


發(fā)布:2007-03-25 10:39    編輯:泛普軟件 · xiaona    [打印此頁]    [關閉]
上海OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設南路160號1層9號

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓

咨詢:400-8352-114

加微信,免費獲取試用系統(tǒng)

QQ在線咨詢