當(dāng)前位置:工程項(xiàng)目OA系統(tǒng) > 泛普各地 > 黑龍江OA系統(tǒng) > 哈爾濱OA系統(tǒng) > 哈爾濱OA快博
DM技術(shù)簡(jiǎn)介
申請(qǐng)免費(fèi)試用、咨詢電話:400-8352-114
文章來源:泛普軟件數(shù)據(jù)挖掘(DATA MINE)常用技術(shù)
目前市面數(shù)據(jù)挖掘應(yīng)用方面有著種類繁多的商品工具和軟件,大致可以歸納為下列主要類型:
[1]傳統(tǒng)主觀導(dǎo)向系統(tǒng):這是針對(duì)專業(yè)領(lǐng)域應(yīng)用的系統(tǒng)。如基于技術(shù)分析方法對(duì)金融市場(chǎng)進(jìn)行分析。采用的方法從簡(jiǎn)單的走向分析直到基于高深數(shù)學(xué)基礎(chǔ)的分形理論和譜分析。這種技術(shù)需要有經(jīng)驗(yàn)?zāi)P蜑榍疤?屬于這類商品有美國(guó)的Metastak,SuperCharts,CandlestickForecaster和WallStreetMoney等
[2]傳統(tǒng)統(tǒng)計(jì)分析:這類技術(shù)包括相關(guān)分析、回歸分析及因子分析等。一般先由用戶提供假設(shè),再由系統(tǒng)利用數(shù)據(jù)進(jìn)行驗(yàn)證。缺點(diǎn)是需經(jīng)培訓(xùn)后才能使用,同時(shí)在數(shù)據(jù)探索過程中,用戶需要重復(fù)進(jìn)行一系列操作。屬于這類商品有美國(guó)的SAS,SPSS和Stargraphis等。由于近年來更先進(jìn)的DM方法的出現(xiàn)和使用,這些廠商在原有系統(tǒng)中綜合一些DM部件,以獲得更完善的功能。以上兩種技術(shù)主要基于傳統(tǒng)的數(shù)理統(tǒng)計(jì)等數(shù)學(xué)的基礎(chǔ)上,一般早已開始用于數(shù)據(jù)分析方面。
[3]神經(jīng)元網(wǎng)絡(luò)(NN)技術(shù):神經(jīng)元網(wǎng)絡(luò)技術(shù)是屬于軟計(jì)算(SoftComputing)領(lǐng)域內(nèi)一種重要方法,它是多年來科研人員進(jìn)行人腦神經(jīng)學(xué)習(xí)機(jī)能模擬的成果,已成功地應(yīng)用于各工業(yè)部門。在DM(KDD)的應(yīng)用方面,當(dāng)需要復(fù)雜或不精確數(shù)據(jù)中導(dǎo)出概念和確定走向比較困難時(shí),利用神經(jīng)網(wǎng)絡(luò)技術(shù)特別有效。經(jīng)過訓(xùn)練后的NN可以想像具有某種專門知識(shí)的“專家”,因此可以像人一樣從經(jīng)驗(yàn)中學(xué)習(xí)。NN有多種結(jié)構(gòu),但最常用的是多層BP(backpropagation)模型。
它已廣泛地應(yīng)用于各種DM(KDD)工具和軟件中。有些是以NN為主導(dǎo)技術(shù),例如俄羅斯的PolyAnalyst,美國(guó)的BrainMaker,Neurosell和OWL等。NN技術(shù)也已廣泛地做為一種方法嵌入各種DM成套軟件中。其缺點(diǎn)是用它來分析復(fù)雜的系統(tǒng)諸如金融市場(chǎng),NN就需要復(fù)雜的結(jié)構(gòu)為數(shù)眾多神經(jīng)元以及連接數(shù),從而使現(xiàn)有的事例數(shù)(不同的紀(jì)錄數(shù))無法滿足訓(xùn)練的需要。另外由受訓(xùn)后的NN所代表的預(yù)測(cè)模型的非透明性也是其缺點(diǎn),盡管如此,它還是廣泛而成功地為各種金融應(yīng)用分析系統(tǒng)所采用。
[4]決策樹:在知識(shí)工程領(lǐng)域,決策樹是一種簡(jiǎn)單的知識(shí)表示方法,它將事例逐步分類成代表不同的類別。由于分類規(guī)則是比較直觀的,因而比較易于理解,。這種方法一般限于分類任務(wù)。在系統(tǒng)中采用這種方法的有美國(guó)的IDIS,法國(guó)的SIPINA。英國(guó)的Clementinc和澳大利亞的C5.0。
[5]進(jìn)化式程序設(shè)計(jì)(Evolutionaryprogramming):這種方法的獨(dú)特思路是:系統(tǒng)自動(dòng)生成有關(guān)目標(biāo)變量對(duì)其他多種變量依賴關(guān)系的務(wù)種假設(shè),并形成以內(nèi)部編程語言表示的程序。內(nèi)部程序(假設(shè))的產(chǎn)生過程是進(jìn)化式的,類似于遺傳算法過程。當(dāng)系統(tǒng)找到較好地描述依賴關(guān)系的一個(gè)假設(shè)時(shí),就對(duì)這程序進(jìn)行各種不同的微小修正,生成子程序組,再在其中選擇能更好地改進(jìn)預(yù)測(cè)精度的子程序,如此依次進(jìn)行,最后獲得達(dá)到所需精度的最好程序時(shí),由系統(tǒng)的專有模塊將所找到的依賴關(guān)系由內(nèi)部語言形式轉(zhuǎn)換成易于為人們理解的顯式形式,如數(shù)學(xué)公式,預(yù)測(cè)表等。由于采用通用編程語言,這種主法在原則上能保證任何一種依賴關(guān)系和算法都能用這種語言來描述。這種方法的商用產(chǎn)品還只見諸俄羅斯的PolyAnalyst。據(jù)報(bào)導(dǎo),它用于金融到醫(yī)療方面軍的各種應(yīng)用于,能獲得者很好的結(jié)果。
[6]基于事例的推理方法(CBR—Casebasedreasoning):這種方法的思路非常簡(jiǎn)單,當(dāng)預(yù)測(cè)未來情況或進(jìn)行正確決策時(shí),系統(tǒng)尋找與現(xiàn)有情況相類似的事例,并選擇最佳的相同的解決方案,這種方法能用于很多問題求解,并獲得好的結(jié)果,其缺點(diǎn)是系統(tǒng)不能生成匯總過去經(jīng)驗(yàn)的模塊或規(guī)則。采用這種方法的系統(tǒng)有美國(guó)的PatternRecognitionWorkbench和法國(guó)的KATEtools.
[7]遺傳算法(GA—GeneticAlgorithms):嚴(yán)格說來,DA不是GA應(yīng)用的主要領(lǐng)域,它是解決各種組合或優(yōu)化問題的強(qiáng)有力的手段,但它在現(xiàn)代標(biāo)準(zhǔn)儀器表中也用來完成DA任務(wù)。這種方法的不足之處是:這種問題的生成方式使估計(jì)所得解答的統(tǒng)計(jì)意義的任何一種機(jī)會(huì)不再存在。另外一方面,只有專業(yè)人員才能提出染色體選擇的準(zhǔn)則和有效地進(jìn)行問題描述與生成。在系統(tǒng)中包含遺傳算法的有美國(guó)的GeneHunter.
[8]非線性回歸方法:這種方法的基礎(chǔ)是,在預(yù)定的函數(shù)的基礎(chǔ)上,尋找目標(biāo)度量對(duì)其它多種變量的依賴關(guān)系。這種方法在金融市場(chǎng)或醫(yī)療診斷的應(yīng)用場(chǎng)合,比較好的提供可信賴的結(jié)果。在俄羅斯的PalyAnalyst以及美國(guó)的Neuroshell系統(tǒng)中包括了這種技術(shù)。
上面所列DM技術(shù)不可能是詳盡的囊括,因?yàn)槎嗄陙頂?shù)理統(tǒng)計(jì)分析以及AI與KE的研究提供了種類繁多特點(diǎn)各異的手段,DM開發(fā)人員完全可以根據(jù)不同任務(wù)加以選擇使用,另外近年來在軟計(jì)算(SoftComputing)和不確定信息處理(dealingwithUncertaintyofinformation)方法的研究,促使DM(KDD)技術(shù)向更深層次發(fā)展。
需要說明的,上面所說的DM中的數(shù)據(jù)是指數(shù)據(jù)庫中表格形式中的記錄和條目,這種數(shù)據(jù)稱作結(jié)構(gòu)型數(shù)據(jù)(Structureddata)。在一個(gè)企業(yè)中,還有一類像文本和網(wǎng)頁形式的數(shù)據(jù),稱作非結(jié)構(gòu)型數(shù)據(jù)(unstructureddata)。它來自不同的信息源,如文本圖像影視和音響等,當(dāng)然文本是最主要的一種非結(jié)構(gòu)數(shù)據(jù)。1995年分析家已預(yù)言,像文本這樣非結(jié)構(gòu)型數(shù)據(jù)將是在線存貯方面占支配地位的數(shù)據(jù)形式。到1998年初,在Internet上的信息網(wǎng)頁數(shù),已超過5億。隨著Internet的擴(kuò)展和大量在線文本的出現(xiàn),將標(biāo)志這巨大的非結(jié)構(gòu)型數(shù)據(jù)海洋中,蘊(yùn)藏著極其豐富的有用信息即知識(shí)。
人們從書本中獲取知識(shí)方法是閱讀和理解。開發(fā)一種工具能協(xié)助用戶從非結(jié)構(gòu)數(shù)據(jù)中抽取關(guān)鍵概念以及快速而有效地檢索到關(guān)心的信息,這將是一個(gè)非常引人入勝的研究領(lǐng)域。目前,基于圖書索引檢索以及超文本技術(shù)的各類搜索引擎,能協(xié)助用戶尋找所需信息,但要深入發(fā)掘這類數(shù)據(jù)中的有用用信息,尚需要更高層次的技術(shù)支持,人工智能領(lǐng)域有關(guān)知識(shí)表示及獲取的方法(如語義網(wǎng)絡(luò)概念映射等),和自然語言理解的研究成果,可望被采用。還可能要涉及到語言學(xué)心理學(xué)等領(lǐng)域。最近已出現(xiàn)了針對(duì)DM工具,如IBM公司的TexMiner,NetQuestion,WedCawler和megaputer公司的TextAnalyst等。
來源:博銳管理沙龍
- 1電子簽名的幕后英雄 —PKI/CA在行業(yè)中的應(yīng)用
- 2OA系統(tǒng)更好的為公司業(yè)務(wù)發(fā)展提供支撐和服務(wù)
- 3銀行中間業(yè)務(wù)平臺(tái)分析及實(shí)現(xiàn)
- 4企業(yè)信息門戶商業(yè)功能和服務(wù)的雙軌
- 5并行工程集成框架
- 6入侵檢測(cè):2004年出現(xiàn)的4種新后門技術(shù)
- 7從泰坦尼克中汲取的IT項(xiàng)目教訓(xùn)
- 8利用數(shù)據(jù)可視化工具降低導(dǎo)航風(fēng)險(xiǎn)
- 9看Intel如何進(jìn)行知識(shí)管理
- 10企業(yè)需要知道哈爾濱OA的應(yīng)用不是一蹴而就的
- 11哈爾濱OA軟件與其他技術(shù)的關(guān)系如何?
- 12CMS的生命周期和工具箱
- 13渠道別搬起石頭砸了自有產(chǎn)品的腳
- 14IBM:對(duì)招聘流程進(jìn)行的創(chuàng)新 點(diǎn)燃團(tuán)隊(duì)創(chuàng)新激情
- 15如休運(yùn)用AHP法篩選“物流服務(wù)供應(yīng)商”
- 16企業(yè)服務(wù)器互通的價(jià)值
- 17讓業(yè)務(wù)與ERP系統(tǒng)更好的集成
- 18IT揭開管理傷疤:波司登集團(tuán)ERP實(shí)施經(jīng)驗(yàn)
- 19中小企業(yè)UPS方案按需選
- 20MSDP擴(kuò)展多播范圍
- 21小專題:研發(fā)項(xiàng)目管理
- 22中小企業(yè)VoIP部署指南
- 23構(gòu)成哈爾濱OA軟件的技術(shù)是什么?
- 24大亞集團(tuán)信息安全“三級(jí)跳”
- 25PLM如何實(shí)現(xiàn)對(duì)SCM、CRM、ERP的整合
- 26IT項(xiàng)目測(cè)試中作出了讓步的代價(jià)
- 27如何做需求開發(fā)?
- 28XML與面向Web的數(shù)據(jù)挖掘技術(shù)
- 29構(gòu)筑中小企業(yè)內(nèi)部物資配送新模式
- 30下一代網(wǎng)絡(luò)分組話音接入的實(shí)現(xiàn)
成都公司:成都市成華區(qū)建設(shè)南路160號(hào)1層9號(hào)
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓