當前位置:工程項目OA系統(tǒng) > 泛普各地 > 陜西OA系統(tǒng) > 西安OA系統(tǒng) > 西安OA快博
選擇合適的數(shù)據(jù)挖掘算法
在JDM中,算法是可以選擇的,大多數(shù)數(shù)據(jù)挖掘工具為每個挖掘函數(shù)提供了默認或者預選擇的算法。
如果JDM沒有自動選擇算法,或者數(shù)據(jù)挖掘人員想控制算法設(shè)置,就可以顯式選擇算法、指定設(shè)置。數(shù)據(jù)挖掘?qū)iT知識、對可用算法的了解,以及往往確定哪種算法最適合解決問題的嘗試,這些都有助于選擇合適的算法及設(shè)置。
決策樹算法
決策樹算法是最流行的算法之一,因為很容易理解它是如何進行預測的。決策樹生成的規(guī)則不但可以解釋如何進行預測、為何要預測,還有助于對一個群體進行劃分,即顯示哪幾組實例會得出某個結(jié)果。決策樹廣泛用于分類,有些實現(xiàn)的決策樹還支持回歸方法。
決策樹算法會分析一組約束的經(jīng)驗,即數(shù)據(jù)集。然后,確定提哪些問題才能得出正確答案,即對每個實例進行正確分類。
在本例中,我們假定輸入數(shù)據(jù)集只有三個活動屬性來自前面介紹的CUSTOMERS數(shù)據(jù)集:年齡、資本收益和平均儲蓄賬戶余額,共有10個客戶實例。每個實例都有已知目標值,如圖1所示。注意:10名客戶中有5名流失,因而隨機選擇的客戶會流失的可能性為50%。使用該數(shù)據(jù)集中的屬性細節(jié),決策樹算法就可以學習數(shù)據(jù)模式、構(gòu)建一棵樹。
在決策樹中,每次節(jié)點分離基于劃分或分離數(shù)據(jù)的屬性條件。在本例中,節(jié)點1代表數(shù)據(jù)集中的所有10個客戶。算法可以從這10個客戶實例中知道:年齡大于36歲的客戶可能會流失。所以節(jié)點1根據(jù)客戶年齡,把數(shù)據(jù)分離成節(jié)點2和節(jié)點3。節(jié)點3根據(jù)客戶的儲蓄賬戶余額,把數(shù)據(jù)進一步分成節(jié)點4和節(jié)點5。
每個樹節(jié)點都有相關(guān)規(guī)則,以一定的置信度和支持度來預測目標值。置信度度量的是該樹節(jié)點會正確預測目標值的可能性。置信度是節(jié)點中正確預測的實例與分配給該節(jié)點的實例總數(shù)之比。支持度度量的是從構(gòu)造數(shù)據(jù)集中分配了多少實例給該節(jié)點。支持度可以表示為節(jié)點中實例數(shù)量與構(gòu)造數(shù)據(jù)集中實例總數(shù)之比。表1列出了樹節(jié)點的細節(jié)。
算法設(shè)置讓用戶可以在構(gòu)造過程中對算法進行更精確的控制,從而獲得更準確的結(jié)果。如果允許對構(gòu)造數(shù)據(jù)進行過擬合(overfit),決策樹模型在構(gòu)造數(shù)據(jù)方面能做到極其準確,讓算法甚至可以使用針對單個實例的規(guī)則來構(gòu)造更深的樹。因而,過擬合模型為構(gòu)造數(shù)據(jù)提供了很好的準確性,但不是非常適用于新數(shù)據(jù),導致預測準確性降低。
為了避免過擬合,用戶可以運用停止標準和剪枝技術(shù)。許多算法通常對構(gòu)造數(shù)據(jù)進行迭代處理,學習數(shù)據(jù)中存在的模式,或者進行更細微的區(qū)分。有些算法實際上可以讓這種迭代無限進行下去。因此,算法往往提供停止標準,告訴算法何時停止構(gòu)造模型。剪枝是指剪去不太重要的樹節(jié)點,譬如支持度不夠的樹節(jié)點。
樸素貝葉斯
樸素貝葉斯基于貝葉斯定理,假定預測變量屬性就目標屬性而言在條件上彼此獨立。這種假定大大減少了預測目標值所需的計算數(shù)量,因而樸素貝葉斯算法適用于處理大量數(shù)據(jù)。
樸素貝葉斯算法涉及計算目標和預測屬性值每對組合的概率。為了控制這類組合的數(shù)量,有連續(xù)值或者大量不同值的屬性通常進行分箱處理。在本例中,為了簡化樸素貝葉斯算法的描述,考慮來自CUSTOMERS(表2)數(shù)據(jù)集的兩個屬性: 年齡和儲蓄余額。這些屬性經(jīng)過分箱處理有兩個分箱值,可以進一步簡化這方面的討論。就年齡而言,bin-1含有小于或等于35的值,而bin-2含有大于35的值。就儲蓄余額而言,bin-1含有小于或等于2萬美元的值,而bin-2含有大于2萬美元的值。在JDM中,樸素貝葉斯算法使用構(gòu)造數(shù)據(jù)集中的實例,算出特定屬性值的目標值的概率。在本例中,我們的二進制目標有兩個屬性,它們有兩個分箱值。
在JDM中,樸素貝葉斯算法有兩個設(shè)置: 單例閾值(singleton threshold)和兩兩閾值(pairwise threshold),可用于定義應當忽視哪些預測變量屬性值或者預測變量-目標值對。
支持向量機
支持向量機(SVM)算法是最流行、比較新的監(jiān)督算法之一。事實證明,SVM可以為復雜的分類問題(如基因表達分析)帶來高度準確的結(jié)果。在這類問題中,已知實例數(shù)量少,但屬性數(shù)量相當大。SVM在解決傳統(tǒng)的數(shù)據(jù)挖掘問題方面日益得到認可,成為了替代神經(jīng)網(wǎng)絡(luò)的一種優(yōu)先算法。
SVM可以選擇核函數(shù)。核函數(shù)可把數(shù)據(jù)轉(zhuǎn)變成高維向量空間,并且尋找這類空間中的關(guān)系。數(shù)據(jù)挖掘領(lǐng)域引入了許多核函數(shù)。JDM包括kLinear、kGaussian、超正切函數(shù)、多項式函數(shù)和S形函數(shù)。(CCW)
- 1西安OA辦公自動化軟件,哪一家服務最好
- 2網(wǎng)站如何防范“上傳漏洞”入侵
- 3成都轎車闖黃燈罰6分:無近距離跟車 時速30km
- 4OA辦公自動化軟件的資源管理有什么作用?
- 5OA系統(tǒng)辦公管理系統(tǒng)的項目協(xié)作管理功能好用嗎?
- 6提供災難恢復保護的遠程復制
- 7SOA的十大技術(shù)理論體系
- 817家無證網(wǎng)站盜播《十二生肖》 有關(guān)部門正處理
- 9CIO必須了解的全球最急需的10項IT技術(shù)
- 10公安部:將整改信號燈設(shè)置以及使用不規(guī)范
- 11男子飯店挑選活魚當面做記號 上桌后仍舊被掉包
- 12湄公河慘案二審庭審結(jié)束 主犯糯康否認控罪
- 13辦公自動化軟件的客戶服務管理怎么樣呢?
- 14HTTP過濾將對安全市場產(chǎn)生深遠影響
- 15計世獨家:六大技術(shù)將科幻變?yōu)楝F(xiàn)實
- 16云計算:微軟和Google的云端游戲
- 17VoIP叫板企業(yè)通信
- 18OA軟件可以通過選擇日期查看其他周的車輛使用情況
- 19媒體稱上萬名緬甸難民逃至中緬邊境避難(圖)
- 20數(shù)據(jù)中心的五維度評估法
- 21心馳向往。太陽谷
- 22聯(lián)合國安理會譴責朝鮮發(fā)射衛(wèi)星
- 23定位技術(shù)增強無線網(wǎng)絡(luò)安全
- 24三大主流ETL工具選型
- 25安全中的信譽技術(shù)
- 26Facebook月活躍用戶超10億 壟斷127國社交服務
- 27打造更安全Linux系統(tǒng)
- 28至今無法解決的三種系統(tǒng)漏洞
- 29應用三層交換降低組網(wǎng)成本
- 30數(shù)字證書安全嗎?
成都公司:成都市成華區(qū)建設(shè)南路160號1層9號
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓