監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價咨詢管理系統(tǒng) | 工程設(shè)計管理系統(tǒng) | 簽約案例 | 購買價格 | 在線試用 | 手機APP | 產(chǎn)品資料
X 關(guān)閉

選擇合適的數(shù)據(jù)挖掘算法

申請免費試用、咨詢電話:400-8352-114

文章來源:泛普軟件

在JDM中,算法是可以選擇的,大多數(shù)數(shù)據(jù)挖掘工具為每個挖掘函數(shù)提供了默認或者預選擇的算法。

如果JDM沒有自動選擇算法,或者數(shù)據(jù)挖掘人員想控制算法設(shè)置,就可以顯式選擇算法、指定設(shè)置。數(shù)據(jù)挖掘?qū)iT知識、對可用算法的了解,以及往往確定哪種算法最適合解決問題的嘗試,這些都有助于選擇合適的算法及設(shè)置。

決策樹算法

決策樹算法是最流行的算法之一,因為很容易理解它是如何進行預測的。決策樹生成的規(guī)則不但可以解釋如何進行預測、為何要預測,還有助于對一個群體進行劃分,即顯示哪幾組實例會得出某個結(jié)果。決策樹廣泛用于分類,有些實現(xiàn)的決策樹還支持回歸方法。

決策樹算法會分析一組約束的經(jīng)驗,即數(shù)據(jù)集。然后,確定提哪些問題才能得出正確答案,即對每個實例進行正確分類。

在本例中,我們假定輸入數(shù)據(jù)集只有三個活動屬性來自前面介紹的CUSTOMERS數(shù)據(jù)集:年齡、資本收益和平均儲蓄賬戶余額,共有10個客戶實例。每個實例都有已知目標值,如圖1所示。注意:10名客戶中有5名流失,因而隨機選擇的客戶會流失的可能性為50%。使用該數(shù)據(jù)集中的屬性細節(jié),決策樹算法就可以學習數(shù)據(jù)模式、構(gòu)建一棵樹。

在決策樹中,每次節(jié)點分離基于劃分或分離數(shù)據(jù)的屬性條件。在本例中,節(jié)點1代表數(shù)據(jù)集中的所有10個客戶。算法可以從這10個客戶實例中知道:年齡大于36歲的客戶可能會流失。所以節(jié)點1根據(jù)客戶年齡,把數(shù)據(jù)分離成節(jié)點2和節(jié)點3。節(jié)點3根據(jù)客戶的儲蓄賬戶余額,把數(shù)據(jù)進一步分成節(jié)點4和節(jié)點5。

每個樹節(jié)點都有相關(guān)規(guī)則,以一定的置信度和支持度來預測目標值。置信度度量的是該樹節(jié)點會正確預測目標值的可能性。置信度是節(jié)點中正確預測的實例與分配給該節(jié)點的實例總數(shù)之比。支持度度量的是從構(gòu)造數(shù)據(jù)集中分配了多少實例給該節(jié)點。支持度可以表示為節(jié)點中實例數(shù)量與構(gòu)造數(shù)據(jù)集中實例總數(shù)之比。表1列出了樹節(jié)點的細節(jié)。

算法設(shè)置讓用戶可以在構(gòu)造過程中對算法進行更精確的控制,從而獲得更準確的結(jié)果。如果允許對構(gòu)造數(shù)據(jù)進行過擬合(overfit),決策樹模型在構(gòu)造數(shù)據(jù)方面能做到極其準確,讓算法甚至可以使用針對單個實例的規(guī)則來構(gòu)造更深的樹。因而,過擬合模型為構(gòu)造數(shù)據(jù)提供了很好的準確性,但不是非常適用于新數(shù)據(jù),導致預測準確性降低。

為了避免過擬合,用戶可以運用停止標準和剪枝技術(shù)。許多算法通常對構(gòu)造數(shù)據(jù)進行迭代處理,學習數(shù)據(jù)中存在的模式,或者進行更細微的區(qū)分。有些算法實際上可以讓這種迭代無限進行下去。因此,算法往往提供停止標準,告訴算法何時停止構(gòu)造模型。剪枝是指剪去不太重要的樹節(jié)點,譬如支持度不夠的樹節(jié)點。

樸素貝葉斯

樸素貝葉斯基于貝葉斯定理,假定預測變量屬性就目標屬性而言在條件上彼此獨立。這種假定大大減少了預測目標值所需的計算數(shù)量,因而樸素貝葉斯算法適用于處理大量數(shù)據(jù)。

樸素貝葉斯算法涉及計算目標和預測屬性值每對組合的概率。為了控制這類組合的數(shù)量,有連續(xù)值或者大量不同值的屬性通常進行分箱處理。在本例中,為了簡化樸素貝葉斯算法的描述,考慮來自CUSTOMERS(表2)數(shù)據(jù)集的兩個屬性: 年齡和儲蓄余額。這些屬性經(jīng)過分箱處理有兩個分箱值,可以進一步簡化這方面的討論。就年齡而言,bin-1含有小于或等于35的值,而bin-2含有大于35的值。就儲蓄余額而言,bin-1含有小于或等于2萬美元的值,而bin-2含有大于2萬美元的值。在JDM中,樸素貝葉斯算法使用構(gòu)造數(shù)據(jù)集中的實例,算出特定屬性值的目標值的概率。在本例中,我們的二進制目標有兩個屬性,它們有兩個分箱值。

在JDM中,樸素貝葉斯算法有兩個設(shè)置: 單例閾值(singleton threshold)和兩兩閾值(pairwise threshold),可用于定義應當忽視哪些預測變量屬性值或者預測變量-目標值對。

支持向量機

支持向量機(SVM)算法是最流行、比較新的監(jiān)督算法之一。事實證明,SVM可以為復雜的分類問題(如基因表達分析)帶來高度準確的結(jié)果。在這類問題中,已知實例數(shù)量少,但屬性數(shù)量相當大。SVM在解決傳統(tǒng)的數(shù)據(jù)挖掘問題方面日益得到認可,成為了替代神經(jīng)網(wǎng)絡(luò)的一種優(yōu)先算法。

SVM可以選擇核函數(shù)。核函數(shù)可把數(shù)據(jù)轉(zhuǎn)變成高維向量空間,并且尋找這類空間中的關(guān)系。數(shù)據(jù)挖掘領(lǐng)域引入了許多核函數(shù)。JDM包括kLinear、kGaussian、超正切函數(shù)、多項式函數(shù)和S形函數(shù)。(CCW)

發(fā)布:2007-04-22 09:22    編輯:泛普軟件 · xiaona    [打印此頁]    [關(guān)閉]
相關(guān)文章:
西安OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設(shè)南路160號1層9號

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓

咨詢:400-8352-114

加微信,免費獲取試用系統(tǒng)

QQ在線咨詢

泛普西安OA快博其他應用

西安OA軟件 西安OA新聞動態(tài) 西安OA信息化 西安OA快博 西安OA行業(yè)資訊 西安軟件開發(fā)公司 西安門禁系統(tǒng) 西安物業(yè)管理軟件 西安倉庫管理軟件 西安餐飲管理軟件 西安網(wǎng)站建設(shè)公司