監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價(jià)咨詢(xún)管理系統(tǒng) | 工程設(shè)計(jì)管理系統(tǒng) | 簽約案例 | 購(gòu)買(mǎi)價(jià)格 | 在線(xiàn)試用 | 手機(jī)APP | 產(chǎn)品資料
X 關(guān)閉

關(guān)于DM的幾點(diǎn)體會(huì)

申請(qǐng)免費(fèi)試用、咨詢(xún)電話(huà):400-8352-114

來(lái)源:泛普軟件

1、挖掘工具主要分商業(yè)數(shù)據(jù)產(chǎn)品和集成數(shù)據(jù)挖掘產(chǎn)品兩類(lèi):商業(yè)數(shù)據(jù)挖掘產(chǎn)品具有代表性的SPSS Clementine,SAS Enterprise Miner,IBM Intelligent Miner;SQL Server2005屬于集成了挖掘模型類(lèi)的,挖掘算法與SQL數(shù)據(jù)庫(kù)產(chǎn)品密不可分,你甚至可以把自己實(shí)現(xiàn)的數(shù)據(jù)挖掘算法跟SQL進(jìn)行集成,Oracle也類(lèi)似,DB2的BI功能沒(méi)怎么用,不是很清楚。

2、數(shù)據(jù)挖掘過(guò)程的重點(diǎn)絕對(duì)是數(shù)據(jù)預(yù)處理,一般認(rèn)為預(yù)處理工作會(huì)占60%-80%時(shí)間不等,為什么預(yù)處理會(huì)如此重要,大家都知道garbage in garbage out的道理,這在整個(gè)BI領(lǐng)域都是成立的。商業(yè)智能-既然提到智能層面,那就不只是展現(xiàn),還要做分析和預(yù)測(cè)(不過(guò)現(xiàn)階段很多BI項(xiàng)目確實(shí)只是在做展現(xiàn),最多加點(diǎn)多維分析)。BI概念提出之初就是輔助戰(zhàn)略決策的產(chǎn)物,當(dāng)然向操作型BI發(fā)展的趨勢(shì)這里不做過(guò)多介紹,經(jīng)驗(yàn)告訴我們戰(zhàn)略決策是基于歷史和別人現(xiàn)成經(jīng)驗(yàn)的,怎樣從歷史數(shù)據(jù)的展現(xiàn)和分析過(guò)程中得到有用知識(shí),不管你是通過(guò)報(bào)表或多維分析得到企業(yè)各領(lǐng)域指標(biāo)相關(guān)性,還是通過(guò)挖掘模型的實(shí)施來(lái)根據(jù)歷史數(shù)據(jù)預(yù)測(cè)企業(yè)未來(lái)發(fā)展,這一切都是基于企業(yè)歷史數(shù)據(jù)的。沒(méi)有數(shù)據(jù)質(zhì)量基礎(chǔ)的保證,展現(xiàn)得多華麗的走勢(shì)圖表都是垃圾。

(1)如果是基于數(shù)據(jù)倉(cāng)庫(kù)或者數(shù)據(jù)集市的挖掘,那么可直接在倉(cāng)庫(kù)或者數(shù)據(jù)集市中建立挖掘模型源輸入(也可叫臨時(shí)寬表,這個(gè)表是根據(jù)挖掘業(yè)務(wù)需求對(duì)其他維度表屬性的一個(gè)綜合提取,合適的時(shí)間窗口在這里是個(gè)要考慮的關(guān)鍵因素);如果是沒(méi)有倉(cāng)庫(kù)或集市這一數(shù)據(jù)基礎(chǔ),那么就需要一個(gè)針對(duì)挖掘業(yè)務(wù)需求字段屬性的簡(jiǎn)單ETL過(guò)程了。

(2)上面只是挖掘源數(shù)據(jù)的建立,接下來(lái)才進(jìn)入數(shù)據(jù)預(yù)處理的核心階段,由于源數(shù)據(jù)(臨時(shí)寬表)里面很多數(shù)據(jù)是有偏差的,比如空值,錯(cuò)誤值,異常值等...這就需要根據(jù)每個(gè)業(yè)務(wù)字段屬性的規(guī)范標(biāo)準(zhǔn)來(lái)進(jìn)行處理,這步是一個(gè)繁雜的工程,數(shù)據(jù)預(yù)處理技術(shù)各式各樣,比較有代表性的有數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約、離散化和概念分層等等;而且針對(duì)不同字段數(shù)據(jù)特征,不同的數(shù)據(jù)處理技術(shù)往往會(huì)導(dǎo)致挖掘的結(jié)果差異。雖然商業(yè)數(shù)據(jù)挖掘產(chǎn)品都提供了常用的數(shù)據(jù)預(yù)處理技術(shù),但要用好,除了需要一些統(tǒng)計(jì)學(xué),數(shù)據(jù)分布等知識(shí)外,對(duì)該字段對(duì)應(yīng)的業(yè)務(wù)理解和挖掘過(guò)程的數(shù)據(jù)預(yù)處理方法差異的經(jīng)驗(yàn)積累才是關(guān)鍵因素。就拿屬性歸約來(lái)將,很多挖掘產(chǎn)品有因子分析工具,貌似可以自動(dòng)對(duì)所有屬性字段做一個(gè)挖掘相關(guān)重要性因素從大大小的排序,但這也不能全信,畢竟工具是死的,它只能從數(shù)據(jù)本身的數(shù)理特征去理解和自動(dòng)分析,例如有些業(yè)務(wù)字段可能數(shù)據(jù)分布的特征不符合因子分析的重要性條件,但對(duì)該數(shù)據(jù)挖掘模型貢獻(xiàn)確是很大的。這樣的情況雖說(shuō)不多,卻是值得注意的地方。

3、經(jīng)過(guò)上面兩步,挖掘模型數(shù)據(jù)輸入算是初步建立起來(lái)了。接下來(lái)需要對(duì)所應(yīng)用的挖掘模型有個(gè)初步理解,有朋友贊成挖掘模型是“黑匣子”的觀點(diǎn),有朋友贊成需要對(duì)挖掘模型的專(zhuān)業(yè)理解。我保持中庸的觀點(diǎn):如果不是做算法研究的朋友,只是做挖掘模型應(yīng)用,卻需要對(duì)挖掘模型算法有專(zhuān)業(yè)理解是不現(xiàn)實(shí)的,畢竟公司講的效益和效率,不像是在實(shí)驗(yàn)室,有的是時(shí)間讓你查資料,折騰進(jìn)而對(duì)模型有個(gè)深入全面的理解;但完全黑匣子也是不妥的,一個(gè)對(duì)該挖掘模型完全不理解的人,指望能利用該模型挖掘出有用知識(shí)是不可能的。一是他不可能對(duì)挖掘結(jié)果有很好的理解;二是參數(shù)的調(diào)整是最大障礙,挖掘過(guò)程本來(lái)就是迭代過(guò)程,對(duì)算法完全不了解的參數(shù)設(shè)置亂設(shè)一通就指望得出較優(yōu)模型更是天方夜潭。個(gè)人認(rèn)為對(duì)挖掘模型大致原理是有必要了解的,再就是每個(gè)參數(shù)的范圍及所代表的意義和對(duì)模型所起作用也是需要了解的。

4、數(shù)據(jù)規(guī)模也是個(gè)關(guān)鍵因素,訓(xùn)練數(shù)據(jù),測(cè)試數(shù)據(jù),驗(yàn)證數(shù)據(jù)?訓(xùn)練數(shù)據(jù)是選連續(xù)五個(gè)月加起來(lái)10萬(wàn)條記錄,還是選連續(xù)三個(gè)月加起來(lái)6萬(wàn)條記錄;測(cè)試數(shù)據(jù)是選兩個(gè)月加起來(lái)2萬(wàn)條記錄還是只選一個(gè)月?如果一個(gè)月數(shù)據(jù)就有幾十萬(wàn)條記錄,那么采取那種方式抽取幾萬(wàn)條記錄,是隨機(jī)取還是寫(xiě)個(gè)簡(jiǎn)單選擇算法?10萬(wàn)條記錄挖掘模型跑了一晚上才出來(lái)結(jié)果,用5萬(wàn)條記錄跑出來(lái)效果跟用10萬(wàn)條記錄的差異大不大?抽取幾千條記錄完全可以用統(tǒng)計(jì)模型實(shí)現(xiàn),為什么還要抽取上萬(wàn)記錄用復(fù)雜的挖掘模型呢?這些因素很難說(shuō)有個(gè)統(tǒng)一標(biāo)準(zhǔn),相信很多人還是相信自己的經(jīng)驗(yàn)多一點(diǎn),像我等菜鳥(niǎo)們也只能指望經(jīng)驗(yàn)豐富的老鳥(niǎo)們多出幾本數(shù)據(jù)挖掘指南了。

5、不管是需求分析還是挖掘模型的評(píng)估及應(yīng)用,和業(yè)務(wù)人員和決策者們的充分溝通交流是完全必要的。閉們?cè)燔?chē)的數(shù)據(jù)挖掘模型是脆弱的...(AMT)

發(fā)布:2007-04-23 10:42    編輯:泛普軟件 · xiaona    [打印此頁(yè)]    [關(guān)閉]

泛普鄭州OA快博其他應(yīng)用

鄭州OA軟件 鄭州OA新聞動(dòng)態(tài) 鄭州OA信息化 鄭州OA快博 鄭州OA行業(yè)資訊 鄭州軟件開(kāi)發(fā)公司 鄭州監(jiān)控公司 鄭州倉(cāng)庫(kù)管理軟件 鄭州餐飲管理軟件 鄭州物業(yè)管理軟件 鄭州網(wǎng)站建設(shè)公司 鄭州門(mén)禁系統(tǒng)