當(dāng)前位置:工程項目OA系統(tǒng) > 泛普各地 > 江西OA系統(tǒng) > 南昌OA系統(tǒng) > 南昌OA信息化
數(shù)據(jù)挖掘技術(shù)特寫
導(dǎo)語:
“我們把世界看成數(shù)學(xué),并且把你也看成數(shù)學(xué)”--用這句話來說明數(shù)據(jù)挖掘技術(shù)的復(fù)合性和應(yīng)用的廣泛性似乎再好不過。如今,雖然一些行業(yè)在應(yīng)用這一技術(shù)上仍然缺乏足夠的主動,但一個不能阻擋的趨勢是:已經(jīng)有越來越多的人在快樂而有效地使用這一技術(shù)并且不由自主地成為它的“挖掘”對象。
引子:
禽流感該如何更好地監(jiān)控?今天你寫B(tài)log了嗎?
你是否覺得這兩個問題連在一起問很無厘頭?
事實(shí)上,美國一家公司正在試圖讓這兩個事件之間的關(guān)系日漸明了。
這家公司目前正在通過從全球的Blog網(wǎng)頁中作挖掘出和禽流感相關(guān)的信息,從而建立一個預(yù)警機(jī)制。這一項目考慮到Blog已經(jīng)成為新聞傳播的重要途徑,先從網(wǎng)上抓取有關(guān)禽流感的網(wǎng)頁,存入到公司的數(shù)據(jù)倉庫,再指定“國家”為關(guān)鍵目標(biāo)詞,然后利用關(guān)聯(lián)分析技術(shù),即可得到和禽流感關(guān)聯(lián)最大的國家,由此可以判定該國的禽流感傳染可能比較嚴(yán)重。
就在此前,已經(jīng)有很多人在抱怨,網(wǎng)上多如牛毛的Blog除去浪費(fèi)了人們數(shù)以十萬年的閱讀時間之外,還有多少用處?如今,商業(yè)智能領(lǐng)域中的數(shù)據(jù)挖掘技術(shù)正在力圖從這些爆炸式增長的Blog中“挖”出更有價值的東西,同時它也正在更多領(lǐng)域中展示其非凡的力量。
工具篇:前方是岔路口
數(shù)據(jù)挖掘其實(shí)并非單純的IT技術(shù),而是數(shù)學(xué)家和計算機(jī)科學(xué)家之間的合作產(chǎn)物。在過去十年中,高等數(shù)學(xué)和計算機(jī)建模的聯(lián)姻改變了科學(xué)和工程技術(shù),以至于有人認(rèn)為這一合作已經(jīng)開創(chuàng)了一個全新的商業(yè)領(lǐng)域。
有關(guān)數(shù)據(jù)挖掘技術(shù)的定義有很多版本,綜其要點(diǎn),主要在于應(yīng)用一系列統(tǒng)計與人工智能技術(shù)來發(fā)現(xiàn)以前并不了解的數(shù)據(jù)規(guī)律,并解決實(shí)際業(yè)務(wù)問題。如今,數(shù)據(jù)挖掘技術(shù)已經(jīng)從最開始的一個簡單的算法包,發(fā)展出通用挖掘平臺和專業(yè)挖掘工具兩大種類。其中,像IBM、NCR、SAS、微軟、SPSS、StatSoft等廠商的數(shù)據(jù)挖掘產(chǎn)品(模塊)基本都是通用型工具平臺;而像美國的 Unica 公司、費(fèi)爾艾薩克公司(Fair Isaac Corporation)則主要專注于諸如營銷自動化、信用卡積分等細(xì)分領(lǐng)域,屬于后一種工具。
具體來看,目前在數(shù)據(jù)挖掘領(lǐng)域聲勢頗大的大多是通用型工具平臺,像IBM、NCR、SAS、微軟、Oracle 、SPSS、StatSoft等都是如此。
“現(xiàn)在IBM更側(cè)重的是平臺優(yōu)勢?!痹诓稍L中,IBM軟件部中國區(qū)DB2信息管理技術(shù)經(jīng)理劉晶煒明確表示。目前,IBM的DB2中包含Intelligent Miner for Data和Intelligent Miner for Text兩個數(shù)據(jù)挖掘模塊,將數(shù)據(jù)挖掘和數(shù)據(jù)倉庫整合到一個平臺之上。其中,前者主要針對結(jié)構(gòu)化信息,主要分為建模、瀏覽、Scoring Service三個部分;后者則是針對文本的挖掘模塊,其主要功能是特征抽取、文檔聚集、文檔分類和檢索。
NCR Teradata的數(shù)據(jù)挖掘工具同樣也是與其數(shù)據(jù)倉庫整合在一起。具體來說,其數(shù)據(jù)挖掘工具可以按照挖掘的步驟主要分成Profiler、ADS Generator、Warehouse Miner和模型管理器四塊。目前Teradata最新版的數(shù)據(jù)挖掘方案是Teradata Warehouse Miner 4.1。
SAS 公司和SPSS公司作為兩家從傳統(tǒng)的統(tǒng)計分析技術(shù)發(fā)展而來的數(shù)據(jù)挖掘廠商,二者在業(yè)內(nèi)的影響力可謂有目共睹。其中,SAS 公司提供了SAS Enterprise Miner 、SAS ETS(時間序列預(yù)測)、SAS OR(運(yùn)籌學(xué))、SAS STAT(統(tǒng)計分析)、SAS QC(質(zhì)量控制)等一系列工具;SPSS公司也提供了Clementine和AnswerTree兩項產(chǎn)品。
微軟在SQL Server 2005中在數(shù)據(jù)挖掘方面的突破與創(chuàng)新曾被人看作最令人驚艷的地方。Microsoft SQL Server 2005 Data Mining 平臺的確引入了大量的數(shù)據(jù)挖掘功能,其本身就是一個開發(fā)智能應(yīng)用程序的平臺,而非一個獨(dú)立應(yīng)用程序。而且,這一平臺與所有 SQL Server 產(chǎn)品實(shí)現(xiàn)了集成,包括 SQL Server、SQL Server Integration Services 和 Analysis Services。據(jù)稱,SQL Server 2005 中最重要的數(shù)據(jù)挖掘功能就是其處理大型數(shù)據(jù)集的能力,它允許模型對整個數(shù)據(jù)集運(yùn)行,從而消除了采樣方面的挑戰(zhàn)。
總起來看,像IBM、NCR、Oracle、微軟這些平臺工具廠商基本上都是以提供“整車”為己任。一句話,只要用戶不是很挑剔,基本上都可以在某一家那里即可買全包括數(shù)據(jù)挖掘工具在內(nèi)的全套商業(yè)智能產(chǎn)品。而像SAS、SPSS、StatSoft等公司雖然也宣稱提供工具平臺,但提供“整車”的實(shí)力有限,主要在統(tǒng)計分析和數(shù)據(jù)挖掘領(lǐng)域延伸提供盡可能多的工具組件。
相對于這些挖掘工具平臺,專業(yè)挖掘工具可能在市場的聲勢并不大,但是像Fair Isaac 公司、Unica 公司的發(fā)展卻也相當(dāng)不錯。比如像Fair Isaac 公司就已經(jīng)占據(jù)了全球信用卡積分市場70%-80%的份額,幾乎達(dá)到壟斷。該公司的創(chuàng)始人發(fā)明了一個信用評分卡(即費(fèi)寇分?jǐn)?shù),F(xiàn)ICO score),由此可以預(yù)測人的未來償付行為,為消費(fèi)者信用行業(yè)提供一個有效的預(yù)測工具。同樣,美國 Unica 公司的 Affinium Model 則是一款專注于市場營銷自動化的數(shù)據(jù)挖掘工具軟件。
那么,面對這兩種工具,用戶該如何選擇?換句話講,哪種工具才是未來的發(fā)展方向呢?
中國傳媒大學(xué)調(diào)查統(tǒng)計研究所副所長、數(shù)據(jù)挖掘研究室主任沈浩認(rèn)為,平臺化肯定是將來的一個發(fā)展方向,而且,中國的市場足夠廣闊,也可以容得下一批這樣的平臺廠商。IBM軟件部中國區(qū)DB2信息管理技術(shù)經(jīng)理劉晶煒也表示,正與SAS進(jìn)行更多的合作,以便進(jìn)一步統(tǒng)一數(shù)據(jù)挖掘領(lǐng)域的技術(shù)標(biāo)準(zhǔn)。而Teradata數(shù)據(jù)倉庫專家盛秋戩博士則認(rèn)為,目前的平臺工具雖多,但從根本上講,都是在用橫向的數(shù)據(jù)挖掘工具解決縱向的行業(yè)業(yè)務(wù)問題。他表示,如果從用戶出發(fā),用戶應(yīng)該更歡迎那些專業(yè)挖掘工具。
北京瑞斯泰得數(shù)據(jù)技術(shù)開發(fā)公司蘇立民總經(jīng)理從事數(shù)據(jù)挖掘行業(yè)已有六年之久,他在采訪中表示,現(xiàn)在數(shù)據(jù)挖掘領(lǐng)域的確存在平臺化趨勢,但專業(yè)工具也占領(lǐng)了一些市場。比如Unica 公司就是只選出并優(yōu)化某些算法,再加上行業(yè)經(jīng)驗,就可以使建模過程更加優(yōu)化。另據(jù)SYBASE商務(wù)智能總監(jiān)廖鋼城介紹,其實(shí)在日本,就有公司專門銷售一種類似“黑匣子”的專業(yè)工具,銀行積累的數(shù)據(jù)在里面跑一遍,就直接出來結(jié)果。這種工具用得也很好。而在另一方面,他也認(rèn)為,提供平臺的廠商會越來越少。
如此看來,業(yè)界對于工具的發(fā)展方向似乎并無太大異議,即平臺工具會保持在一個適當(dāng)?shù)臄?shù)量,而專業(yè)工具顯然更得用戶的寵愛。而現(xiàn)在,數(shù)據(jù)挖掘技術(shù)的發(fā)展剛好到了一個岔路口,一邊指向通用型,一邊指向?qū)I(yè)型,就看企業(yè)要往哪個方向走了。
技術(shù)篇:算法與模型
一, 機(jī)關(guān)可曾“算”盡?
之所以說數(shù)據(jù)挖掘是高等數(shù)學(xué)和計算機(jī)科學(xué)聯(lián)姻的產(chǎn)物,其中一大原因就在于,對各種算法的支持程度是衡量數(shù)據(jù)挖掘工具的一大標(biāo)準(zhǔn)。在前期采訪中,筆者曾設(shè)想通過對比各種數(shù)據(jù)挖掘工具對算法的支持程度來分出高低。但在采訪之后,筆者發(fā)現(xiàn)這一對比實(shí)無必要,因為目前的算法技術(shù)已經(jīng)相當(dāng)成熟,而主流工具也基本上都提供了對主流算法的支持。
從算法上看,業(yè)界公認(rèn)主要有決策樹、分類、聚類、回歸、關(guān)聯(lián)分析等幾大主流算法。對于這些算法,IBM、NCR、Oracle等主流工具基本上都已經(jīng)支持,而像微軟的Microsoft SQL Server 2005 Data Mining ,它作為一個開發(fā)智能應(yīng)用程序的平臺,可以允許第三方添加自定義算法以支持特定的挖掘需求。
在支持的算法種類和數(shù)量上,SAS、SPSS等傳統(tǒng)的統(tǒng)計分析廠商要比IBM、NCR、微軟、Oracle 等廠商更多一些。比如SAS Enterprise Miner就提供了決策樹、神經(jīng)網(wǎng)絡(luò)、自動神經(jīng)網(wǎng)絡(luò)、基于記憶的推理(MBR)、線性和對數(shù)回歸、聚類、關(guān)聯(lián)分析等很多算法。
Spss公司在其AnswerTree工具中就提供了CHAID、Exhaustive CHAID、Classification & Regression Tree、Quest等四種計算法則。在采訪中,無論廠商還是業(yè)內(nèi)專家大都認(rèn)為,目前的算法技術(shù)已臻成熟。北京瑞斯泰得數(shù)據(jù)技術(shù)開發(fā)公司蘇立民總經(jīng)理就表示,近年來統(tǒng)計學(xué)領(lǐng)域新出現(xiàn)的新算法很有限,大多是對舊算法的完善。而對于現(xiàn)存的算法而言,除了一些獨(dú)有的算法之外,主流算法都可以互相拷貝,并不存在太高的技術(shù)壁壘。
或許正是因為作為數(shù)據(jù)挖掘技術(shù)基石的算法技術(shù)已經(jīng)比較成熟,這也造成廠商開始紛紛在其他領(lǐng)域開拓新的技術(shù)亮點(diǎn)。比如NCR Teradata就認(rèn)為,除了算法指標(biāo),體系架構(gòu)也非常重要。相對于算法上的難分伯仲, NCR更強(qiáng)調(diào)通過其“庫內(nèi)挖掘”的優(yōu)勢,來解決數(shù)據(jù)量、效率和質(zhì)量的難題。此外,蘇立民總經(jīng)理認(rèn)為,在算法成熟之后,更重要的工作就是在數(shù)據(jù)準(zhǔn)備階段。而商智通公司咨詢總監(jiān)匡宏波則認(rèn)為,雖然算法的速度業(yè)已越來越快,但更關(guān)鍵的是怎么用。無疑,這些都是需要業(yè)界跳出單純的算法技術(shù)并及早關(guān)注的重點(diǎn)。
二, 從模型看未來
美國《商業(yè)周刊》在今年的一篇文章中指出,人類將數(shù)學(xué)建模應(yīng)用于現(xiàn)實(shí)生活與工作肯定將是21世紀(jì)最偉大的事件之一。事實(shí)上,建構(gòu)模型也正是數(shù)據(jù)挖掘技術(shù)的重要內(nèi)容,正是通過建模,數(shù)據(jù)挖掘工具才可以準(zhǔn)確地告訴用戶那些隱藏在數(shù)據(jù)庫深處的重要信息,同時又對未來做出預(yù)測的。
那么,何為建模?簡單來講,就是綜合運(yùn)用數(shù)學(xué)思想方法和IT技術(shù)建立一個適合當(dāng)前問題的模型,用以解釋之前發(fā)生的事情并預(yù)測未來發(fā)生的事情。
“算法是刀,建模是刀法,而模型就是用刀切出來的東西?!北本┤鹚固┑脭?shù)據(jù)技術(shù)開發(fā)公司蘇立民總經(jīng)理如此形容算法、建模和模型三者之間的關(guān)系。簡單來講,如果算法是“y=a+bx”,那么模型就是“y=5+3x”。區(qū)別就在于已經(jīng)帶入了常變量。目前,業(yè)界探討較多的技術(shù)內(nèi)容主要有自動建模和模型轉(zhuǎn)換兩點(diǎn)。
其一,自動建模。
自動建模是考查數(shù)據(jù)挖掘工具是否能夠自我優(yōu)化,從而方便一般用戶使用的重要功能指標(biāo)。在這項功能的幫助下,用戶無需深刻了解算法的優(yōu)缺點(diǎn),即可利用其靈活的參數(shù)設(shè)置及其幫助從而增強(qiáng)建模的效率。
目前,諸多主流工具都在自動建模方面有著較好表現(xiàn)。比如NCR就尤其強(qiáng)調(diào)其模型的并行性。據(jù)Teradata數(shù)據(jù)倉庫專家盛秋戩博士介紹, NCR的并行處理優(yōu)勢就在于:比如用兩臺服務(wù)器(集群)來作挖掘,可能需要1分鐘的反應(yīng)時間;而如果再加兩臺服務(wù)器,則只需要半分鐘的反應(yīng)時間。這一優(yōu)勢當(dāng)然是基于NCR自身的硬件設(shè)備。
SAS Enterprise Miner(EM)的自動建模主要體現(xiàn)在自導(dǎo)向(SEMMA)數(shù)據(jù)挖掘進(jìn)程上。SEMMA為執(zhí)行數(shù)據(jù)挖掘的核心任務(wù)提供了一個靈活的框架,這些任務(wù)包括五個主要的步驟,亦即采樣(S),探索(E),修改(M),建模(M)和評估(A)。此外,專業(yè)工具廠商美國 Unica 公司的 Affinium Model 的最大優(yōu)點(diǎn)也是體現(xiàn)在最大限度地將數(shù)學(xué)建模過程自動化 ,使得那些數(shù)學(xué)基礎(chǔ)不好的業(yè)務(wù)人員可以方便地使用這個工具。
需要注意的是,雖然自動建模被人們寄予厚望,但是還遠(yuǎn)未達(dá)到讓用戶手到擒來的地步。之所以這樣說,一方面是因為工具本身的技術(shù)實(shí)現(xiàn)不夠,蘇立民就認(rèn)為,在這方面,專業(yè)型工具做得要比通用型工具相對較好;另一方面,自動化本身并不能取代一切。中國傳媒大學(xué)調(diào)查統(tǒng)計研究所副所長、數(shù)據(jù)挖掘研究室主任沈浩也解釋說,做好自動建模,同樣需要對業(yè)務(wù)有深刻的了解,才能選擇更好的變量。比如在知道一批女孩的身高、體重數(shù)據(jù)之后,要分析出女孩的漂亮程度,那么,選定“身高除以體重”來分析無疑還是要靠腦子想出來的。
其二,模型轉(zhuǎn)換。
數(shù)據(jù)挖掘工具的多樣性造成模型種類也很多,這種情況下,不同工具生成的模型是否能夠共享或轉(zhuǎn)換就成為一大難題。目前,業(yè)界正通過對預(yù)測模型標(biāo)記語言(Predictive Model Markup Language ,PMML)的應(yīng)用來解決這一問題。這一語言在1997年7月由DMG(the Data Mining Group)發(fā)布,它利用XML描述和存儲數(shù)據(jù)挖掘模型,已是一種已經(jīng)被W3C組織接受的標(biāo)準(zhǔn)?,F(xiàn)在來看,IBM、SAS和SPSS等廠商已經(jīng)在使用PMML標(biāo)準(zhǔn)導(dǎo)入數(shù)據(jù)挖掘模型,但也有些廠商仍未采用此種標(biāo)準(zhǔn),而從標(biāo)準(zhǔn)本身看,對數(shù)據(jù)仍然具有一定的依賴性,還未真正實(shí)現(xiàn)模型與數(shù)據(jù)的分離。
熱點(diǎn)篇:文本挖掘與網(wǎng)絡(luò)挖掘
算法和建模作為數(shù)據(jù)挖掘工具的核心技術(shù)從它誕生之日起就在得到不斷完善,而在最近兩年,也有一些新的技術(shù)和應(yīng)用熱點(diǎn)開始引起人們的關(guān)注,比如文本挖掘、網(wǎng)絡(luò)挖掘和可視化挖掘就是其中比較重要的三種。
“文本挖掘是個太恐怖的事情?!敝袊鴤髅酱髮W(xué)調(diào)查統(tǒng)計研究所副所長、數(shù)據(jù)挖掘研究室主任沈浩如此形容文本挖掘的威力。文本挖掘(Text mining),顧名思義,就是從非結(jié)構(gòu)化的文本中發(fā)現(xiàn)潛在的概念以及概念間的相互關(guān)系。在這項技術(shù)中,最關(guān)鍵的是分詞技術(shù),建立詞典。只有讓計算機(jī)依據(jù)詞典完成正確斷詞之后,才可以實(shí)現(xiàn)將非結(jié)構(gòu)化信息轉(zhuǎn)化為結(jié)構(gòu)化信息,然后就可以進(jìn)一步研究文本之間的關(guān)系。比如本文開頭提到的通過分析Blog網(wǎng)頁來建立禽流感預(yù)警機(jī)制的例子,其實(shí)既利用了文本挖掘技術(shù),也是一個網(wǎng)絡(luò)挖掘案例。
到目前為止,像IBM、微軟等主流挖掘工具以及google和SNS網(wǎng)站都已經(jīng)在使用文本挖掘技術(shù)。但遺憾的是,目前這些工具大多只支持英文,還不支持中文挖掘。
如果說文本挖掘是一項技術(shù)熱點(diǎn)的話,那么網(wǎng)絡(luò)挖掘可以稱得上是數(shù)據(jù)挖掘領(lǐng)域中的一大應(yīng)用熱點(diǎn)了。具體來講,網(wǎng)絡(luò)挖掘還可以細(xì)分為三種挖掘,一是前文提到的文本挖掘,二是結(jié)構(gòu)挖掘(Structure mining),主要解決網(wǎng)頁與網(wǎng)頁之間的鏈接關(guān)系,三是點(diǎn)擊挖掘(Hit mining),是針對點(diǎn)擊率的挖掘分析??傮w而言,要實(shí)現(xiàn)網(wǎng)絡(luò)挖掘,從技術(shù)上講并沒有難度,大部分的問題都可以用成熟方法來解決。
在采訪中,無論廠商、集成商還是學(xué)界都肯定了網(wǎng)絡(luò)挖掘的美好發(fā)展前景?!拔覀€人比較看好Web下的網(wǎng)絡(luò)挖掘。”盛秋戩博士這樣說。他認(rèn)為,網(wǎng)絡(luò)挖掘是施展數(shù)據(jù)挖掘技術(shù)的很好的舞臺,同時也會給挖掘工具廠商帶來不少商機(jī)。沈浩同樣也認(rèn)為,當(dāng)電子商務(wù)發(fā)展起來之后,網(wǎng)絡(luò)挖掘肯定大有可為。
但是業(yè)內(nèi)人士也指出,網(wǎng)絡(luò)挖掘目前尚存在一些瓶頸。
首先,一個關(guān)鍵問題是電子商務(wù)的評估指標(biāo)(e-Metrics)還沒有形成一個完整的體系。所謂指標(biāo)體系就要設(shè)定幾個維度來衡量電子商務(wù)網(wǎng)站生意的好壞。目前,有些電子商務(wù)網(wǎng)站已經(jīng)開始定義像潛在顧客率(reach)、招攬時間(Acquisition)、潛在顧客轉(zhuǎn)化率(Conversion)等一些評估指標(biāo),美國的一些技術(shù)會議也已經(jīng)開始做一些整合工作,但是要形成體系還需要一段時間。
其次,缺錢。在采訪中,商智通公司咨詢總監(jiān)匡宏波表示,曾經(jīng)有一家醫(yī)藥類電子商務(wù)網(wǎng)站主動找上門,提出要求想知道平臺的某類藥品(比如盤尼西林)主要銷往哪里。但盛秋戩博士也指出,就電子商務(wù)領(lǐng)域的總體而言,除了像亞馬遜、eBay等一些國外大型電子商務(wù)網(wǎng)站開始自己買工具進(jìn)行挖掘之外,國內(nèi)少數(shù)注意到數(shù)據(jù)挖掘技術(shù)的網(wǎng)站大多是自己開發(fā)做此類工作,舍得掏錢的人還不多。
在文本挖掘和網(wǎng)絡(luò)挖掘之外,可視化挖掘(Visual Data Mining)因為和工具的易用性聯(lián)系在一起,因而也頗為重要。簡單來講,可視化包括了數(shù)據(jù)預(yù)處理和結(jié)果呈現(xiàn)兩個方面。比如StatSoft一直強(qiáng)調(diào)的完整的圖表工具庫以及高質(zhì)量的圖表呈現(xiàn)效果就是其優(yōu)勢所在。但是總體情況來看,可視化的內(nèi)含和標(biāo)準(zhǔn)近幾年一直沒有更新的內(nèi)容,而且,即便工具廠商自認(rèn)為做得再“可視化”,對于用戶來說,仍有難以理解和掌握的地方。蘇立民介紹說,雖然現(xiàn)在挖掘結(jié)果呈現(xiàn)已經(jīng)相當(dāng)易用,但是他接觸到的一些用戶依然會抱怨說,每回總是打印出案例那么多表格到底有什么用?其中的問題就在于:工具的易用性是一回事,有沒有既懂業(yè)務(wù)又懂技術(shù)的人來用卻是另一回事。
應(yīng)用篇:瓜熟蒂不落?
在采訪中,筆者發(fā)現(xiàn),無論廠商、集成商還是學(xué)術(shù)界,基本上都認(rèn)同一個觀點(diǎn),即:數(shù)據(jù)挖掘在技術(shù)已經(jīng)趨于成熟,現(xiàn)在更重要的就是如何拓展行業(yè)應(yīng)用。 IBM軟件部中國區(qū)DB2信息管理技術(shù)經(jīng)理劉晶煒表示說,數(shù)據(jù)挖掘技術(shù)已經(jīng)到了一個普及化的階段,現(xiàn)在關(guān)鍵是要讓數(shù)據(jù)挖掘從神壇上走下來。商智通公司咨詢總監(jiān)匡宏波也表示,現(xiàn)在數(shù)據(jù)挖掘領(lǐng)域的問題都不是技術(shù)問題,也不是工具問題,而是應(yīng)用問題。那么,現(xiàn)在,數(shù)據(jù)挖掘工具在國內(nèi)的實(shí)際應(yīng)用處于什么階段呢?
從行業(yè)應(yīng)用來看,目前大多數(shù)的用戶來自都來自電信、銀行、保險、稅務(wù)等領(lǐng)域,比如南京地稅、四川移動兩個案例就做得相當(dāng)成功;應(yīng)用主題則主要包含:消費(fèi)者行為分析、信用評分與風(fēng)險管理、欺詐行為偵測、購物籃分析等方面。綜合國內(nèi)外的發(fā)展趨勢,可以看到的是,大型連鎖商店和高科技制造產(chǎn)業(yè)也將成為應(yīng)用數(shù)據(jù)挖掘技術(shù)的重要領(lǐng)域。前者的記賬質(zhì)量之好為業(yè)內(nèi)公認(rèn),一旦開始數(shù)據(jù)挖掘方面的應(yīng)用則前景不可限量;而在后一個領(lǐng)域,國外已經(jīng)開始陸續(xù)導(dǎo)入數(shù)據(jù)挖掘技術(shù),類似做法相信會很快為國內(nèi)制造業(yè)大廠所借鑒。
從應(yīng)用層次上看,大體可以分為三個層次,第一層次是把挖掘工具當(dāng)作單獨(dú)的工具來用,偶爾用一下出具一個報告,不用建設(shè)系統(tǒng);第二層次則是把數(shù)據(jù)挖掘模塊嵌入到系統(tǒng)中,稱為部門級應(yīng)用;第三層次是企業(yè)級應(yīng)用,相當(dāng)于把挖掘系統(tǒng)作為整個企業(yè)運(yùn)營的CPU。目前,國內(nèi)的數(shù)據(jù)挖掘的應(yīng)用是本來數(shù)量就比較少,即便是做了的,也有很多只是處于第一層次,偶爾某些用戶能夠做到第二層次。
如此一來,問題出現(xiàn)了:既然數(shù)據(jù)挖掘技術(shù)已經(jīng)趨于成熟,為什么在應(yīng)用上卻遲遲跟不上呢?筆者在采訪了幾家主流廠商和集成商以及業(yè)內(nèi)專家后發(fā)現(xiàn),問題主要集中在以下幾個方面。
其一,工具易用性強(qiáng)則是否用戶就會運(yùn)用呢?答案是否定的。
現(xiàn)在很多廠家都在強(qiáng)調(diào)工具的易用性,但是卻忽視了一個問題,即工具易用性強(qiáng)和用戶會運(yùn)用完全是兩碼事。SYBASE商務(wù)智能總監(jiān)廖鋼城表示,這兩者的關(guān)系,就像用word寫文章一樣,即便輸入法、界面等再友好,但是和使用者能否寫出流暢的文章關(guān)系并無關(guān)系。換句話講,工具再易用,前提也得是用戶腦袋要清楚。即便面對同一個工具,統(tǒng)計學(xué)家和普通人使用后得到的結(jié)果也不一樣。因為選用的數(shù)據(jù)不一樣,選擇的變量也不一樣,結(jié)果的準(zhǔn)確性自然也不一樣。
“用戶總是想像使用傻瓜相機(jī)一樣使用挖掘工具,事實(shí)上這是不可能的?!笔⑶飸觳┦勘硎菊f。據(jù)他介紹,目前很多號稱已經(jīng)做完的項目,其實(shí)大部分工作仍然還都是由廠商代替客戶操作使用。
其二,復(fù)合型人才一將難求。
要成功完成一次數(shù)據(jù)挖掘過程,用戶首先要業(yè)務(wù)熟悉,其次還要對算法和模型熟悉。兩者不可偏廢,才能知道拿來的數(shù)據(jù)代表什么,算出來的結(jié)果又代表了什么。然而,從目前電信、金融行業(yè)的人才結(jié)構(gòu)來看,如今主導(dǎo)建設(shè)數(shù)據(jù)挖掘系統(tǒng)的大都是工科出身,不但業(yè)務(wù)不熟悉,即便是對于數(shù)學(xué)領(lǐng)域中的統(tǒng)計學(xué)也都過于生疏??陀^的講,這種復(fù)合型人才的缺乏也在很大程度上造成了目前數(shù)據(jù)挖掘市場還不夠成熟。
那么,如何解決這個問題?答案似乎很簡單,沒有那就只有培養(yǎng)了。比如現(xiàn)在一些電信用戶就在日常培訓(xùn)之外,還高薪聘請一些乙方(數(shù)據(jù)倉庫解決方案供應(yīng)商)的咨詢師和顧問,專職負(fù)責(zé)自己的數(shù)據(jù)倉庫和挖掘項目,試圖由此培養(yǎng)一批既懂業(yè)務(wù)又懂技術(shù)的專業(yè)人才。當(dāng)然,一開始說的是培養(yǎng),最后實(shí)在忙不過來,用戶挖廠商墻角的事也不是沒有。
問題是,同樣是培養(yǎng)人才,那到底是讓業(yè)務(wù)人員學(xué)技術(shù)好呢,還是讓技術(shù)人員學(xué)業(yè)務(wù)好呢?蘇立民和廖鋼城都表示,更贊成是業(yè)務(wù)人員去學(xué)習(xí)技術(shù)。因為業(yè)務(wù)人員是為了應(yīng)用而學(xué)習(xí),可以實(shí)現(xiàn)很好的結(jié)合。目前,像中國人民大學(xué)已經(jīng)開始招收有計算機(jī)專業(yè)背景的統(tǒng)計博士,而中國傳媒大學(xué)的數(shù)據(jù)研發(fā)中心也是文理兼收,可以想見,未來三四年內(nèi),人才缺乏的問題將逐步得到緩解。
其三,轉(zhuǎn)變意識,端正心態(tài)。從意識上,主要是用戶要轉(zhuǎn)變;而心態(tài)上,則廠商和用戶都需要端正。
首先,從意識上看,與國外長期的精細(xì)化管理相比,國內(nèi)用戶有些時候還不太習(xí)慣迅速走向精細(xì)化。沈浩就表示,國內(nèi)零售企業(yè)的記賬是最好的,也是被認(rèn)為最值得作數(shù)據(jù)挖掘的行業(yè),但至今為止還沒有哪家開始做,原因就在于沒有這方面的意識。
其次,從心態(tài)上看,用戶和廠商的心態(tài)顯得都過于著急。從用戶來講,總想找個可以替代決策的工具。不做長線,只想作短線,總以為項目上線就行了。像國內(nèi)某電信公司,從一開始其實(shí)就沒想清楚需求是什么,結(jié)果火急火燎的把工具買來,現(xiàn)在根本就用不起來。從廠商來講,問題在于不太想培育市場,只想賺快錢。蘇立民認(rèn)為,數(shù)據(jù)挖掘是一個需要慢慢雕琢的東西,需要精耕細(xì)作才能做成功,但是目前一些廠商卻更愿意采取狩獵型,作一個單純的產(chǎn)品銷售型公司,這種做法本身似乎就不太適合這一行業(yè)。廖鋼城也表示,Sybase正是看到這種情況,所以就更愿意和和瑞斯泰得這樣的集成商合作實(shí)施,而不只是銷售產(chǎn)品。
編看編想:
從一錘子的買賣到沿途下蛋
生意人都知道,一錘子的買賣做不得。但筆者卻發(fā)現(xiàn),在數(shù)據(jù)挖掘領(lǐng)域里,敲一錘子換個地方的現(xiàn)象卻似乎并不鮮見。為什么非要這樣做呢?答案是,全因心里太著急。很多廠商總認(rèn)為,自己懷里揣著的是好產(chǎn)品,面前的中國又是一個大市場。如此一想,就感覺不趕快摟下幾個大單簡直沒天理了。
于是,搞售前的著急讓用戶簽單,拿到錢后又著急從用戶那里撤退。結(jié)果如何呢?還真像那句俏皮話說的:有困難要上,沒有困難創(chuàng)造困難也要上。活活把一些簡單問題復(fù)雜化。有些買完工具的用戶其實(shí)需求都沒想明白,何談成功運(yùn)用;而那些能在忽悠中挺過來的用戶索性就不再理這茬。
問題出在哪里?其實(shí)廠商看得清楚,不外乎市場需要培育、人才也需要培養(yǎng)而已,而他們只是懶得下手去做,甚至不愿去說。
廠商著急,其實(shí)用戶也著急。廠商著急賣產(chǎn)品,而用戶卻在著急花大價錢買來的產(chǎn)品早日上線出效益。這種想法雖然也有問題,但是可以理解。你想,誰不擔(dān)心幾十萬打了水漂兒,誰又不想讓領(lǐng)導(dǎo)說這幾十萬花得值、花得好呢?!
那么,如何才能做到既能保證項目按周期實(shí)施、又不讓用戶心急火燎得難受呢?上海證券交易所信息網(wǎng)絡(luò)有限公司董事長趙小平提出了“沿途下蛋”的理論。簡單講,就是不要到最后才給用戶下一個大金蛋,很可能這個大金蛋還沒下來,用戶就已經(jīng)下了逐客令。正確的辦法就是不斷出成果,這樣用戶才會安心等待并且積極配合。
無疑,從“一錘子的買賣”到“沿途下蛋”這條路上還需要廠商和用戶慢慢琢磨。(ccw-cnw)
- 1網(wǎng)絡(luò)技術(shù)8大趨勢
- 22013年IT預(yù)算將在移動和云領(lǐng)域
- 3家庭網(wǎng)絡(luò)構(gòu)建實(shí)用攻略
- 4解密大數(shù)據(jù):一個轉(zhuǎn)變政府經(jīng)營理念的實(shí)用指南
- 5OA行業(yè)產(chǎn)品型定制型誰主沉浮
- 6挖出網(wǎng)絡(luò)延時的元兇
- 7泛普OA軟件讓理念不再與產(chǎn)品脫節(jié)
- 8解讀我國服裝產(chǎn)業(yè)信息化現(xiàn)狀及發(fā)展趨勢
- 9企業(yè)管理模式需革新 OA來應(yīng)對
- 10Linux系統(tǒng)包管理器簡化操作
- 11泛普軟件:OA軟件業(yè)進(jìn)入“加強(qiáng)版”競爭階段
- 12設(shè)置密碼的十四個訣竅
- 13移動OA助企業(yè)加速布局市場
- 14“臟數(shù)據(jù)”的轉(zhuǎn)換與清洗
- 15Linux下的RSS閱讀器
- 16電子郵件存檔技術(shù)
- 17泛普軟件分享:成長性企業(yè)如何開展流程管理
- 18云OA為青年創(chuàng)業(yè)之路增添成功砝碼
- 19泛普軟件:云計算是如何幫助大數(shù)據(jù)實(shí)現(xiàn)經(jīng)濟(jì)效益
- 20EJB 3.0的三大類型
- 21OWA使用十大竅門
- 22政府云的應(yīng)用
- 23布線在亂局與希望中成長
- 24OA系統(tǒng)如何以細(xì)節(jié)盤活全局
- 25正確選型 信息化的良好開端
- 26數(shù)字校園信息化標(biāo)配 OA辦公系統(tǒng)
- 27高度警惕OA辦公自動化軟件中的難用產(chǎn)品
- 28泛普軟件:OA系統(tǒng)實(shí)施省錢攻略
- 29教育行業(yè)OA軟件應(yīng)用前景獨(dú)好
- 30調(diào)查顯示 五成企業(yè)最注重OA系統(tǒng)用戶體驗
成都公司:成都市成華區(qū)建設(shè)南路160號1層9號
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓