當(dāng)前位置:工程項(xiàng)目OA系統(tǒng) > 泛普各地 > 江西OA系統(tǒng) > 南昌OA系統(tǒng) > 南昌OA行業(yè)資訊
互聯(lián)網(wǎng)上的數(shù)據(jù)挖掘
申請(qǐng)免費(fèi)試用、咨詢電話:400-8352-114
文章來(lái)源:泛普軟件想聽(tīng)一首歌,不必想好其歌名,到搜索引擎里去搜索、下載;而是輸入現(xiàn)在的心情,比如“激昂”,播放器就自動(dòng)播放出《男兒當(dāng)自強(qiáng)》這樣的歌曲,而且一首接著一首。
想去旅游,不必苦思要去什么具體的城市,而是輸入大概想法,比如“浪漫的周末度假”,就能馬上看到十個(gè)建議:包括一家臨海賓館的情侶房、燭光晚餐、一套在周五晚起飛周日晚返歸的機(jī)票。
要完成這些人性化服務(wù)靠搜索引擎是不行的,得靠數(shù)據(jù)挖掘?,F(xiàn)在,數(shù)據(jù)挖掘的各種應(yīng)用離為我們提供上面這些真實(shí)服務(wù)已經(jīng)越來(lái)越近了。
數(shù)據(jù)挖掘(Data Mining)與我們所熟悉的信息檢索(Information Retrieval)的不同之處在于:信息檢索是針對(duì)數(shù)據(jù)的明顯特征來(lái)尋找信息,比如Google等搜索引擎就是尋找含有某關(guān)鍵詞的網(wǎng)頁(yè)、并且根據(jù)鏈接數(shù)來(lái)判斷其重要性。而數(shù)據(jù)挖掘則要復(fù)雜很多,其目的是要在大量數(shù)據(jù)中“挖掘出有趣的可理解的知識(shí)”,這是搜索引擎不能完成的。所以數(shù)據(jù)挖掘也叫數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,KDD)。
本質(zhì)上,數(shù)據(jù)挖掘能夠把海量數(shù)據(jù)變成可被人類(lèi)可直接利用的信息,是一個(gè)“把冰冷信息人性化”的過(guò)程。現(xiàn)在,針對(duì)數(shù)據(jù)挖掘的前沿應(yīng)用已經(jīng)非常之多,覆蓋了不同的領(lǐng)域,以不同的方式呈現(xiàn)出來(lái)。今后,互聯(lián)網(wǎng)用戶所接觸到的不再只會(huì)是傳統(tǒng)搜索引擎輸出的一排排的網(wǎng)頁(yè),而可能是溫情脈脈的令自己更加親切和感動(dòng)的方式。
音樂(lè)
互聯(lián)網(wǎng)用戶會(huì)在很多場(chǎng)合,比如博客和論壇里,留下很多自己對(duì)音樂(lè)的看法,比如在某種心情下推薦的歌曲,在某種情緒下整理了一張歌單。就留下了比如“今天我好亢奮,我在聽(tīng)《男兒當(dāng)自強(qiáng)》”這樣的線索。有道把這千千萬(wàn)萬(wàn)個(gè)用戶的“聲音”整合起來(lái),通過(guò)提煉、去除噪音、自動(dòng)聚合相關(guān)詞、配對(duì),就實(shí)現(xiàn)了心情和音樂(lè)的一一對(duì)應(yīng)。
Google音樂(lè)里的“挑歌”功能,與有道隨心聽(tīng)也神似。Google挑歌的方式是:提供可供用戶自己調(diào)節(jié)的音調(diào)、音色等搜索選項(xiàng),每一個(gè)選項(xiàng)都有一個(gè)滑塊可供自由調(diào)節(jié)。用鼠標(biāo)點(diǎn)擊拖動(dòng)滑塊,通過(guò)節(jié)奏的舒緩或強(qiáng)烈、音調(diào)的低沉或尖銳、音色的豐富或單純來(lái)查詢最希望聽(tīng)到的音樂(lè)。筆者嘗試挑出一首“節(jié)奏舒緩,聲調(diào)低沉,音色適中”的歌,“挑歌”輸出的結(jié)果是張學(xué)友的《相思風(fēng)雨中》和徐小鳳的《蒙蒙夜雨》。
這兩個(gè)產(chǎn)品會(huì)完全改變以往的尋找音樂(lè)的方式:只有當(dāng)你想好某一首歌的名字后,才能去搜索引擎里把它找出來(lái)。其實(shí)音樂(lè)的歷史遠(yuǎn)遠(yuǎn)早于文字,所以音樂(lè)應(yīng)當(dāng)回歸人類(lèi)溝通的本能,挑歌和隨心聽(tīng)的功能可以用音樂(lè)自身特性去搜索音樂(lè),讓音樂(lè)跨越語(yǔ)言和文字的障礙,成為人類(lèi)最自然的溝通方式。
廣告
創(chuàng)業(yè)公司PeerSet新發(fā)布了一個(gè)廣告數(shù)據(jù)工具,能夠通過(guò)網(wǎng)頁(yè)內(nèi)容分析提供網(wǎng)絡(luò)用戶“心理”方面的特征。Peerset的技術(shù)能夠有機(jī)地把用戶的興趣、價(jià)值觀、生活方式、對(duì)品牌的態(tài)度關(guān)聯(lián)在一起。讓廣告主了解到這些背景信息。
基本上,Peerset的套路是跟蹤社交媒體上的各種互動(dòng),試圖加以解釋、并且把各種信息加以關(guān)聯(lián),然后為廣告主給出結(jié)果。比如,如果廣告的特征“時(shí)尚”,那么Peerset就可能根據(jù)對(duì)信息的檢測(cè)和梳理得出:那些談?wù)摗扒橛际小焙汀胞湲?dāng)娜”的人就是合適的受眾。Peerset就是要通過(guò)“心理”方面的特征把對(duì)不同廣告合適的不同人群找出來(lái)。
Peerset不只是提供關(guān)于目標(biāo)人群的數(shù)據(jù)庫(kù)給廣告主,還會(huì)整合當(dāng)前的廣告系統(tǒng),直接把相應(yīng)的廣告放到合適的網(wǎng)頁(yè)位置上去。比如,對(duì)于想做廣告的時(shí)尚服裝廣告主,Peerset會(huì)在接單以后,直接把廣告投放到Facebook上一個(gè)喜歡《情欲都市》電影的那個(gè)用戶的頁(yè)面上。
這種廣告方式又與搜索引擎的廣告有了本質(zhì)的不同。搜索引擎廣告的優(yōu)勢(shì)在于對(duì)準(zhǔn)了有明確購(gòu)買(mǎi)傾向的用戶,而Peerset廣告能夠把有潛在購(gòu)買(mǎi)傾向的用戶“挖掘”出來(lái)。是的,這種方式與傳統(tǒng)的品牌展示廣告目的相似,不過(guò),Peerset要更有效率。因?yàn)槠放茝V告是撒大網(wǎng),而Peerset試圖做到“精準(zhǔn)”匹配。
調(diào)研
Facebook手里有3億用戶和每天4000萬(wàn)次狀態(tài)更新,利用如此巨大的海量數(shù)據(jù),可以對(duì)幾乎任何話題做評(píng)測(cè)。諸如人們最關(guān)注的品牌,最關(guān)心的政治問(wèn)題。于是工程師們決定利用這些數(shù)據(jù),來(lái)評(píng)測(cè)國(guó)民幸福指數(shù)(Gross National Happiness)。這個(gè)新應(yīng)用將最大可能地評(píng)測(cè)美國(guó)Facebook用戶是幸福還是悲觀的。產(chǎn)品開(kāi)發(fā)人員是這樣描述的:
把來(lái)自全國(guó)各地的數(shù)百萬(wàn)Facebook用戶的狀態(tài)更新數(shù)據(jù)集合在一起,可以說(shuō)明國(guó)民的幸福感有多強(qiáng)。評(píng)測(cè)國(guó)民感到幸運(yùn)、幸福,以及對(duì)生活滿意的程度是這項(xiàng)國(guó)民幸福指數(shù)評(píng)測(cè)項(xiàng)目的一部分。當(dāng)用戶在狀態(tài)更新中使用比平時(shí)多的積極詞匯(或少的消極詞匯)時(shí),表示這一天比平時(shí)更幸福。
這些數(shù)據(jù)都是匿名從Facebook論壇上收集的。為確定某些狀態(tài)信息究竟表示幸福還是悲傷,或兩者都不是,這項(xiàng)應(yīng)用還必須搜索開(kāi)發(fā)人員確定的與每個(gè)情緒相聯(lián)系的流行短語(yǔ)和詞匯。結(jié)果是:周一人們的幸福指數(shù)最低,然后一直到周末,幸福指數(shù)不斷上升,在下一周開(kāi)始時(shí),又跌至最低。通常,幸福指數(shù)在假期附近較高。今年6月底,人們的幸福指數(shù)急速下滑,這可能與流行音樂(lè)之王Michael Jackson的逝世有關(guān)。
旅游
Center´d是由YahooLocal這款產(chǎn)品的前總經(jīng)理Dulski掌舵的一個(gè)活動(dòng)組織網(wǎng)站,也就是把促成一個(gè)聚會(huì)活動(dòng)所需要的三要素便捷地組織起來(lái):人,地點(diǎn),計(jì)劃(people,place,plan)。不過(guò),Cener´d特別之處是,在其搜索結(jié)果里加入了“語(yǔ)義分析”,號(hào)稱其結(jié)果要比同類(lèi)網(wǎng)站的“關(guān)鍵詞”搜索結(jié)果更好。
Center´d已經(jīng)積累了100萬(wàn)次的針對(duì)活動(dòng)的搜索,并把這些搜索根據(jù)其目的進(jìn)行分類(lèi)。為此,Center´d的自主大量的分析發(fā)生在網(wǎng)上的關(guān)于某個(gè)活動(dòng)的談話或者討論,以對(duì)這個(gè)活動(dòng)打上“正面”或者“負(fù)面”的標(biāo)簽。然后形成數(shù)據(jù)庫(kù),再形成圖表。
Dulski認(rèn)為,這種基于語(yǔ)義的分析要比普通的關(guān)鍵詞搜索更好,因?yàn)槟軌蚝Y除很多不精確的匹配。比如,一個(gè)“不適合同性戀的Party”,就不會(huì)出現(xiàn)在一個(gè)對(duì)“同性戀Party”做搜索的結(jié)果里。因?yàn)镃enter´d已經(jīng)通過(guò)語(yǔ)義分析知道了,“同性戀”前面的“不合適”就表示一個(gè)“負(fù)面”評(píng)價(jià)。
基于這個(gè)數(shù)據(jù)庫(kù),Center´d就能夠形成一個(gè)針對(duì)不同標(biāo)準(zhǔn)的活動(dòng)指南。比如,在北京的浪漫之旅、廉價(jià)旅游四川等等。這些特定標(biāo)準(zhǔn)的搜索結(jié)果大部分由數(shù)據(jù)庫(kù)自動(dòng)生成,但也有少量編輯參與其中,以確保質(zhì)量。
Dulski說(shuō),很多用戶來(lái)到Center´d時(shí)其實(shí)腦袋里并沒(méi)有一個(gè)明確的目的,所以諸如“北京的浪漫之旅”或者“兒童們的六一節(jié)日”這樣的柔性、感性、概念性的東西能夠容易激起他們的興趣,并且一步步誘導(dǎo)他們完成一次活動(dòng)的準(zhǔn)備???,這個(gè)看法跟Google挑歌和有道隨心聽(tīng)的邏輯是多么神似。唯一不同的是所針對(duì)的對(duì)象不一樣。
任何服務(wù)或者工具面對(duì)的都不是一個(gè)對(duì)自己需求有明確認(rèn)識(shí)的理性人,而是一個(gè)有著一點(diǎn)感覺(jué),但需要被引導(dǎo)的感性人。這無(wú)疑是一條正確的發(fā)展之路。
產(chǎn)品改進(jìn)
數(shù)據(jù)挖掘也在幫助產(chǎn)品經(jīng)理們改善用戶體驗(yàn)。在很多大的互聯(lián)網(wǎng)公司,這實(shí)際上成為了輔佐公司戰(zhàn)略的數(shù)字神經(jīng)系統(tǒng)。
互聯(lián)網(wǎng)公司一般都記錄了所有用戶在其網(wǎng)站(尤其是網(wǎng)絡(luò)游戲和社交網(wǎng)絡(luò))上的所有點(diǎn)擊、行為路徑、相應(yīng)的時(shí)間。如果用戶嘗試一個(gè)新產(chǎn)品,用一兩秒鐘就退出來(lái)了,說(shuō)明這個(gè)產(chǎn)品可能有問(wèn)題,而不是用戶不想用;而其中出問(wèn)題的很可能就在用戶的最后一次點(diǎn)擊發(fā)生的地方。
比如騰訊就一款網(wǎng)游中的子彈射出后的彈道設(shè)置做研究,根據(jù)對(duì)用戶的挖掘數(shù)據(jù)認(rèn)為,游戲原本設(shè)計(jì)的逼真效果對(duì)中國(guó)用戶并不合適,而用戶對(duì)一種新設(shè)計(jì)的“比較爽快的、節(jié)奏快的、鮮明的”的彈道設(shè)計(jì)更加興奮。
在網(wǎng)游業(yè),數(shù)據(jù)挖掘的最系統(tǒng)應(yīng)用就是盛大的“平臺(tái)”戰(zhàn)略。也就是,把任意一款游戲拿到其從2004年就開(kāi)始建立的一套“評(píng)測(cè)”體系去走流程,就可以知道這款游戲到底會(huì)不會(huì)受到玩家的歡迎。其根據(jù),就來(lái)自于盛大在過(guò)去運(yùn)營(yíng)的上百款游戲的用戶數(shù)據(jù)的記錄、分析、關(guān)聯(lián)、最后建立模型?;谶@套評(píng)測(cè)流程,盛大就可以對(duì)一款新游戲做出判斷,到底該不該運(yùn)營(yíng)、如何去改進(jìn)、潛力有多大,都有了一套從數(shù)字出發(fā)的答案。
- 1統(tǒng)一通信真的有效嗎
- 2網(wǎng)絡(luò)虛擬化的化學(xué)反應(yīng)
- 3從傳統(tǒng)歸檔到云存儲(chǔ)歸檔的演變
- 4軟件與服務(wù)地位凸顯,統(tǒng)一通信深度融合
- 5擴(kuò)展集群存儲(chǔ)的備份重復(fù)數(shù)據(jù)刪除
- 6SOA與企業(yè)級(jí)系統(tǒng)構(gòu)建
- 7VMware虛擬機(jī)實(shí)用經(jīng)驗(yàn)總結(jié)十一條
- 8企業(yè)如何利用SOA簡(jiǎn)化集成商業(yè)智能BI
- 9巧用三招 快速提升虛擬化效果
- 10GIS與遙感影像的應(yīng)用融合
- 11智能攝像機(jī)性能、特點(diǎn)、原理淺談
- 12企業(yè)級(jí)數(shù)據(jù)存儲(chǔ)技術(shù)和方式分析
- 13數(shù)據(jù)泄漏防范(DLP)漸成主流
- 14用友NC :“企業(yè)云”平臺(tái)扮演雙重角色
- 15智能視頻分析中的貓膩
- 16虛擬化管理挑戰(zhàn)持續(xù)釋放
- 17OA軟件測(cè)試的整體評(píng)估與測(cè)試環(huán)境介紹
- 18讓FCoE和iSCSI適合存儲(chǔ)策略
- 19云應(yīng)用 如何才能讓我信任你
- 20如何設(shè)防?把脈黑客攻擊的八大技術(shù)動(dòng)態(tài)
- 21手機(jī)錢(qián)包三大瓶頸:辦理煩刷卡快用得少
- 22打造新一代數(shù)據(jù)中心解決方案完整生態(tài)鏈
- 23基于存儲(chǔ)網(wǎng)格的關(guān)鍵技術(shù)
- 24網(wǎng)絡(luò)附加存儲(chǔ)(NAS)備份技術(shù)大比拼
- 25UPS電源效能最大化十大必殺技
- 26給互聯(lián)網(wǎng)換個(gè)架構(gòu)?
- 27淺談基于SOA架構(gòu)的SaaS化
- 28數(shù)據(jù)修復(fù)不僅要數(shù)據(jù),更要保密
- 29構(gòu)建云平臺(tái)時(shí)易犯的三個(gè)錯(cuò)誤
- 30泛普軟件OA系統(tǒng)的最新版將“部門(mén)計(jì)劃”和“公司計(jì)劃”的模塊獨(dú)立出來(lái)
成都公司:成都市成華區(qū)建設(shè)南路160號(hào)1層9號(hào)
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓