監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價咨詢管理系統(tǒng) | 工程設(shè)計管理系統(tǒng) | 簽約案例 | 購買價格 | 在線試用 | 手機(jī)APP | 產(chǎn)品資料
X 關(guān)閉

數(shù)據(jù)挖掘的“無底洞”

申請免費試用、咨詢電話:400-8352-114

來源:泛普軟件

由于缺失商業(yè)分析和監(jiān)督程序,數(shù)據(jù)挖掘工具在美國反恐中的應(yīng)用陷于困頓。

2001 年9 月27 日晚,紐約城市大學(xué)計算機(jī)科學(xué)教授Howard Rubin 正在家進(jìn)行贖罪日禱告,這一天是希伯來歷中最神圣的節(jié)日。此時,他家中的電話鈴聲響起,電話那頭是前美國政府信息機(jī)構(gòu)的一位最重要的官員。他問Rubin是否了解政府可以用來抓捕恐怖分子的IT技術(shù)。在克林頓執(zhí)政期間,Rubin 曾就一些技術(shù)課題向美國政府當(dāng)局提供過建議。但由于缺乏商業(yè)分析和足夠的監(jiān)督,Rubin 的答案——數(shù)據(jù)挖掘如今成為旋繞在這個智囊團(tuán)大部分成員頭上的技術(shù)咒語。

就監(jiān)督程序來說,美國政府為防止恐怖主義而開展的數(shù)據(jù)挖掘工作是一場災(zāi)難

“無底洞”

在IT 領(lǐng)域,數(shù)據(jù)挖掘是一個相對較新的應(yīng)用領(lǐng)域,它把統(tǒng)計模型、高性能處理器和人工智能結(jié)合在一起,以發(fā)現(xiàn)并恢復(fù)有價值的信息,否則這些信息可能會一直被埋藏在海量數(shù)據(jù)中。零售商可以利用數(shù)據(jù)挖掘技術(shù)預(yù)測消費者的購物模式,信用卡公司可以用它查明信用卡欺詐。911 恐怖襲擊之后,美國政府開始利用數(shù)據(jù)挖掘技術(shù),幫助安全部門預(yù)防未來的恐怖襲擊。

現(xiàn)在,美國政府已經(jīng)非常依賴數(shù)據(jù)挖掘技術(shù),特別是在情報界?!?004 美國聯(lián)邦政府會計總署報告》顯示,美國政府部門積極參與或正在籌劃的數(shù)據(jù)挖掘項目為199個,其中14個項目明確用于抓捕恐怖分子和預(yù)防恐怖襲擊。這些項目還不包括美國中情局和國土安全部等7個部門的自有項目。在過去1年中,美國媒體披露,這幾個部門都有一些高度機(jī)密的計劃,涉及收集和搜尋電話記錄、電子郵件和其他個人信息中的數(shù)據(jù)模型樣本。當(dāng)這項計劃披露后,布什總統(tǒng)和其他政府高官都竭力為此辯解,理由是它對反恐很重要。

有關(guān)專家指出,由于政府對這些數(shù)據(jù)挖掘工具的大力投入,以及情報安全部門所面臨的巨大壓力,所以相關(guān)官員批準(zhǔn)這些項目的速度之快,大大超乎人們的想像。“如果這些項目有價值,人們就不會站到反對數(shù)據(jù)挖掘的陣營一邊,不接受政府的這種做法。”RobertPopp說,他是美國國防先進(jìn)技術(shù)研究計劃下屬的信息識別辦公室主任。當(dāng)然,政府官員對實施數(shù)據(jù)挖掘項目都有著直白的理由——“我們想保衛(wèi)我
們的國家和我們的生活方式?!盧obert Gourley說,他是美國國防情報局(Defense Intelligence
Agency)的首席技術(shù)官。

然而一些專家開始對此進(jìn)行置疑——這些沒有樣本對象范圍限制、沒有預(yù)算限制和時間表限制的IT戰(zhàn)略能否最佳地實現(xiàn)預(yù)期目標(biāo)。這是美國情報機(jī)構(gòu)CIO們每天都要面對的難題。無論這些項目的意義如何重大,不加以控制,往往都會流于失敗。據(jù)Sandish Group(一家跟蹤IT成功率的分析公司)的觀點,缺乏監(jiān)督是IT 項目失敗的主要原因。“政府沒有人從IT價值角度看待數(shù)據(jù)挖掘工具,我也描述不出數(shù)據(jù)挖掘的價值,但我不會停止對它的使用?!盨teve Cooper說,他是美國國土安全部(United States Department of Homeland Security, DHS)的CIO。

根據(jù)他的說法,沒有人會為政府的IT 項目做商業(yè)分析,以確定政府真的從IT 投資中獲得了回報。政府為自己提供的有關(guān)項目是否合乎經(jīng)濟(jì)原則的解釋似乎很充分——如果某個項目有可能抓住哪怕一名恐怖分子,那么它就是值得的。不過,假設(shè)美國政府管理IT 項目的歷史記錄特別糟糕,那么強(qiáng)制要求其對項目進(jìn)行優(yōu)先級劃分和管理控制,結(jié)果反而適得其反。專家擔(dān)心某些IT 項目會拖延幾年,而有些好項目會因為涉及隱私和公民自由等被束之高閣。實際上,美國國會已經(jīng)中止了大量數(shù)據(jù)挖掘項目,包括國防部的“全面信息識別計劃”(Total Information Awareness project)。這項計劃于2003 年野心勃勃地啟動,它試圖建立一個巨型數(shù)據(jù)庫,收集、分析可能的恐怖分子的任何數(shù)據(jù)。

因此,數(shù)據(jù)挖掘?qū)<抑赋?,企業(yè)的CIO 運用IT 戰(zhàn)略,可以保證項目不脫離自己的控制,政府也需要對反恐的IT 戰(zhàn)略進(jìn)行類似的商業(yè)分析。“這些項目有著極為合理的目標(biāo),但沒有監(jiān)控程序?!盕red Cate 說,他是印第安納大學(xué)應(yīng)用虛擬安全研究中心主任。

監(jiān)控缺失

目前,美國政府的數(shù)據(jù)挖掘項目分為兩大類:一類是基于監(jiān)控對象的系統(tǒng)。它能夠幫助分析專家跟蹤某個恐怖頭目;另一類是基于行為模式的系統(tǒng),它可以在多種活動方式中搜尋可疑行為?;诒O(jiān)控對象的數(shù)據(jù)挖掘技術(shù)吸引了諸多工作人員和學(xué)者,被稱作關(guān)聯(lián)分析法(link analysis)。它利用數(shù)據(jù),在表面上沒有關(guān)系的人或事件之間建立關(guān)聯(lián)。如果你知道某人是恐怖分子,那么就可以使用關(guān)聯(lián)軟件發(fā)現(xiàn)嫌疑犯可能正在影響的其他人。很多專家都認(rèn)為,美國國土安全部可以分析上百萬條國內(nèi)電話記錄的系統(tǒng)就屬于關(guān)聯(lián)分析系統(tǒng)。

“關(guān)聯(lián)分析項目只有在較窄的樣本對象范圍內(nèi)才有用。”Valdis Krebs說,他是一位IT 咨詢顧問。在911 慘案之后,他畫出了著名的顯示劫機(jī)涉案關(guān)系人的關(guān)聯(lián)圖。成功的關(guān)聯(lián)分析需要一個可靠的關(guān)系起始點,但是當(dāng)分析不規(guī)律行為的時候,這種方法就變得不那么有效?!爱?dāng)你觀察大量樣本對象時,你就很難區(qū)分他們是恐怖分子還是你不認(rèn)識的其他人。”Krebs說。如果美國政府把網(wǎng)撒得太大,項目成本就會更高、耗費時間就會更長,且會增加“誤報”風(fēng)險。

用于反恐的數(shù)據(jù)挖掘技術(shù)想得到提高,那么需要改變的不只是業(yè)務(wù)規(guī)則,一個數(shù)據(jù)挖掘系統(tǒng)如果沒有優(yōu)質(zhì)數(shù)據(jù)的支持,就什么也不是?!皢为毷褂妹謥肀O(jiān)測嫌疑對象,不是一種有希望的方法?!盝eff Jonas 說,他是數(shù)據(jù)挖掘知識領(lǐng)域內(nèi)的超級明星,他曾經(jīng)讓拉斯維加斯的賭場免遭詐騙。

企業(yè)的CIO運用IT戰(zhàn)略,可以保證項目不脫離自己的控制,政府也需要對IT戰(zhàn)略進(jìn)行類似的商業(yè)分析

911 之后,美國政府開始用Capps 二代系統(tǒng)替換老系統(tǒng)(CappsII,即電腦輔助乘客預(yù)檢系統(tǒng)II ,Computer AssistedPassenger Pre-Screening system II,用于對每位乘機(jī)者的背景進(jìn)行更深入調(diào)查,將個人信息和美國政府掌握的犯罪紀(jì)錄、情報資料進(jìn)行對比)。老系統(tǒng)只能跟蹤從航空公司收集來的乘客信息,包括姓名、信用卡號碼、地址等,而CappsII 系統(tǒng)增加了從數(shù)據(jù)處理公司那里精選來的數(shù)據(jù)。2003 年,CappsII 剛開始實施時,就聲名狼藉。當(dāng)時,有媒體揭露,美國西北航空公司和JetBlue 航空公司把乘客記錄交給了美國交通安全管理局(Transportation Security Administration,TSA),從而用這些數(shù)據(jù)來檢驗新系統(tǒng)。

2004 年8 月1日,交通安全管理局取消了對CappsII系統(tǒng)超過1億美元的投資,轉(zhuǎn)而推動“安全飛”(Secure Flight)的新系統(tǒng)。Secure Flight 系統(tǒng)和它的“前輩”有很多共通的特點,最明顯的就是把乘客記錄和從商業(yè)數(shù)據(jù)庫購買來的數(shù)據(jù)結(jié)合在一起。2005 年9 月,Secure Flight 系統(tǒng)工作組——一個由數(shù)據(jù)挖掘和隱私專家組成的團(tuán)隊,被交通安全管理局請來審查這個項目,他們用9個月時間對系統(tǒng)進(jìn)行分析,最終提交了一份對該系統(tǒng)存亡極為關(guān)鍵的機(jī)密報告文獻(xiàn)。1周之內(nèi),這個報告被掛到了互聯(lián)網(wǎng)上。安全專家Bruce Schneier曾是這個工作組的成員。他認(rèn)為,如果缺乏恰當(dāng)?shù)臉颖緦ο?,?shù)據(jù)挖掘反而會破壞反恐IT工作的努力。他把CappsII和Secure Flight看做這一觀點的兩個佐證。Schneier說:“即便努力設(shè)計的數(shù)據(jù)挖掘系統(tǒng)能夠過濾電話記錄或信用卡交易,且能夠以99%的成功率定位恐怖分子,它依然不能算做可以放心的好調(diào)查工具。如果近3億美國人每天打10次電話,那么1年就會制造出1萬億條要由政府挖掘的數(shù)據(jù)。此時,即便有99%的精度,每年也會產(chǎn)生100億條的漏報。99%的準(zhǔn)確度依然意味著會漏掉一些真正的恐怖分子,數(shù)據(jù)挖掘是一種浪費錢的徒勞行為?!?/FONT>

Schneier指出,相比反恐應(yīng)用,數(shù)據(jù)挖掘更能在預(yù)防信用卡欺詐等領(lǐng)域發(fā)揮作用。這是由于詐騙高手們的行動方式是可以預(yù)測的,并且信用卡數(shù)據(jù)挖掘系統(tǒng)的操作人員已經(jīng)畫出了一條清晰的ROI(投資匯報率)曲線——這條曲線處在一個可以接受的漏報或誤報水平上,且操作人員據(jù)此相應(yīng)調(diào)整了整個系統(tǒng)的參數(shù)設(shè)置。例如大多數(shù)信用卡發(fā)卡機(jī)構(gòu)都愿意接受幾千美元的損失,以防止消費者每次透支過限走出結(jié)賬柜臺時警鈴大作。如果誤報情況不經(jīng)常發(fā)生,消費者不會介意偶爾的警報打擾,他們甚至有可能看作這是發(fā)卡機(jī)構(gòu)正在努力保護(hù)自己的一種信號。

Capps II 和Secure Flight 卻沒有這樣的投資回報率分析機(jī)制。美國政府并沒有重新考量這兩個項目的目標(biāo)和應(yīng)用范圍,只是把它們擴(kuò)展到了包括描繪嫌疑人外形輪廓、追捕普通罪犯等應(yīng)用上。由于對這兩個IT項目的目標(biāo)定義過于寬泛,導(dǎo)致它們到如今依然不能發(fā)揮作用?!敖煌ò踩芾砭謴膩聿辉敢庵匦略u估項目的樣本覆蓋范圍,所以現(xiàn)在我們依然不能擁有一個自動化系統(tǒng),能把乘客姓名和恐怖分子觀察名單上的姓名相匹配?!?/FONT>

盡管像CappsII 這樣的項目已經(jīng)成為明顯的失敗案例,但數(shù)據(jù)挖掘?qū)<乙廊辉诠拇禂?shù)據(jù)挖掘會成為反恐的有效工具,且由于這項技術(shù)非常新,隨著時間的推移,它會堅持到對事情更有幫助的那一天,前提是如果它能得到正確管理。但是美國政府的大多數(shù)數(shù)據(jù)挖掘項目并沒有經(jīng)過嚴(yán)格的商業(yè)分析。現(xiàn)在,美國情報部門CIO都認(rèn)為這是困擾他們很久的問題。最近,美國國家科學(xué)院(National Academy of Sciences,NAS)任命了一個委員會,開發(fā)出了一套美國政府能用來評估反恐?jǐn)?shù)據(jù)挖掘項目效率的方法,但是它的報告目標(biāo)截止期限已經(jīng)在1 年之后了?!熬捅O(jiān)督程序來說,美國政府為防止恐怖主義而開展的數(shù)據(jù)挖掘工作是一場災(zāi)難?!保╟eocio-CCW)

 

發(fā)布:2007-04-23 09:41    編輯:泛普軟件 · xiaona    [打印此頁]    [關(guān)閉]
石家莊OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設(shè)南路160號1層9號

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢:400-8352-114

加微信,免費獲取試用系統(tǒng)

QQ在線咨詢