溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

大數(shù)據(jù)面臨的風(fēng)險和現(xiàn)存問題(大數(shù)據(jù)行業(yè)必讀)

發(fā)布時間:2020-04-20 05:47:48 來源:網(wǎng)絡(luò) 閱讀:1814 作者:大數(shù)據(jù)小結(jié) 欄目:大數(shù)據(jù)
“大數(shù)據(jù)”無疑是當(dāng)下的熱門術(shù)語,提及數(shù)據(jù)分析必談大數(shù)據(jù),這是對大數(shù)據(jù)和數(shù)據(jù)分析的雙重誤解,面對一個流行概念本身所許諾的前景和它所代表的商業(yè)利益,學(xué)界應(yīng)保持高度的真誠和懷疑。關(guān)注WX公眾號::大數(shù)據(jù)技術(shù)工程師 了解更多精彩資訊。

“大數(shù)據(jù)”成為2018年的關(guān)鍵詞匯,被認(rèn)為將會帶來生活、工作與思維的重大變革。

谷歌、亞馬遜等互聯(lián)網(wǎng)企業(yè)在利用大數(shù)據(jù)方面所做的工作使數(shù)據(jù)行業(yè)看到了新的發(fā)展路徑。大數(shù)據(jù)在教育、醫(yī)療、汽車、服務(wù)性行業(yè)的應(yīng)用所彰顯的能量使企業(yè)、研究者對大數(shù)據(jù)的未來充滿信心。《連線》雜志主編克里斯·安德森甚至早在2008年就斷言數(shù)據(jù)洪流將會帶來理論的終結(jié),科學(xué)方法將會過時,其原話是“面對大規(guī)模數(shù)據(jù),科學(xué)家“假設(shè)、模型、檢驗”的方法變得過時了”。

技術(shù)的變遷在任何行業(yè)都是值得歡欣鼓舞的,但不妨在此處借用蘇珊·朗格在《哲學(xué)新視野》中的論述表達(dá)一點謹(jǐn)慎:

某些觀念有時會以驚人的力量給知識狀況帶來巨大的沖擊。由于這些觀念能一下子解決許多問題,所以,它們似乎有希望解決所有基本問題,澄清所有不明了的疑點。每個人都想迅速的抓住它們,作為進(jìn)入某種新實證科學(xué)的法寶,作為可用來建構(gòu)一個綜合分析體系的概念軸心。這種‘宏大概念’突然流行起來,一時間把所有東西都擠到了一邊。[4][5]

蘇珊·朗格認(rèn)為這是由于“所有敏感而活躍的人都立即致力于對它進(jìn)行開發(fā)這個事實造成的”,這一論述放置在今日對大數(shù)據(jù)的狂熱崇拜之中也極為恰當(dāng),大數(shù)據(jù)的流行并不意味著其它的理解與思考方式就不再適合存在,正如微軟的Mundie先生所說,“以數(shù)據(jù)為中心的經(jīng)濟(jì)還處于發(fā)展初期,你可以看到它的輪廓,但它的技術(shù)上的、基礎(chǔ)結(jié)構(gòu)的、甚至商業(yè)模型的影響還沒有被完全理解?!钡豢煞裾J(rèn)的是人們確實將更多的學(xué)術(shù)興趣轉(zhuǎn)移到這一領(lǐng)域,而一旦人們能夠以審慎的思路開始清晰的闡述它們,即便一時不能提供完美的解決方案,至少也是能讓人有所獲益的途徑。

人們在談?wù)摯髷?shù)據(jù)的美好圖景時當(dāng)然沒有完全忘記它可能帶來的風(fēng)險,但擔(dān)憂多集中于大數(shù)據(jù)的后果,如信息安全,而沒有集中于如何看待大數(shù)據(jù)本身。本文將就當(dāng)前尤其國內(nèi)技術(shù)環(huán)境下,進(jìn)入大數(shù)據(jù)時代所面臨的風(fēng)險和存在的問題做簡要分析,以希望能厘清概念,澄清一些誤解。

大數(shù)據(jù)的面臨的風(fēng)險主要表現(xiàn)在以下幾方面:

一、海量數(shù)據(jù)的計算速度
零售業(yè)巨頭沃爾瑪每小時處理超過一百萬客戶交易,輸入數(shù)據(jù)庫中的數(shù)據(jù)預(yù)計超過2.5PB(拍字節(jié),2的50次方)——相當(dāng)于美國國會圖書館書籍存量的167倍,通信系統(tǒng)制造商思科預(yù)計,到2013年因特網(wǎng)上流動的數(shù)據(jù)量每年將達(dá)到667EB(艾字節(jié),2的60次方)[6],數(shù)據(jù)增長的速度將持續(xù)超過承載其傳送的網(wǎng)絡(luò)發(fā)展速度。

來自淘寶的數(shù)據(jù)統(tǒng)計顯示,他們一天產(chǎn)生的數(shù)據(jù)量即可達(dá)到甚至超過30TB,這僅僅是一家互聯(lián)網(wǎng)公司一日之內(nèi)的數(shù)據(jù)量,處理如此體量的數(shù)據(jù),首先面臨的就是技術(shù)方面的問題。海量的交易數(shù)據(jù)、交互數(shù)據(jù)使得大數(shù)據(jù)在規(guī)模和復(fù)雜程度上超出了常用技術(shù)按照合理的成本和時限抓取、存儲及分析這些數(shù)據(jù)集的能力。

現(xiàn)在談到大數(shù)據(jù),難以避免言必稱美國的傾向,那么美國究竟如何應(yīng)對這這方面的問題呢?

美國政府六個部門啟動的大數(shù)據(jù)研究計劃中,包括:

? DARPA的大數(shù)據(jù)研究項目:多尺度異常檢測項目,旨在解決大規(guī)模數(shù)據(jù)集的異常檢測和特征化;網(wǎng)絡(luò)內(nèi)部威脅計劃,旨在通過分析傳感器和其他來源的信息,進(jìn)行網(wǎng)絡(luò)威脅和非常規(guī)戰(zhàn)爭行為的自動識別; Machine Reading項目,旨在實現(xiàn)人工智能的應(yīng)用和發(fā)展學(xué)習(xí)系統(tǒng),對自然文本進(jìn)行知識插入。

? NSF的大數(shù)據(jù)研究內(nèi)容:從大量、多樣、分散和異構(gòu)的數(shù)據(jù)集中提取有用信息的核心技術(shù);開發(fā)一種以統(tǒng)一的理論框架為原則的統(tǒng)計方法和可伸縮的網(wǎng)絡(luò)模型算法,以區(qū)別適合隨機(jī)性網(wǎng)絡(luò)的方法。

? 國家人文基金會(NEH)項目包括:分析大數(shù)據(jù)的變化對人文社會科學(xué)的影響,如數(shù)字化的書籍和報紙數(shù)據(jù)庫,從網(wǎng)絡(luò)搜索,傳感器和手機(jī)記錄交易數(shù)據(jù)。

? 能源部(DOE)的大數(shù)據(jù)研究項目包括:機(jī)器學(xué)習(xí)、數(shù)據(jù)流的實時分析、非線性隨機(jī)的數(shù)據(jù)縮減技術(shù)和可擴(kuò)展的統(tǒng)計分析技術(shù)。[7]

從這份研究計劃可以看出,絕大多數(shù)研究項目都是應(yīng)對大數(shù)據(jù)帶來的技術(shù)挑戰(zhàn),目前我們所使用的數(shù)據(jù)庫技術(shù)誕生于上世紀(jì)70年代,大數(shù)據(jù)時代首先需要解決的是整個IT結(jié)構(gòu)的重新架構(gòu),提升對不斷增長的海量數(shù)據(jù)的存儲、處理能力。

筆者最早進(jìn)入數(shù)據(jù)分析領(lǐng)域是在1986年,使用的機(jī)器是長城,520,小的IBM機(jī)器,在完成數(shù)據(jù)輸入、問卷輸入之后,做一個最簡單的命令操作,需要等三個小時之后才能出結(jié)果,我們現(xiàn)在面對大數(shù)據(jù)時的處理能力,形象化來講就是當(dāng)年P(guān)C機(jī)對小數(shù)據(jù)的處理能力。

這也就是大數(shù)據(jù)常和云計算聯(lián)系在一起的原因,實時的大型數(shù)據(jù)集分析至少需要使用像MapReduce和Hadoop那樣的分析技術(shù)并有數(shù)千臺電腦同時工作,因為想做到實時分析,需要在數(shù)據(jù)庫中空出分析工作空間,控制對資源和數(shù)據(jù)的訪問,同時不影響生產(chǎn)系統(tǒng)。[8]在現(xiàn)有的技術(shù)條件下談大數(shù)據(jù)需要充分考慮到硬件設(shè)施和分析技術(shù)的不足,因為這是前提,這也正是數(shù)據(jù)中心成為谷歌、亞馬遜最高機(jī)密的原因,F(xiàn)acebook的開源硬件計劃得到眾多企業(yè)包括國內(nèi)的騰訊響應(yīng)的積極響應(yīng)也是基于這方面的現(xiàn)實需要。

二、海量數(shù)據(jù)帶來的風(fēng)險是處處都是假規(guī)律
“如果只就人類的認(rèn)識是零星、細(xì)小的而言,小之中蘊含著智慧,因為人類的認(rèn)識更多的是依靠實驗,而不是依靠了解。最大的危險必然是不顧后果的運用局部知識。”舒馬赫在《小的是美好的》一書中用這段話來表達(dá)對核能、農(nóng)業(yè)化學(xué)物、運輸技術(shù)大規(guī)模運用的擔(dān)憂,也適用于今日調(diào)查行業(yè)、企業(yè)、研究者對全數(shù)據(jù)的迷信、忽視抽樣所帶來的風(fēng)險。

對于海量數(shù)據(jù)數(shù)據(jù)的計算能力隨著分布式緩存、基于MPP的分布式數(shù)據(jù)庫、分布式文件系統(tǒng)、各種NoSQL分布式存儲方案等新技術(shù)的普及可以解決,但這只是關(guān)于數(shù)據(jù)處理的第一步(甚至這種處理方式本身都存在很大風(fēng)險),還并不是最大的風(fēng)險,大數(shù)據(jù)最為嚴(yán)重的風(fēng)險存在于數(shù)據(jù)分析層面。

(一)數(shù)據(jù)量的增大,會帶來規(guī)律的喪失和嚴(yán)重失真
維克托·邁爾-舍恩伯格在其著作《大數(shù)據(jù)的時代》中也指出這一點,“數(shù)據(jù)量的大幅增加會造成結(jié)果的不準(zhǔn)確,一些錯誤的數(shù)據(jù)會混進(jìn)數(shù)據(jù)庫,”[9]此外,大數(shù)據(jù)的另外一層定義,多樣性,即來源不同的各種信息混雜在一起會加大數(shù)據(jù)的混亂程度,統(tǒng)計學(xué)者和計算機(jī)科學(xué)家指出,巨量數(shù)據(jù)集和細(xì)顆粒度的測量會導(dǎo)致出現(xiàn)“錯誤發(fā)現(xiàn)”的風(fēng)險增加。那種認(rèn)為假設(shè)、檢驗、驗證的科學(xué)方法已經(jīng)過時的論調(diào),正是出于面對大數(shù)據(jù)時的混亂與迷茫,因為無法處理非結(jié)構(gòu)化的海量數(shù)據(jù),從中找出確定性的結(jié)論,索性擁抱凱文凱利所稱的混亂。這種想法在某些領(lǐng)域是有效地,比如它可以解釋生物的選擇性,東非草原上植物的選擇過程,但是未必能解釋人,解釋事件過程和背后的規(guī)律。

大數(shù)據(jù)意味著更多的信息,但同時也意味著更多的虛假關(guān)系信息,斯坦福大學(xué)Trevor Hastie教授用‘在一堆稻草里面找一根針’來比喻大數(shù)據(jù)時代的數(shù)據(jù)挖掘,問題是很多稻草長得像針一樣,‘如何找到一根針’是現(xiàn)在數(shù)據(jù)挖掘的問題上面臨的最大問題,海量數(shù)據(jù)帶來顯著性檢驗的問題,將使我們很難找到真正的關(guān)聯(lián)。

我們以一個實際的案例來看一下樣本量不斷增大之后,會出現(xiàn)的問題:

表1 數(shù)據(jù)量增大之后帶來的顯著性檢驗問題

大數(shù)據(jù)面臨的風(fēng)險和現(xiàn)存問題(大數(shù)據(jù)行業(yè)必讀)

上表是關(guān)于2006年網(wǎng)絡(luò)游戲歷程擴(kuò)散的回歸分析,當(dāng)樣本量是5241個的時候,你會發(fā)現(xiàn)用一個簡單的線性回歸擬合這個數(shù)據(jù),年齡、文化程度、收入這三個變量顯著,當(dāng)我們把樣本量增加到10482個的時候,發(fā)現(xiàn)獨生子女和女性開始顯著,增加到20964個的時候,體制外這個變量也開始顯著,當(dāng)樣本增加到33萬的時候,所有變量都具有顯著性,這意味著世間萬物都是有聯(lián)系的。那么在這個時候,如果說上億個人呢?樣本大到一定程度的時候,很多結(jié)果自然就會變得顯著,會無法進(jìn)行推論,或者得出虛假的統(tǒng)計學(xué)關(guān)系。此外,斷裂數(shù)據(jù)、缺失數(shù)據(jù)(下文將會進(jìn)行分析)的存在將會使這種虛假關(guān)系隨著數(shù)據(jù)量的增長而增長,我們將很難再接觸到真相。

事實上,真實的規(guī)律是這樣的:

大數(shù)據(jù)面臨的風(fēng)險和現(xiàn)存問題(大數(shù)據(jù)行業(yè)必讀)

體制外

大數(shù)據(jù)面臨的風(fēng)險和現(xiàn)存問題(大數(shù)據(jù)行業(yè)必讀)

這是網(wǎng)絡(luò)游戲2006年歷程擴(kuò)散的結(jié)果,實際模型是這樣的,通過這個模型我們可以看到:

  1. 分文化程度、體制內(nèi)外不同年齡的人群在游戲使用上存在顯著差異,可以清晰的看到在2006年網(wǎng)絡(luò)游戲呈現(xiàn)出文化程度主導(dǎo)下的創(chuàng)新擴(kuò)散規(guī)律。

2.在高文化程度人群中,開始向34歲-40歲擴(kuò)散,呈現(xiàn)大幅增長,并形成一個峰值。

3.在低文化程度群體中,比如高中、初中在年輕群體中迅速擴(kuò)散,形成一個峰值。

4.在2006年,網(wǎng)絡(luò)游戲從文化程度的幾個角度開始擴(kuò)散,年齡不再只是高低之分,而是與文化程度變量綜合形成的效果[10]。我們看到網(wǎng)絡(luò)游戲這種波浪式的擴(kuò)散過程,不僅可以找到2006年是誰在使用網(wǎng)絡(luò)游戲,也可以用生命周期、家庭周期來解釋原因,而通過對體制內(nèi)與體制外人群的使用差異分析,又可以展現(xiàn)出工作空間不同所帶來的人的行為差異。當(dāng)我們把2006年的結(jié)果放回網(wǎng)絡(luò)游戲的整個擴(kuò)散歷程中時,所能看到就已經(jīng)不再是網(wǎng)絡(luò)游戲本身,而是新技術(shù)帶來的社會變遷過程。

對一個社會現(xiàn)象進(jìn)行客觀深刻準(zhǔn)確的分析,對事物的理解需要數(shù)據(jù),但更需要分析思維,在大數(shù)據(jù)時代,理論并非不重要,而是變得更加重要。我們所指的理論也并非僵化一成不變的固守舊有理論,而是在處理問題的過程中意識到海量數(shù)據(jù)所帶來的復(fù)雜性,堅持分析方法和理論的不斷創(chuàng)新。

(二)抽樣分析+全數(shù)據(jù)驗證的分析思路
維克托·邁爾·舍恩伯格在介紹大數(shù)據(jù)時代的數(shù)據(jù)分析思維轉(zhuǎn)變時提到過三個觀點,其中之一是:分析所有的數(shù)據(jù),而不再僅僅依靠一小部分?jǐn)?shù)據(jù)。全數(shù)據(jù)一時甚囂塵上,企業(yè)、研究者以為大數(shù)據(jù)就是全數(shù)據(jù),以至于再談抽樣都似乎帶有保守主義色彩,這種看法無疑是對大數(shù)據(jù)和抽樣二者都存在偏見和不足,而一個風(fēng)行的詞匯恰恰對于從事這項活動的人來說意味著什么才是及其重要的,如果認(rèn)為大數(shù)據(jù)就是收集所有樣本的信息,讓數(shù)據(jù)自己說話,那么在方法論上就是狹隘的,而這種狹隘卻因為其閃爍著開放、客觀、全面的光芒而被忽視。

這種觀點面臨的第一個風(fēng)險就是“全數(shù)據(jù)”在哪里?數(shù)據(jù)量達(dá)到何種程度時,可以認(rèn)為是“全”數(shù)據(jù)?

這里也涉及了全數(shù)據(jù)的第二個問題全(暫且假定我們通過人們在谷歌上輸入搜索條目就找到了真正意義上的全:谷歌利用搜索記錄而預(yù)測到流感爆發(fā)的案例被廣為引用以說明數(shù)據(jù)自會說話,當(dāng)人們開始在網(wǎng)上搜索關(guān)于感冒的詞匯表明他感染了流感,建立流感與空間、病毒的關(guān)系,能夠成功的預(yù)測一場流感)[11]數(shù)據(jù)確實能看到變化,通過變化作出“預(yù)測”,但無法解釋變化的影響因素,維克托·邁爾·舍恩伯格對此的回答是:我們要相關(guān)性,不要因果關(guān)系。這并非是這位作者有選擇的選擇,而是放棄抽樣而直接采用大數(shù)據(jù)的必然。

維克托·邁爾·舍恩伯格認(rèn)為可以允許不精確而使用大數(shù)據(jù)的簡單算法解決問題,而1936年《文學(xué)文摘》和蓋洛普在總統(tǒng)選舉預(yù)測中的不同表現(xiàn),至今仍然向我們表明科學(xué)、嚴(yán)謹(jǐn)抽樣的重要性。《文學(xué)文摘》依靠紙媒時代巨大的發(fā)行量獲得240萬民眾的數(shù)據(jù),而蓋洛普僅在嚴(yán)格抽樣基礎(chǔ)上研究了5000人,是“小數(shù)據(jù)”的復(fù)雜算法超過“大數(shù)據(jù)”的簡單算法的真實案例。

沒有抽樣的擬合,直接面對大數(shù)據(jù),將使我們失去對人的了解,對真實規(guī)律的追尋,畢竟不是所有的社會事實都一場流感一樣易于預(yù)測,況且即便是谷歌被廣為贊譽的流感預(yù)測案例也被認(rèn)為存在問題:在與傳統(tǒng)的流感監(jiān)測數(shù)據(jù)比較之后,根據(jù)互聯(lián)網(wǎng)流感搜索實時更新的Google流感趨勢被發(fā)現(xiàn)明顯高估了流感峰值水平??茖W(xué)家指出基于搜索有太多的噪音影響了它的精確度這表明基于社交網(wǎng)絡(luò)數(shù)據(jù)挖掘的流感跟蹤將不是替代而只能補充傳統(tǒng)的流行病監(jiān)測網(wǎng)絡(luò)。他們正在開發(fā)噪音較少的替代跟蹤方法,例如基于Twitter的流感跟蹤只包含真正病人的帖子,而不是轉(zhuǎn)載的流感新聞報道。

三、封閉數(shù)據(jù)與斷裂數(shù)據(jù)
封閉數(shù)據(jù)和斷裂數(shù)據(jù)所帶來的問題在第二部分已經(jīng)提到,它們會產(chǎn)生虛假的統(tǒng)計學(xué)關(guān)系,影響分析結(jié)果的準(zhǔn)確性和可檢驗性,下面具體對這兩方面的問題做一個分析。

(一)封閉數(shù)據(jù)使數(shù)據(jù)缺乏多樣化
“數(shù)據(jù)增值的關(guān)鍵在于整合,但自由整合的前提是數(shù)據(jù)的開放。開放數(shù)據(jù)是指將原始的數(shù)據(jù)及其相關(guān)元數(shù)據(jù)以可以下載的電子格式放在互聯(lián)網(wǎng)上,讓其他方自由使用。開放數(shù)據(jù)和公開數(shù)據(jù)是兩個不同的概念,公開是信息層面的,開放是數(shù)據(jù)庫層面的。開放數(shù)據(jù)的意義,不僅僅是滿足公民的知情權(quán),更在于讓大數(shù)據(jù)時代最重要的生產(chǎn)資料數(shù)據(jù)自由地流動起來,以催生創(chuàng)新,推動知識經(jīng)濟(jì)和網(wǎng)絡(luò)經(jīng)濟(jì)的發(fā)展。”[13]

開放是大數(shù)據(jù)的題中之義,也是我國政府、企業(yè)在大數(shù)據(jù)時代必須適應(yīng)的轉(zhuǎn)變,而我們目前面臨的情況仍然是一個平臺一個數(shù)據(jù),數(shù)據(jù)壁壘造成的局面是:有所有數(shù)據(jù),同時又什么數(shù)都缺。

比如在醫(yī)療領(lǐng)域,大數(shù)據(jù)被認(rèn)為為醫(yī)療領(lǐng)域帶來希望 ---計算機(jī)可以在模仿人類專家在直覺方面更進(jìn)一步,而不必依賴EBM這樣的小數(shù)據(jù)集了。醫(yī)療信息體系仍在使用陳舊的數(shù)據(jù)屏障,在這個體系中,只有通過審核的、標(biāo)準(zhǔn)的、被編輯過的數(shù)據(jù)才能被接收,由于缺乏一致性,許多可用的數(shù)據(jù)被拒之門外。這個屏障創(chuàng)造了同質(zhì)化的數(shù)據(jù),而排除了能使系統(tǒng)真正有用的多樣性。[14]

再以新浪、搜狐、網(wǎng)易、騰訊四大微博的數(shù)據(jù)平臺為例,四家公司的數(shù)據(jù)各自為陣,相互獨立,關(guān)于微博用戶行為分析都是基于對自己現(xiàn)有用戶的分析,這種封閉的數(shù)據(jù)環(huán)境下,很多層面的具體分析都將受到很大的局限,比如重疊用戶的分析,什么特征的人群會只在一個平臺上開設(shè)賬號,什么特征的人會在不同平臺上都開設(shè)賬號,在不同平臺上使用風(fēng)格是否相同,在不同賬號下活躍度是否相同,影響因素是什么?這是在封閉的數(shù)據(jù)環(huán)境下無法進(jìn)行分析的。

數(shù)據(jù)是企業(yè)最重要的資產(chǎn),而且隨著數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,將會變得更有價值。但封閉的數(shù)據(jù)環(huán)境會阻礙數(shù)據(jù)價值的實現(xiàn),對企業(yè)應(yīng)用和研究發(fā)現(xiàn)來講都是如此,因此我們需要合理的機(jī)制在保護(hù)數(shù)據(jù)安全的情況下開放數(shù)據(jù),使數(shù)據(jù)得到充分利用。有效的解決辦法之一是公正的第三方數(shù)據(jù)分析公司、研究機(jī)構(gòu)作為中間商收集數(shù)據(jù)、分析數(shù)據(jù),在數(shù)據(jù)層面打破現(xiàn)實世界的界限,進(jìn)行多家公司的數(shù)據(jù)共享而不是一家公司盲人摸象,這才能實現(xiàn)真正意義上的大數(shù)據(jù),賦予數(shù)據(jù)更廣闊全面的分析空間,才會對產(chǎn)業(yè)結(jié)構(gòu)和數(shù)據(jù)分析本身產(chǎn)生思維轉(zhuǎn)變和有意義的變革。

(二)斷裂數(shù)據(jù)使數(shù)據(jù)缺乏結(jié)構(gòu)化
封閉數(shù)據(jù)使我們無法看到多樣化的數(shù)據(jù),斷裂數(shù)據(jù)則使數(shù)據(jù)缺乏結(jié)構(gòu)化。來自IDC的報告顯示,2012年全球數(shù)字信息中90%的數(shù)據(jù)都是視頻、聲音和圖像文件這樣的非結(jié)構(gòu)化數(shù)據(jù)[15],缺乏結(jié)構(gòu)化本身是可以通過新技術(shù)解決的問題,正因為如此才使這個問題變得棘手。對新技術(shù)的過分追逐,一方面會使得數(shù)據(jù)本身的真實性、完整性遭到破壞,另一方面會使對數(shù)據(jù)背后的人和生活意義的分析得不到充分重視。

1.行為背后看不見人,缺失生活意義。

以淘寶為例,當(dāng)淘寶想研究“究竟是什么人”在淘寶上開店的時候,他們發(fā)現(xiàn)并不像想象中的那么容易。

在淘寶公司的實時地圖上,可以利用GPS系統(tǒng)清晰的知道每一秒全國各地正在發(fā)生的交易,但是對于這些人的族群特征,實時地圖并不能告訴他們更多。[16]同樣的問題出現(xiàn)在騰訊游戲部門的用戶研究中,他們并不能從實時的監(jiān)測中知道是誰在玩他們的游戲,他們有什么愛好、是什么性格、為什么喜歡一款游戲?他們知道的只是一個ID賬號,這就是斷裂數(shù)據(jù)帶來的問題:表面上全面,實際上都是片段式的數(shù)據(jù)。全數(shù)據(jù)確實可以在一定程度上掌握人的行為,但是無法知道是什么樣的人的行為。明白這一點,就可以理解為什么谷歌會推出Google+,以獲取具體的用戶信息,包括姓名、愛好、朋友、身份等具體數(shù)據(jù)。任何一個平臺都有其數(shù)據(jù)收集方面的優(yōu)勢,也有其短板,表面上擁有海量數(shù)據(jù),但其實都只是一個片段,缺乏連續(xù)性和可識別性。

巴拉巴西在《爆發(fā)》中介紹了一個網(wǎng)站LifeLinear,用戶通過在搜索框中輸入自己的名字就可以查到自己一天任何時間任何地點的監(jiān)控錄像,無論在哪兒,你的行蹤都會被網(wǎng)站記錄下來。這是作者虛擬的一個網(wǎng)站,但信以為真并輸入網(wǎng)站名字進(jìn)行搜索的人不在少數(shù),因為理論上它是可以實現(xiàn)的,一是借助城市中的無線監(jiān)視系統(tǒng),反饋數(shù)據(jù)到單條檢索數(shù)據(jù)庫中,指示計算機(jī)追蹤所有的人。二是,也是最為關(guān)鍵的是每個人都有固定的生活習(xí)慣、行為規(guī)律,系統(tǒng)可以據(jù)此為每個人建立行為模型,然后預(yù)測你可能出現(xiàn)的地方,并在那兒等你。[17]

這樣一個系統(tǒng)的建立依靠技術(shù)系統(tǒng),但更主要的是對每一個個體的全面了解和分析,假設(shè)、模型、檢驗缺一不可。在這本書中巴拉巴西介紹的另一位數(shù)據(jù)公開者,他把自己的位置數(shù)據(jù)、財產(chǎn)信息都傳到網(wǎng)上,但是關(guān)于這個人你一無所知,因為沒有任何關(guān)于他性格、喜好等個性化信息,是“什么都有,但什么都缺”的典型案例。

2.大量的非結(jié)構(gòu)化數(shù)據(jù)顛覆原來分析的基本范式。

在大數(shù)據(jù)時代,需要處理的數(shù)據(jù)不再是傳統(tǒng)意義上的數(shù)據(jù),而是文字、圖片、音頻視頻等種類多樣的數(shù)據(jù),大量的非機(jī)構(gòu)化數(shù)據(jù)對數(shù)據(jù)分析提出了新的挑戰(zhàn),因為只有能被定義的數(shù)據(jù)才是有價值的信息。

使用人人網(wǎng)的用戶大概不會陌生,在個人主頁上會出現(xiàn)好友推薦,這很簡單,只需要分析用戶的好友,找到朋友之間的關(guān)聯(lián),就可以找到這一點。但是當(dāng)人人網(wǎng)需要決定在廣告位上投放何種廣告時,則需要對大量的由用戶產(chǎn)生的文字、照片、分享內(nèi)容與好友的互動進(jìn)行分析。海量的非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)如何加以結(jié)構(gòu)化并從中找出規(guī)律,這需要新的算法、新的分析思維。

四、缺失數(shù)據(jù)
奧斯卡·王爾德在1894年說,“如今幾乎沒有無用的信息,這真悲哀?!眹?yán)格的說,他一半都沒有說對。只有有價值的數(shù)據(jù)才稱得上信息,從數(shù)據(jù)中獲得盡量多的信息并非易事,隨著數(shù)據(jù)量的擴(kuò)大,缺失數(shù)據(jù)產(chǎn)生的比例也會相應(yīng)擴(kuò)大,尤其當(dāng)一個樣本中出現(xiàn)多項缺失時,會加大處理的難度,除了構(gòu)造模型失之準(zhǔn)確之外,還有時間復(fù)雜度方面的問題。

對所有大數(shù)據(jù)來講,分析哪個問題數(shù)據(jù)量都不夠大,對于所有人來講,數(shù)據(jù)都是缺失多于正常數(shù)。在數(shù)據(jù)收集和整合過程中采用新技術(shù)手段避免這一問題將使這一問題在分析上帶來的分險變得更突出,比如BI公司為了避免數(shù)據(jù)的不完整性采用快速修復(fù)技術(shù)整合分散數(shù)據(jù),這將使我們失去最原始的真實數(shù)據(jù),這使得研究者很容易舍棄與假設(shè)不符合的數(shù)據(jù),也使驗證結(jié)論變得不再可能。

比如雀巢在200個國家出售超過十萬種產(chǎn)品有55萬家供應(yīng)商,但由于數(shù)據(jù)庫一團(tuán)糟它并未形成強(qiáng)大的采購議價優(yōu)勢。在一次檢查中它發(fā)現(xiàn),在900萬條供應(yīng)商、客戶和原材料記錄中有差不多一半是過期或重復(fù)的,剩下的有三分之一不準(zhǔn)確或有缺失。供應(yīng)商名稱有的簡寫有的不簡寫,產(chǎn)生了重復(fù)記錄。[18]這一個案例中就包含了封閉、斷裂、缺失數(shù)據(jù)的問題。

固然缺失數(shù)據(jù)可以嘗試通過模糊數(shù)據(jù)集理論得到解決,但許多研究情境對數(shù)據(jù)的要求是有確定性的。大數(shù)據(jù)時代需要的不只是全數(shù)據(jù)、海量數(shù)據(jù)、實時數(shù)據(jù),而是真正的開放、更可能接近精確、著眼于人和社會的分析方法和思路。封閉的數(shù)據(jù)平臺,對斷裂數(shù)據(jù)、缺失數(shù)據(jù)在分析上構(gòu)成的風(fēng)險的忽視會使我們?nèi)匀煌A粼谛?shù)據(jù)時代,更糟糕的是,數(shù)據(jù)還在小數(shù)據(jù)時代,方法上卻已經(jīng)在單純鼓吹各種應(yīng)對大數(shù)據(jù)的新技術(shù),這種不匹配造成的混亂比大數(shù)據(jù)本身帶來的混亂還要危險。

在一定意義上,我們可以運用已收集的數(shù)據(jù),先來了解如何把事情做得更好。從這個角度上,我們再來考慮創(chuàng)新和大數(shù)據(jù)應(yīng)用。畢竟,大數(shù)據(jù)產(chǎn)生影響的不只是通過協(xié)同過濾技術(shù)來預(yù)測你需要什么產(chǎn)品,也不只是什么時候買機(jī)票會更劃算一些,這只是使人類和商業(yè)變得更聰明有趣的一個方面而已,紐約大學(xué)商務(wù)教授Sinan Aral說:“科學(xué)革命之前通常是測量工具的革命”,[19]大數(shù)據(jù)如此洶涌的發(fā)展之勢和席卷一切的雄心勢必將會影響到科學(xué)理論研究領(lǐng)域,這也是為什么我們需要保持一點冷靜和審慎判斷的原因。此外,大數(shù)據(jù)在推動信息共享,促進(jìn)社會進(jìn)步方面顯示出來的潛力也值得我們?yōu)楦昝赖慕鉀Q方案努力。

誠如格爾茲所說:“熱力學(xué)第二原理、自然選擇原理、無意識動機(jī)概念,或生產(chǎn)方式的組織并沒有說明所有的東西,甚至連人的事情都沒有一一說明,但他們畢竟解釋了某些事物;認(rèn)識到這一點,我們的注意力也就轉(zhuǎn)向確定這些事物到底是什么,轉(zhuǎn)向使我們擺脫這些觀念在其最盛極一時之際導(dǎo)致的大量偽科學(xué)的纏繞。”在文章的最后,借用格爾茲在《文化的解釋》提出的觀點,表達(dá)對大數(shù)據(jù)研究的看法,因為時至今日,大數(shù)據(jù)這個概念的模糊之處仍多于其所昭示的,可待完善與研究之處仍然很多,我們的工作才剛開始。

最后希望大家多多關(guān)注,更多精彩的文章帶給大家,有興趣學(xué)習(xí)大數(shù)據(jù)的可以加群:615997810,群里有大數(shù)據(jù)基礎(chǔ)與項目實戰(zhàn)的學(xué)習(xí)資料,還有java,java面試資料,Python基礎(chǔ)學(xué)習(xí)資料,找群主免費獲取哦

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI