溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

大數(shù)據(jù)的誤區(qū)

發(fā)布時(shí)間:2020-06-20 09:43:13 來(lái)源:網(wǎng)絡(luò) 閱讀:614 作者:zhulinu 欄目:大數(shù)據(jù)

  個(gè)人言論,本文僅從另一個(gè)視角看待大數(shù)據(jù),如不能理解請(qǐng)一笑而過(guò),勿做無(wú)謂的拍磚,僅此而已。

1什么是大數(shù)據(jù)

   現(xiàn)在很多人都熱衷于把大數(shù)據(jù)放在嘴邊,但你要問(wèn)一下什么是大數(shù)據(jù),大數(shù)據(jù)和你有什么關(guān)系?估計(jì)很少能說(shuō)出一二三來(lái)。究其原因,一是因?yàn)榇蠹覍?duì)新技術(shù)有著很深的原始渴求,至少在聊天時(shí)不會(huì)顯得很“土鱉”;二是在工作和生活環(huán)境中真正能參與實(shí)踐大數(shù)據(jù)的案例實(shí)在太少了。

    最早提出大數(shù)據(jù)時(shí)代到來(lái)的是麥肯錫:“數(shù)據(jù),已經(jīng)***到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái)?!?/span>

    IBM 最早將大數(shù)據(jù)的特征歸納為4個(gè)“V”(***量Volume,多樣Variety,價(jià)值Value,快速Velocity),第一,數(shù)據(jù)***量巨大。大數(shù)據(jù)的起始計(jì)量單位至少是P(1000個(gè)T)、E(100萬(wàn)個(gè)T)或Z(10億個(gè)T);第二,數(shù)據(jù)類(lèi)型繁多。比如,網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。第三,價(jià)值密度低,商業(yè)價(jià)值高。第四,處理速度快。最后這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。其實(shí)這些V并不能真正說(shuō)***楚大數(shù)據(jù)的所有特征,下面這張圖對(duì)大數(shù)據(jù)的一些相關(guān)特性做出了有效的說(shuō)明。

大數(shù)據(jù)的誤區(qū)

    維克托·邁爾-舍恩伯格在《大數(shù)據(jù)時(shí)代》一書(shū)中舉了百般例證,都是為了說(shuō)明一個(gè)道理:在大數(shù)據(jù)時(shí)代已經(jīng)到來(lái)的時(shí)候要用大數(shù)據(jù)思維去發(fā)掘大數(shù)據(jù)的潛在價(jià)值。書(shū)中,作者提及最多的是Google如何利用人們的搜索記錄挖掘數(shù)據(jù)二次利用價(jià)值,比如預(yù)測(cè)某地流感爆發(fā)的趨勢(shì);Amazon如何利用用戶(hù)的購(gòu)買(mǎi)和瀏覽歷史數(shù)據(jù)進(jìn)行有針對(duì)性的書(shū)籍購(gòu)買(mǎi)推薦,以此有效提升銷(xiāo)售量;Farecast如何利用過(guò)去十年所有的航線(xiàn)機(jī)票價(jià)格打折數(shù)據(jù),來(lái)預(yù)測(cè)用戶(hù)購(gòu)買(mǎi)機(jī)票的時(shí)機(jī)是否合適。

    書(shū)中提到大數(shù)據(jù)的核心是預(yù)測(cè)。有三個(gè)思路的轉(zhuǎn)變:1-不是隨機(jī)樣本,而是全量數(shù)據(jù);2-不是精確性,而是混雜型;3-不是因果關(guān)系,而是相關(guān)關(guān)系。

2現(xiàn)狀分析

   根據(jù)×××2014年12月16日發(fā)布的《第三次全國(guó)經(jīng)濟(jì)普查主要數(shù)據(jù)公報(bào)》中顯示全國(guó)共有從事第二產(chǎn)業(yè)和第三產(chǎn)業(yè)活動(dòng)的法人單位1085.7萬(wàn)個(gè),占全部企業(yè)法人單位95.6%。從業(yè)人員35602.3萬(wàn)人,平均每個(gè)單位32.8人。這個(gè)數(shù)據(jù)說(shuō)明了中國(guó)絕大多數(shù)的企業(yè)都是中小企業(yè),在這種情況下,有多少企業(yè)有海量數(shù)據(jù)呢?

    我們換個(gè)角度在看看一下數(shù)據(jù),我們搜索一下國(guó)內(nèi)幾個(gè)典型客戶(hù)的網(wǎng)站排名情況查詢(xún)網(wǎng)站是alexa。

用友:

大數(shù)據(jù)的誤區(qū)

東軟:

大數(shù)據(jù)的誤區(qū)

綠盟:

大數(shù)據(jù)的誤區(qū)    

從中可以看出用友的pv最大,也就是一天63000個(gè),一年的數(shù)據(jù)量也就是2300萬(wàn),在加上別的數(shù)據(jù),數(shù)據(jù)的量級(jí)也就是G級(jí)別的,還遠(yuǎn)未到T級(jí),更別說(shuō)P級(jí)了。在這個(gè)量級(jí)上,一臺(tái)好點(diǎn)的pc server就可以處理完成大部分的需求,如果考慮到可靠性最多需要兩臺(tái)。通過(guò)上面的分析,我們可以發(fā)現(xiàn)在中國(guó),絕大多數(shù)的公司是沒(méi)有太多數(shù)據(jù)的。

3大數(shù)據(jù)的核心價(jià)值

   《大數(shù)據(jù)時(shí)代》中提到的大數(shù)據(jù)的核心價(jià)值是預(yù)測(cè),但我們提到大數(shù)據(jù)往往提到都是大數(shù)據(jù)技術(shù),比如hadoop,spark,storm,hbase,hlive,spark等等,人們對(duì)此的討論總是樂(lè)此不彼。但現(xiàn)實(shí)的情況往往是數(shù)據(jù)只能驗(yàn)證現(xiàn)在,數(shù)據(jù)無(wú)法預(yù)見(jiàn)未來(lái)!

    舉個(gè)最近的例子:

    大數(shù)據(jù)告訴我們股市暴跌后必然有反彈。于是6.25大跌后,大家都認(rèn)為周5必然有一個(gè)反彈。結(jié)果周5就被莊家們狠狠的教育了一把。6.28的雙降(降息,降準(zhǔn)),所有都說(shuō)周一6.29會(huì)上漲,可周一中國(guó)的莊家讓散戶(hù)們明白,數(shù)據(jù)和經(jīng)驗(yàn)只是你的一廂情愿,他不會(huì)給你一絲的喘息機(jī)會(huì)。

    一切不以解決業(yè)務(wù)為出發(fā)點(diǎn)的技術(shù)都是耍流氓,計(jì)算機(jī)技術(shù)的發(fā)展是非常迅速的,往往一個(gè)技術(shù)可能沒(méi)有多長(zhǎng)時(shí)間就會(huì)被淘汰或者升級(jí)。如果沒(méi)有業(yè)務(wù)場(chǎng)景作為支持,存粹的學(xué)習(xí)大數(shù)據(jù)的技術(shù)是沒(méi)有太大的價(jià)值,筆者崇尚的是學(xué)以致用。因?yàn)榇竽X有個(gè)很明顯的特征是健忘,如果用不到,學(xué)這些技術(shù)過(guò)一段時(shí)間就會(huì)忘記,還不如暫時(shí)不學(xué),等后面需要用到的時(shí)候在學(xué)。原理基礎(chǔ)知識(shí)等除外。

 賽克藍(lán)德(secisland)原創(chuàng),請(qǐng)勿轉(zhuǎn)載。

4數(shù)據(jù)真的值錢(qián)嗎

   很多時(shí)候數(shù)據(jù)并沒(méi)有我們想象的這么值錢(qián),尤其是互聯(lián)網(wǎng)上很容易采集到的數(shù)據(jù),比如:爬蟲(chóng)這個(gè)東西,我一開(kāi)始不是太懂,但是花點(diǎn)時(shí)間,基本上通了,無(wú)論是用python自己寫(xiě)一個(gè),還是直接用現(xiàn)成的各種軟件,都是很快就可以部署并開(kāi)始采集。中國(guó)有大量的程序員,還有的稍微懂點(diǎn)編程的計(jì)算機(jī)愛(ài)好者,另外爬蟲(chóng)軟件的出現(xiàn)可以讓一個(gè)新手隨便花點(diǎn)時(shí)間就可以學(xué)會(huì)采集。所以采集的門(mén)檻在降低;其次數(shù)據(jù)的可復(fù)制性導(dǎo)致其廉價(jià),尤其是非結(jié)構(gòu)性的數(shù)據(jù),從現(xiàn)在互聯(lián)網(wǎng)上大量的轉(zhuǎn)載文章就可以看出知識(shí)的傳播復(fù)制是非常廉價(jià)的。

    數(shù)據(jù)的利用才是有價(jià)值的。比如一個(gè)老***,他每天看幾十個(gè)零散數(shù)據(jù)放到他面前,但是卻沒(méi)有把行為數(shù)據(jù)和商業(yè)數(shù)據(jù)的關(guān)系告訴他有什么用呢?一個(gè)公司CEO,每天看到幾十個(gè)數(shù)據(jù),什么PV、PU、UV等等是沒(méi)有意***的,對(duì)于他們來(lái)說(shuō),只需要知道有問(wèn)題嗎?問(wèn)題是什么?有新的發(fā)現(xiàn)嗎?需要做什么?這就行了。

5大數(shù)據(jù)的泡沫

   伯克利的Jordan教授給出了答案,他是機(jī)器學(xué)習(xí)世界范圍內(nèi)最被尊敬的專(zhuān)家之一(下面的翻譯是知乎上的作者Quinn Sure)

1. 目前的大數(shù)據(jù)給出的結(jié)果可靠性太低,如果急于應(yīng)用到實(shí)際中,就好比是土木工程都沒(méi)學(xué)好就開(kāi)始造橋,結(jié)果只能造出“豆腐渣工程”,一大波“false positive”(假陽(yáng)性)正在接近,因?yàn)閿?shù)據(jù)增長(zhǎng)的速度不夠支撐我們把大數(shù)據(jù)到處亂用的欲望。作為一個(gè)科學(xué),不夠嚴(yán)謹(jǐn)(原文是“沒(méi)有error bar”)。不像造橋的土木工程,經(jīng)過(guò)多年的積累,明確地能告訴我們什么樣的情況可以造,什么不可以。而大數(shù)據(jù)沒(méi)有。

2. 目前在computer vision領(lǐng)域進(jìn)展還很小,只能在非常有限的范圍內(nèi)識(shí)別,比如人臉識(shí)別這樣非常具***的引用(雖然這個(gè)不是直接說(shuō)大數(shù)據(jù),但是可以看出,作者認(rèn)為真正做到萬(wàn)物都sensor還很遠(yuǎn),大數(shù)據(jù)的采集能力終究還是有限的)

3. neural network根本和人腦的neural network不是一回兒事,我們對(duì)大腦的理解根本沒(méi)到可以引用到計(jì)算機(jī)科學(xué)的程度,現(xiàn)在deep learning所采用的back propagation技巧,明顯不是大腦的運(yùn)作方式,network的結(jié)構(gòu)都完全不同,什么對(duì)數(shù)據(jù)的模糊性處理已經(jīng)達(dá)到人腦的境界云云,主要是媒***扯談。

對(duì)他觀點(diǎn)的總結(jié):

有些媒***為了讓公眾容易理解打了些比方,但是這種比方造成了太多誤解,進(jìn)而造成了太多hype(夸張的大肆宣傳)。大數(shù)據(jù)還是一個(gè)沒(méi)有足夠嚴(yán)謹(jǐn)程度的科學(xué),可能有一定的概率做出一些有用的預(yù)測(cè),但是使用不當(dāng),過(guò)分過(guò)早地依賴(lài),則會(huì)造成災(zāi)難性的后果。

很多時(shí)候大家過(guò)早對(duì)一個(gè)技術(shù)爆發(fā)熱情,寄希望她可以改變世界,如果短時(shí)間沒(méi)有成果,有可能熱情一下子轉(zhuǎn)冷又覺(jué)得這是個(gè)錯(cuò)誤,加速抽離給這個(gè)技術(shù)的資源。顯然Michael很擔(dān)心現(xiàn)在公眾對(duì)這個(gè)技術(shù)的熱情,并不是基于對(duì)這個(gè)技術(shù)的理解,從而有可能會(huì)經(jīng)歷這樣的態(tài)度轉(zhuǎn)變。但是他認(rèn)為這個(gè)領(lǐng)域是現(xiàn)實(shí)存在的,很多重要的應(yīng)用,假以時(shí)日,是會(huì)創(chuàng)造價(jià)值的。但是現(xiàn)在很多媒***宣傳,甚至投資行為,都是泡沫。

6從小數(shù)據(jù)開(kāi)始

   那怎么做的呢,從小數(shù)據(jù)開(kāi)始,小數(shù)據(jù)就是個(gè)***化的數(shù)據(jù),是我們每個(gè)個(gè)***或組織的數(shù)字化信息。比如我天天都喝一兩酒,突然有天喝完酒了胃疼,我就想了,這天和之前有何不同?原來(lái),這天喝的酒是個(gè)新牌子,可能就是喝了這個(gè)新牌子的酒讓我胃疼。這就是我生活中的“小數(shù)據(jù)”,它不比大數(shù)據(jù)那樣浩***痹櫻炊暈易約褐涼刂匾O衷諍芏嗥笠得媼俚淖畬笪侍獠皇竊趺從么笫藎切∈荻濟(jì)揮煤玫那榭魷略趺從么笫蕁4笫縈Ω檬譴有∈葜鸞パ荼瀋先サ模且桓穌5納皇撬布潯浠摹

    首先要了解自己的企業(yè),自己所在的行業(yè)的核心是什么。有很多企業(yè)在競(jìng)爭(zhēng)的過(guò)程中,最終不是被現(xiàn)在的競(jìng)爭(zhēng)對(duì)手打敗,而是被很多不是你的競(jìng)爭(zhēng)對(duì)手所打敗。很簡(jiǎn)單的一個(gè)例子,大家都認(rèn)為亞馬遜是做電商的,但這是錯(cuò)的,它現(xiàn)在最主要的收入來(lái)自于云服務(wù)。所以要找到企業(yè)的核心數(shù)據(jù),這個(gè)是最關(guān)鍵的。只有在這個(gè)基礎(chǔ)上,利用分析好這些數(shù)據(jù),然后在做一些延伸。其次,在找與內(nèi)部相關(guān)的一些數(shù)據(jù),去慢慢地成長(zhǎng)它。有點(diǎn)像滾雪球,第一層是核心,第二層是外圍相關(guān)的數(shù)據(jù)。第三層是外部機(jī)構(gòu)的一些結(jié)構(gòu)化數(shù)據(jù)。第四層是社會(huì)化的,以及各種現(xiàn)在所謂的非結(jié)構(gòu)化的數(shù)據(jù)。這幾層要一層一層地找到它,而且要找到與自己相關(guān)的有價(jià)值的東西。這樣你的數(shù)據(jù)才能利用起來(lái)。

    賽克藍(lán)德(secisland)原創(chuàng),請(qǐng)勿轉(zhuǎn)載。


向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI