溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

如何應(yīng)對(duì)大數(shù)據(jù)時(shí)代

發(fā)布時(shí)間:2020-07-08 15:07:29 來(lái)源:網(wǎng)絡(luò) 閱讀:758 作者:白鴿不放鴿 欄目:大數(shù)據(jù)

近些年來(lái),大數(shù)據(jù)逐步***到現(xiàn)實(shí)生活,從醫(yī)療到信貸,可謂是各個(gè)行業(yè)。
單從“大數(shù)據(jù)”這個(gè)詞語(yǔ)來(lái)看,說(shuō)明數(shù)據(jù)量很大。如果這些數(shù)據(jù)結(jié)果,不做處理,以單純數(shù)字呈現(xiàn),相信你看的超不過(guò)10秒中,你會(huì)頭皮發(fā)麻。你都頭皮發(fā)麻了,那我們的客戶豈不更發(fā)麻,如果這個(gè)問題解決不了,將非常影響大數(shù)據(jù)的發(fā)展。由此一個(gè)職業(yè)必將會(huì)興起,就是數(shù)據(jù)可視化工程師,而它的職責(zé)就是將大數(shù)據(jù)的結(jié)果做的一目了然,降低客戶的閱讀時(shí)間和閱讀門檻。
此教程將會(huì)盡快的完善起來(lái),形成培養(yǎng)數(shù)據(jù)可視化工程師的經(jīng)典網(wǎng)絡(luò)教程。
現(xiàn)在我們進(jìn)入課程,如何應(yīng)對(duì)大數(shù)據(jù)時(shí)代!我總結(jié)了三條有效的秘籍。
三條秘籍:
● 拋棄不精準(zhǔn)的樣本數(shù)據(jù),統(tǒng)計(jì)分析全部數(shù)據(jù)
截止到現(xiàn)在,我們獲取收集的數(shù)據(jù)仍很有限,因此更多的是“隨機(jī)采樣分析”。
隨機(jī)采樣分析的定義:對(duì)一個(gè)生物的總體,機(jī)會(huì)均等地抽取樣本,估計(jì)其總體的某種生物學(xué)特性的方法。
按照隨機(jī)的原則,即保證總體中每個(gè)單位都有同等機(jī)會(huì)被抽中的原則抽取樣本的方法。
優(yōu)點(diǎn):在根據(jù)樣本資料推論總體時(shí),可用概率的方式客觀地測(cè)量出推論值的可靠程度,從而使這種推論建立在科學(xué)的基礎(chǔ)上。正因?yàn)榇?,隨機(jī)采樣分析在社會(huì)調(diào)查和社會(huì)研究中應(yīng)用比較廣。
缺點(diǎn):只適用于總體單位數(shù)量有限的情況,否則編號(hào)工作繁重;對(duì)于復(fù)雜的總體,樣本的代表性難以保證;不能利用總體的已知信息等。在市場(chǎng)調(diào)研范圍有限,或調(diào)查對(duì)象情況不明,難以分類。并且必須對(duì)總體各單位的情況有較多的了解,否則無(wú)法作出科學(xué)的分類。而這一點(diǎn)在實(shí)際調(diào)查之前又往往難以做到,從而導(dǎo)致樣本的代表性較差。
例如,要想知道中國(guó)公民對(duì)某項(xiàng)政策的滿意度,不可能對(duì)所有中國(guó)公民做問卷調(diào)查。通常的做法是隨機(jī)找10000個(gè)人,用這10000個(gè)人的滿意度來(lái)代表所有人的。
為了使結(jié)果盡可能準(zhǔn)確,我們會(huì)設(shè)計(jì)盡可能精確的問卷,并使樣本足夠隨機(jī)。
這就是“小數(shù)據(jù)時(shí)代”的做法,在不可能搜集全部數(shù)據(jù)的情況下,隨機(jī)采樣分析在各領(lǐng)域取得了巨大的成功。
但是,問題也就來(lái)了:
1.依賴隨機(jī)性,而隨機(jī)性很難做到。例如,使用固定電話隨機(jī)打給10000戶人家,這樣也是缺乏隨機(jī)性的,因?yàn)闆]有考慮到年輕人都使用手機(jī)的情況。
2.遠(yuǎn)看不錯(cuò),一旦聚焦到某一點(diǎn),就模糊了。例如,我們用10000個(gè)人來(lái)代表全國(guó),這1000個(gè)人是隨機(jī)從全國(guó)選取的。但是,如果用此結(jié)果來(lái)判斷西藏的滿意度,卻是缺乏精確的。也就是說(shuō),分析結(jié)果不能適用于局部。
3.采樣的結(jié)果只能回答你事先設(shè)計(jì)好的問題,不能回答你突然意識(shí)到的問題。
而在”大數(shù)據(jù)時(shí)代“,樣本=總體。如今,我們已經(jīng)有能力搜集到全面而完整的數(shù)據(jù)。
通常我們所說(shuō)的大數(shù)據(jù)就是建立在掌握所有數(shù)據(jù)、至少也是盡可能多的數(shù)據(jù)的基礎(chǔ)上的。
● 著眼數(shù)據(jù)的完整性和復(fù)雜性,弱化單條數(shù)據(jù)的精確性
在“小數(shù)據(jù)”時(shí)代,我們首先要解決的就是減少測(cè)量的錯(cuò)誤,因?yàn)楸旧硎占男畔⒈容^少,所以要保證結(jié)果盡可能的準(zhǔn)確就必須先保證記錄的信息是正確的,否則細(xì)微的錯(cuò)誤會(huì)被無(wú)限放大。由此我們必須先要優(yōu)化測(cè)量工具。而現(xiàn)代科學(xué)就是這么發(fā)展過(guò)來(lái)的,制定溫度的國(guó)際單位的物理學(xué)家開爾文曾說(shuō)過(guò):“測(cè)量就是認(rèn)知”。要成為一名優(yōu)秀的科學(xué)工作者必須要能準(zhǔn)確收集和管理數(shù)據(jù)。
在“大數(shù)據(jù)”時(shí)代,我們可以輕而易舉地獲得全部數(shù)據(jù),并且數(shù)目龐大到上萬(wàn)億個(gè)數(shù)據(jù),也正因?yàn)榇?,如果追求每一個(gè)數(shù)據(jù)的精確性,將不可想象的。弱化了數(shù)據(jù)的精確性,那么數(shù)據(jù)的混雜性也就不可避免。
然而,如果數(shù)據(jù)量足夠大時(shí),它所帶來(lái)的混亂也不一定會(huì)帶來(lái)不好的結(jié)果。也正是這個(gè)原因,我們放松了數(shù)據(jù)的標(biāo)準(zhǔn),所能搜集的數(shù)據(jù)就多了起來(lái),我們就可以用這些數(shù)據(jù)來(lái)做更多的事。
舉一個(gè)例子:
要測(cè)一個(gè)一畝土地的含鹽量,如果只有一個(gè)測(cè)量?jī)x,那必須保證這個(gè)測(cè)量?jī)x精確且能一直工作。但是如果每平米土地就有一個(gè)測(cè)量?jī)x,則雖然有些測(cè)量數(shù)據(jù)是錯(cuò)誤的,但是所有數(shù)據(jù)合起來(lái)卻能得到一個(gè)更準(zhǔn)確的結(jié)果。
因此,“大數(shù)據(jù)”通常用更有說(shuō)服力的概率說(shuō)話,而不是依賴測(cè)量工具的精準(zhǔn)。這就要求我們重新審視獲取收集數(shù)據(jù)的思路。由于數(shù)據(jù)量特別大,我們放棄了個(gè)體精確性,當(dāng)然也無(wú)法實(shí)現(xiàn)個(gè)體精確性。
比如,我們?cè)陔娔X存儲(chǔ)上可以看到,所有的文件可以通過(guò)一個(gè)路徑找到它,例如,要找一首歌曲,必須先找到一個(gè)分區(qū),然后再找到其文件夾,最后逐步找到所需要的歌曲,而這就是傳統(tǒng)的方法。如果電腦上的分區(qū)或者文件夾較少,可以這么查找,但如果有1億個(gè)分區(qū)呢?10億個(gè)文件夾呢?網(wǎng)絡(luò)上的數(shù)據(jù)可遠(yuǎn)比個(gè)人電腦上的文件多,動(dòng)則數(shù)十億,如果使用清晰的分類,那么不僅分類的人會(huì)瘋,查詢的人也會(huì)瘋。因此,現(xiàn)在互聯(lián)網(wǎng)上廣泛使用”標(biāo)簽“,通過(guò)標(biāo)簽來(lái)檢索圖片、視頻、音樂等。當(dāng)然,有時(shí)人們會(huì)錯(cuò)標(biāo)一個(gè)標(biāo)簽,這讓習(xí)慣精確性的人很痛苦,但是,接受”混亂“也給我們帶來(lái)了好處:
由于擁有了比”分類”數(shù)量多得多的標(biāo)簽,我們就能夠獲得更多的內(nèi)容。
可以通過(guò)標(biāo)簽組合來(lái)過(guò)濾內(nèi)容。
又例如,如果我們要搜索“白鴿”。而“白鴿”所關(guān)聯(lián)的信息又有很多:比如一種動(dòng)物,又或者是一個(gè)品牌,還可以是一個(gè)名人。一旦我們按照傳統(tǒng)的分類法,“白鴿”就會(huì)被分到動(dòng)物類,品牌類,名人類。導(dǎo)致一個(gè)結(jié)果就是查詢的人不知道它還有其他的分類,還有可能就是只想查“白鴿”這種動(dòng)物,所以就不會(huì)到品牌類或者名人類里查詢。但是,如果使用”標(biāo)簽“,輸入”白鴿“+”動(dòng)物“,即可查到想要的結(jié)果;輸入”白鴿“+”品牌“即可查到想要的結(jié)果;輸入”白鴿“+”名人“即可查到想要的結(jié)果。
由此可見,使用”標(biāo)簽“代替”分類“,雖然有很多不精確的數(shù)據(jù),但是得力于大量的標(biāo)簽,使得我們搜索更為方便。
● 思考數(shù)據(jù)的關(guān)聯(lián)性,放棄單一的因果性
首要研究數(shù)據(jù)的本身,不必再深究數(shù)據(jù)的形成的原因,讓數(shù)據(jù)自身發(fā)言。
舉個(gè)例子:
沃爾瑪是世界上最大的零售商,掌握了大量的零售數(shù)據(jù)。通過(guò)銷售數(shù)據(jù)分析,沃爾瑪?shù)玫?,每?dāng)季節(jié)性颶風(fēng)來(lái)臨之前,手電筒和蛋撻的銷售量都會(huì)增加。由此,當(dāng)季節(jié)性颶風(fēng)來(lái)臨時(shí),沃爾瑪會(huì)把庫(kù)存的蛋撻放在靠近颶風(fēng)用品的位置,促進(jìn)顧客購(gòu)買。
肯定會(huì)有人問“為什么颶風(fēng)一來(lái),人們都要買蛋撻呢?”
而這個(gè)“為什么”,是因果關(guān)系。而這個(gè)“因”,分析起來(lái)極難、并且很復(fù)雜,即便最后得出來(lái)了,意義也不大。對(duì)沃爾瑪來(lái)說(shuō),當(dāng)颶風(fēng)來(lái)臨時(shí),擺好蛋撻,就行了。這就是數(shù)據(jù)自身發(fā)言。
而我們知道颶風(fēng)與蛋撻有關(guān),并且能賺錢就可以了。
這就是應(yīng)對(duì)大數(shù)據(jù)時(shí)代的方式,即思考數(shù)據(jù)的關(guān)聯(lián)性,放棄單一的因果關(guān)系。
這種方式能夠幫助我們更好地理解世界。有時(shí)候,因果關(guān)系還會(huì)給我們帶來(lái)一些錯(cuò)誤的認(rèn)知。
例如:
我們從父母那里得知,天冷時(shí)要帶帽子和手套,否則就會(huì)感冒。但是,感冒的成因并非如此。又或者我們?cè)诓宛^里吃飯,突然肚子疼,可以想到原因食物有問題。可實(shí)際上很可能是接觸到外界病菌的關(guān)系。
關(guān)聯(lián)性在分析問題時(shí)提供了新的視角,讓我們明白數(shù)據(jù)自身的發(fā)言。但是,因果性也不應(yīng)該完全放棄,而是要以科學(xué)的關(guān)聯(lián)性的立場(chǎng)來(lái)審視。

引來(lái)一個(gè)新的問題:大數(shù)據(jù)時(shí)代如何做到數(shù)據(jù)一目了然?答案在這里

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI