溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)

發(fā)布時間:2020-07-24 13:54:27 來源:網(wǎng)絡(luò) 閱讀:601 作者:博文視點 欄目:大數(shù)據(jù)

小編說:在這個人人都說大數(shù)據(jù)的時代,許多人對大數(shù)據(jù)的印象只是停留在仰望的階段,其實大數(shù)據(jù)沒人們說得那么神奇、玄乎或者是無所不能,今天我們就以傳統(tǒng)數(shù)據(jù)作為比對,看看大數(shù)據(jù)究竟有什么特點讓其處于時代的浪潮之巔。 
本文選自《從1開始——數(shù)據(jù)分析師成長之路》。

  大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)相比的主要特點可以概括為:數(shù)據(jù)量“大”、數(shù)據(jù)類型“復(fù)雜”、數(shù)據(jù)價值“無限”。 
大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)
  數(shù)據(jù)量大十分好理解,以前我們存儲數(shù)據(jù)使用的單位是 KB,一個Excel表格也就幾十到幾百KB,現(xiàn)在我們經(jīng)常說到GB甚至是TB乃至PB的數(shù)據(jù)量級,它們的數(shù)量關(guān)系如下所示。 
                       1MB=1024KB 
                       1GB=1024MB 
                       1TB=1024GB 
                       1PB=1024TB 
  更直觀一點,1KB相當于512個漢字,1MB就相當于六本紅樓夢的字數(shù)……而淘寶網(wǎng)在2015年3月每天大約能產(chǎn)生7TB的數(shù)據(jù)量,相當于4000萬本紅樓夢的數(shù)據(jù)量,而中國最大的圖書館中國國家圖書館的藏書量是3000萬冊。由此看來,我們的大數(shù)據(jù)著實是數(shù)據(jù)量巨大了。而只說能夠產(chǎn)生如此大量數(shù)據(jù)的原因有哪些呢?我們不妨從數(shù)據(jù)獲取的方式、數(shù)據(jù)傳輸?shù)姆绞胶蛿?shù)據(jù)存儲的方式來探討數(shù)據(jù)量大的這個問題。 
  數(shù)據(jù)獲取方式的質(zhì)變是大數(shù)據(jù)能夠產(chǎn)生的核心要素。傳統(tǒng)的數(shù)據(jù)獲取方式多是以人工的方式獲取數(shù)據(jù),最大的特點是手動輸入數(shù)據(jù),曾有一段時間,超市是通過要求收銀員鍵入用戶特征來采集用戶數(shù)據(jù)的,鍵盤的樣子大體上會是如圖3-3所示的造型。 
大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)
  超市通過這樣的方式來收集用戶的數(shù)據(jù),對收集的數(shù)據(jù)進行分析,來對用戶畫像與人群定位。試想在超市每天如此大的接待量情況下,收銀員能否保證數(shù)據(jù)錄入的準確性呢?與此同時,通過人工輸入的方式每天能夠采集多少數(shù)據(jù)呢?類似的這種鍵盤記錄的方式還有許多人工錄入數(shù)據(jù)的方式不再一一舉例,傳統(tǒng)記錄數(shù)據(jù)的方式必定只能是小范圍的,少量的和準確度欠佳的。而現(xiàn)在的數(shù)據(jù)獲取方式大多是通過URL傳輸和API接口,大體上數(shù)據(jù)獲取的方式有這樣幾類:爬蟲抓取、用戶留存、用戶上傳、數(shù)據(jù)交易和數(shù)據(jù)共享。 
大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)
  自有數(shù)據(jù)與外部數(shù)據(jù)是數(shù)據(jù)獲取的兩個主要渠道。在自有數(shù)據(jù)中,我們可以通過一些爬蟲軟件有目的的定向爬取,比如爬取一批用戶的微博關(guān)注數(shù)據(jù),某汽車論壇的各型號汽車的報價等。用戶留存多是用戶使用了公司的產(chǎn)品或是業(yè)務(wù),用戶在使用產(chǎn)品或是業(yè)務(wù)中會留下一系列行為數(shù)據(jù),這個構(gòu)成了我們的數(shù)據(jù)庫主體,通常的數(shù)據(jù)分析多基于用戶留存的數(shù)據(jù)。用戶上傳數(shù)據(jù)諸如持證自拍照、通訊錄、歷史通話詳單等需要用戶主動授權(quán)提供的數(shù)據(jù),這類數(shù)據(jù)往往是業(yè)務(wù)運作中的關(guān)鍵數(shù)據(jù)。相較于自有數(shù)據(jù)獲取,外部數(shù)據(jù)的獲取方式簡單許多,絕大多數(shù)都是基于API接口的傳輸,也有少量的數(shù)據(jù)采用線下交易以表格或文件的形式線下傳輸。此類數(shù)據(jù)要么采用明碼標價一條數(shù)據(jù)多少錢,或是進行數(shù)據(jù)共享,交易雙方承諾數(shù)據(jù)共享,謀求共同發(fā)展。 
  至此,我們看到新時代的數(shù)據(jù)獲取形式相較于傳統(tǒng)數(shù)據(jù)獲取的方式更加多元、更加高效。 
  同樣的大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的傳輸方式也截然不同。傳統(tǒng)數(shù)據(jù)要么以線下傳統(tǒng)文件的方式,要么以郵件或是第三方軟件進行傳輸,而隨著API接口的成熟和普及就好像以前的手機充電接口,從千奇百怪、五花八門到今天的兩大主要類別:iPhone系統(tǒng)與Android系統(tǒng)。API接口也隨著時代的發(fā)展逐漸標準化、統(tǒng)一化,一個程序員只用兩天的時間就能完成一個API接口開發(fā),而API接口傳輸數(shù)據(jù)的效率更是能夠達到毫秒級。 
  在數(shù)據(jù)存儲方面,大數(shù)據(jù)的存儲環(huán)境相較于傳統(tǒng)數(shù)據(jù)的存儲已經(jīng)躍升了好幾個數(shù)量級。猶記得十多年前軟盤還非常高級,存儲量達到20MB的軟盤已然很貴,更別說U盤和移動硬盤了。 
  大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的另一個顯著差異是數(shù)據(jù)類型的豐富。傳統(tǒng)數(shù)據(jù)更注重于對象的描述,而大數(shù)據(jù)更傾向與對數(shù)據(jù)過程的記錄。為了便于大家理解,下面簡單的舉個例子說明傳統(tǒng)數(shù)據(jù)與大數(shù)據(jù)的記錄方式有何區(qū)別。 
  傳統(tǒng)數(shù)據(jù)的記錄方式如下表。 
大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)
  大數(shù)據(jù)的記錄方式如下表。 
大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)
  很明顯地看到,傳統(tǒng)數(shù)據(jù)和大數(shù)據(jù)記錄數(shù)據(jù)的最大區(qū)別是大數(shù)據(jù)不僅對對象進行了描述,還加入了時間、地點等維度,這樣的數(shù)據(jù)記錄的是一個過程,從小明進入餐廳之前開始一直到小明離開餐廳,這整個過程都會被記錄下來。而傳統(tǒng)數(shù)據(jù)的記錄方式更傾向于對結(jié)果的簡單描述。 
  當然,大數(shù)據(jù)能記錄的用戶就餐數(shù)據(jù)遠不局限于上述所列的字段,理想狀況的大數(shù)據(jù)監(jiān)控甚至?xí)涗浻脩舫燥埖姆绞?、吃飯時的行為、吃飯時的面部表情等一系列數(shù)據(jù),這些數(shù)據(jù)反映了用戶對就餐環(huán)境的感受,對餐食口味的反應(yīng),進一步可以用來改進就餐環(huán)境、食物口味,給出點餐建議。 
  大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的核心差異在于其價值的不可估量。傳統(tǒng)數(shù)據(jù)的價值體現(xiàn)在信息傳遞與表征,是對現(xiàn)象的描述與反饋,讓人通過數(shù)據(jù)去了解數(shù)據(jù)。而大數(shù)據(jù)是對現(xiàn)象發(fā)生過程的全記錄,通過數(shù)據(jù)不僅能夠了解對象,還能分析對象,掌握對象運作的規(guī)律,挖掘?qū)ο髢?nèi)部的結(jié)構(gòu)與特點,甚至能了解對象自己都不知道的信息。 
  諸如某百科對一個人的描述與概括,記錄了這個人的身高、體重、出生年月、興趣愛好、日?;顒印⒂H朋好友等數(shù)據(jù),這些算是傳統(tǒng)數(shù)據(jù),通過這些傳統(tǒng)數(shù)據(jù)你能知道和認識這個人。如果用大數(shù)據(jù)的方式來記錄一個人,那就可以詳細到他幾點起床、睡眠質(zhì)量、身體狀況、每個時間點在做什么事等一系列過程數(shù)據(jù),通過這些過程數(shù)據(jù)我們不僅知道和認識這個人,還能知道他的習(xí)慣性格,甚至能挖掘出隱藏在生活習(xí)慣中的情緒與內(nèi)心活動等信息。這些都是傳統(tǒng)數(shù)據(jù)所無法體現(xiàn)的,也是大數(shù)據(jù)承載信息的豐富之處,在豐富的信息背后隱藏著巨大的價值,這些價值甚至能幫助人們達到“所思即所得”的境界。 
  大數(shù)據(jù)價值的特殊之處就在于它的可挖掘性,同樣的一堆數(shù)據(jù),不同的人能得到不同層次的東西。就好像同樣見一個人,有些人只看他的外貌好不好看,有些人能從他的表情中讀出心理活動,從眼神中看出閱歷,從衣著打扮中讀出品味,從鞋子上讀出生活習(xí)慣。而這些深層次的非表象的內(nèi)容需要技巧與實力去挖掘出來,這就是我們說的數(shù)據(jù)分析與數(shù)據(jù)挖掘。 
  本文選自《從1開始——數(shù)據(jù)分析師成長之路》,點此鏈接可在博文視點官網(wǎng)查看此書。 
                     大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)

  想及時獲得更多精彩文章,可在微信中搜索“博文視點”或者掃描下方二維碼并關(guān)注。
                   大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)


向AI問一下細節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI