溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

大數(shù)據(jù)的概念是什么

發(fā)布時(shí)間:2022-01-14 17:29:42 來源:億速云 閱讀:147 作者:iii 欄目:大數(shù)據(jù)

本文小編為大家詳細(xì)介紹“大數(shù)據(jù)的概念是什么”,內(nèi)容詳細(xì),步驟清晰,細(xì)節(jié)處理妥當(dāng),希望這篇“大數(shù)據(jù)的概念是什么”文章能幫助大家解決疑惑,下面跟著小編的思路慢慢深入,一起來學(xué)習(xí)新知識(shí)吧。

  隨著大數(shù)據(jù)時(shí)代的到來,“大數(shù)據(jù)”已經(jīng)成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的流行詞匯。關(guān)于什么是大數(shù)據(jù)這個(gè)問題,大家比較認(rèn)可大數(shù)據(jù)的“4V”說法。大數(shù)據(jù)的四個(gè)V,即說的是大數(shù)據(jù)的四個(gè)特征,分別是數(shù)據(jù)量大(Volume)、數(shù)據(jù)類型繁多(Variety)、處理速度快(Velocity)、價(jià)值密度低(Value)。

  1、數(shù)據(jù)量大(Volume)

  如果把印刷在紙上的文字和圖形也看成數(shù)據(jù)的話,那么人類歷史上第一次數(shù)據(jù)爆炸發(fā)生在造紙術(shù)和印刷術(shù)發(fā)明的時(shí)期。而從1986年開始到2010年的二十多年間,全球產(chǎn)生的數(shù)據(jù)增長了100倍。

  隨著時(shí)間,數(shù)據(jù)產(chǎn)生的速度更快,我們正生活在一個(gè)“數(shù)據(jù)爆炸”的時(shí)代。

  今天,世界上30%的設(shè)置是聯(lián)網(wǎng)的,而在不遠(yuǎn)的將來,將有更多的用戶成為網(wǎng)民,汽車,電視,家用電器,生產(chǎn)機(jī)器等各種設(shè)備也將全面接入互聯(lián)網(wǎng)。隨著物聯(lián)網(wǎng)的推廣和普及,各種傳感器和攝像頭將遍布我們工作和生活的各個(gè)角落,這些設(shè)備每時(shí)每刻都在自動(dòng)產(chǎn)生大量數(shù)據(jù)。

  根據(jù)著名咨詢機(jī)構(gòu)IDC(Internet Data Center)做出的估測,人類社會(huì)產(chǎn)生的數(shù)據(jù)一直都在以每年50%的速度增長,也就是說,每兩年就增加一倍,這被稱為“大數(shù)據(jù)摩爾定律”。

  這意味著,人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量之和。預(yù)計(jì)到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量,與2010年相比,數(shù)據(jù)量將增長到近30倍。

  單位 換算關(guān)系

  Byte(字節(jié)) 1Byte=8bit

  KB(Kilobyte 千字節(jié)) 1KB=1024Byte

  MB(MegaByte,兆字節(jié)) 1MB=1024KB

  GB(Gigabyte,吉字節(jié)) 1GB=1024MB

  TB(Trillionbyte,太字節(jié)) 1TB=1024GB

  PB(Petabyte,派字節(jié)) 1PB=1024TB

  EB(Exabyte,艾字節(jié)) 1EB=1024PB

  ZB(Zettabyte,澤字節(jié)) 1ZB=1024EB

  2、數(shù)據(jù)類型繁多(Variety)

  大數(shù)據(jù)的數(shù)據(jù)來源眾多,科學(xué)研究、企業(yè)應(yīng)用和Web應(yīng)用等都在源源不斷地生成新的數(shù)據(jù)。生物大數(shù)據(jù)、交通大數(shù)據(jù)、醫(yī)療大數(shù)據(jù)、電信大數(shù)據(jù)、電力大數(shù)據(jù)、金融大數(shù)據(jù)等,都呈現(xiàn)出“井噴式”增長,所涉及的數(shù)量十分巨大,已經(jīng)從TB級(jí)別躍升到PB級(jí)別。

  大數(shù)據(jù)的數(shù)據(jù)類型豐富,包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),其中,前者占10%左右,主要是指存儲(chǔ)在關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),后者占90%左右,種類繁多,主要包括郵件、音頻、視頻、微信、微博、位置信息、鏈接信息、手機(jī)呼叫信息、網(wǎng)絡(luò)日志等。

  如此類型繁多的異構(gòu)數(shù)據(jù),對(duì)數(shù)據(jù)處理和分析技術(shù)提出了新的挑戰(zhàn),也帶來了新的機(jī)遇。

  3、處理速度快(Velocity)

  大數(shù)據(jù)時(shí)代的數(shù)據(jù)產(chǎn)生速度非常迅速。在Web 2.0應(yīng)用領(lǐng)域,在1分鐘內(nèi),新浪可以產(chǎn)生2萬條微博,Twitter可以產(chǎn)生10萬條推文,蘋果可以下載4.7萬次應(yīng)用,淘寶可以賣出6萬件商品,人人網(wǎng)可以發(fā)生30萬次訪問,百度可以產(chǎn)生90萬次搜索查詢,F(xiàn)acebook可以產(chǎn)生600萬次瀏覽量。大名鼎鼎的大型強(qiáng)子對(duì)撞機(jī)(LHC),大約每秒產(chǎn)生6億次的碰撞,每秒生成約700MB的數(shù)據(jù),有成千上萬臺(tái)計(jì)算機(jī)分析這些碰撞。

  大數(shù)據(jù)時(shí)代的很多應(yīng)用,都需要基于快速生成的數(shù)據(jù)給出實(shí)時(shí)分析結(jié)果,用于指導(dǎo)生產(chǎn)和生活實(shí)踐,因此,數(shù)據(jù)處理和分析的速度通常要達(dá)到秒級(jí)響應(yīng),這一點(diǎn)和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同,后者通常不要求給出實(shí)時(shí)分析結(jié)果。

  為了實(shí)現(xiàn)快速分析海量數(shù)據(jù)的目的,新興的大數(shù)據(jù)分析技術(shù)通常采用集群處理和獨(dú)特的內(nèi)部設(shè)計(jì)。以谷歌公司的Dremel為例,它是一種可擴(kuò)展的、交互式的實(shí)時(shí)查詢系統(tǒng),用于只讀嵌套數(shù)據(jù)的分析,通過結(jié)合多級(jí)樹狀執(zhí)行過程和列式數(shù)據(jù)結(jié)構(gòu),它能做到幾秒內(nèi)完成對(duì)萬億張表的聚合查詢,系統(tǒng)可以擴(kuò)展到成千上萬的CPU上,滿足谷歌上萬用戶操作PB級(jí)數(shù)據(jù)的需求,并且可以在2~3秒內(nèi)完成PB級(jí)別數(shù)據(jù)的查詢。

  4、價(jià)值密度低(value)

  大數(shù)據(jù)雖然看起來很美,但是,價(jià)值密度卻遠(yuǎn)遠(yuǎn)低于傳統(tǒng)關(guān)系數(shù)據(jù)庫中已經(jīng)有的那些數(shù)據(jù)。在大數(shù)據(jù)時(shí)代,很多有價(jià)值的信息都是分散在海量數(shù)據(jù)中的。以小區(qū)監(jiān)控視頻為例,如果沒有意外事件發(fā)生,連續(xù)不斷產(chǎn)生的數(shù)據(jù)都是沒有任何價(jià)值的,當(dāng)發(fā)生偷盜等意外情況時(shí),也只有記錄了事件過程的那一小段視頻是有價(jià)值的。但是,為了能夠獲得發(fā)生偷盜等意外情況時(shí)的那一段寶貴的視頻,我們不得不投入大量資金購買監(jiān)控設(shè)備、網(wǎng)絡(luò)設(shè)備、存儲(chǔ)設(shè)備,耗費(fèi)大量的電能和存儲(chǔ)空間,來保存攝像頭連續(xù)不斷傳來的監(jiān)控?cái)?shù)據(jù)。

  如果這個(gè)實(shí)例還不夠典型的話,那么我們可以想象另一個(gè)更大的場景。假設(shè)一個(gè)電子商務(wù)網(wǎng)站希望通過微博數(shù)據(jù)進(jìn)行有針對(duì)性營銷,為了實(shí)現(xiàn)這個(gè)目的,就必須構(gòu)建一個(gè)能存儲(chǔ)和分析新浪微博數(shù)據(jù)的大數(shù)據(jù)平臺(tái),使之能夠根據(jù)用戶微博內(nèi)容進(jìn)行有針對(duì)性的商品需求趨勢預(yù)測。愿景很美好,但是,現(xiàn)實(shí)代價(jià)很大,可能需要耗費(fèi)幾百萬元構(gòu)建整個(gè)大數(shù)據(jù)團(tuán)隊(duì)和平臺(tái),而最終帶來的企業(yè)銷售利潤增加額可能會(huì)比投入低許多,從這點(diǎn)來說,大數(shù)據(jù)的價(jià)值密度是較低的。

讀到這里,這篇“大數(shù)據(jù)的概念是什么”文章已經(jīng)介紹完畢,想要掌握這篇文章的知識(shí)點(diǎn)還需要大家自己動(dòng)手實(shí)踐使用過才能領(lǐng)會(huì),如果想了解更多相關(guān)內(nèi)容的文章,歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI