簡(jiǎn)單了解一下大數(shù)據(jù)的一些基本概念

發(fā)布時(shí)間：2020-07-03 09:02:12 來(lái)源：網(wǎng)絡(luò) 閱讀：473 作者：a大數(shù)據(jù) 欄目：大數(shù)據(jù)

一、大數(shù)據(jù)

1、什么是大數(shù)據(jù)？

大數(shù)據(jù)（Big data或Megadata）：大數(shù)據(jù)，或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料，指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無(wú)法通過(guò)人工，在合理時(shí)間達(dá)到截取、管理、處理、并整理成為人類所能解讀的形式的信息。

2、大數(shù)據(jù)特點(diǎn)

①Volume：數(shù)據(jù)量大，包括采集、存儲(chǔ)和計(jì)算的量都非常大。大數(shù)據(jù)的起始計(jì)量單位至少是P（1000個(gè)T）、E（100萬(wàn)個(gè)T）或Z（10億個(gè)T）。
簡(jiǎn)單了解一下大數(shù)據(jù)的一些基本概念

②Variety：種類和來(lái)源多樣化。包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)，具體表現(xiàn)為網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等等，多類型的數(shù)據(jù)對(duì)數(shù)據(jù)的處理能力提出了更高的要求。

在這里還是要推薦下我自己建的大數(shù)據(jù)學(xué)習(xí)交流群:529867072，群里都是學(xué)大數(shù)據(jù)開(kāi)發(fā)的，如果你正在學(xué)習(xí)大數(shù)據(jù) ，小編歡迎你加入,大家都是軟件開(kāi)發(fā)黨，不定期分享干貨（只有大數(shù)據(jù)軟件開(kāi)發(fā)相關(guān)的），包括我自己整理的一份最新的大數(shù)據(jù)進(jìn)階資料和高級(jí)開(kāi)發(fā)教程，歡迎進(jìn)階中和進(jìn)想深入大數(shù)據(jù)的小伙伴加入。

③Value：數(shù)據(jù)價(jià)值密度相對(duì)較低，或者說(shuō)是浪里淘沙卻又彌足珍貴。隨著互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)的廣泛應(yīng)用，信息感知無(wú)處不在，信息海量，但價(jià)值密度較低，如何結(jié)合業(yè)務(wù)邏輯并通過(guò)強(qiáng)大的機(jī)器算法來(lái)挖掘數(shù)據(jù)價(jià)值，是大數(shù)據(jù)時(shí)代最需要解決的問(wèn)題。

④Velocity：數(shù)據(jù)增長(zhǎng)速度快，處理速度也快，時(shí)效性要求高。比如搜索引擎要求幾分鐘前的新聞能夠被用戶查詢到，個(gè)性化推薦算法盡可能要求實(shí)時(shí)完成推薦。這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘的顯著特征。

⑤Veracity：數(shù)據(jù)的準(zhǔn)確性和可信賴度，即數(shù)據(jù)的質(zhì)量。

二、數(shù)據(jù)倉(cāng)庫(kù)

1、什么是數(shù)據(jù)倉(cāng)庫(kù)？

在計(jì)算中，數(shù)據(jù)倉(cāng)庫(kù)（DW或DWH）也稱為企業(yè)數(shù)據(jù)倉(cāng)庫(kù)（EDW），是用于報(bào)告和數(shù)據(jù)分析的系統(tǒng)，被視為商業(yè)智能的核心組件。DWs從一個(gè)或多個(gè)不同源的綜合數(shù)據(jù)的中央儲(chǔ)存庫(kù)。他們將當(dāng)前和歷史數(shù)據(jù)存儲(chǔ)在一個(gè)地方，用于為整個(gè)企業(yè)的工作人員創(chuàng)建分析報(bào)告。

2、數(shù)據(jù)倉(cāng)庫(kù)兩種操作方式的特點(diǎn)

①在線分析處理（OLAP）的特點(diǎn)是交易量相對(duì)較低。查詢往往非常復(fù)雜，涉及到聚合。對(duì)于OLAP系統(tǒng)，響應(yīng)時(shí)間是一種有效性度量。數(shù)據(jù)挖掘技術(shù)廣泛使用OLAP應(yīng)用程序。OLAP數(shù)據(jù)庫(kù)以多維模式（通常為星型模式）存儲(chǔ)匯總的歷史數(shù)據(jù)。與數(shù)據(jù)集市相比，OLAP系統(tǒng)通常具有數(shù)小時(shí)的數(shù)據(jù)延遲，而數(shù)據(jù)集市預(yù)計(jì)延遲將接近一天。OLAP方法用于分析來(lái)自多個(gè)來(lái)源和視角的多維數(shù)據(jù)。OLAP中的三個(gè)基本操作是：總結(jié)（合并），鉆取和切片和切塊。

②聯(lián)機(jī)事務(wù)處理（OLTP）的特點(diǎn)是大量短暫的在線事務(wù)（INSERT，UPDATE，DELETE）。OLTP系統(tǒng)強(qiáng)調(diào)非?？焖俚牟樵兲幚聿⒈３侄嘣L問(wèn)環(huán)境中的數(shù)據(jù)完整性。對(duì)于OLTP系統(tǒng)，有效性以每秒交易次數(shù)來(lái)衡量。OLTP數(shù)據(jù)庫(kù)包含詳細(xì)和當(dāng)前的數(shù)據(jù)。用于存儲(chǔ)事務(wù)數(shù)據(jù)庫(kù)的模式是實(shí)體模型（通常是3NF）。規(guī)范化是對(duì)在該系統(tǒng)中數(shù)據(jù)建模技術(shù)的規(guī)范。

三、ETL與DM的區(qū)別

ETL/Extraction-Transformation-Loading——用于完成DB到DW的數(shù)據(jù)轉(zhuǎn)存，它將DB中的某一個(gè)時(shí)間點(diǎn)的狀態(tài)，“抽取”出來(lái)，根據(jù)DW的存儲(chǔ)模型要求，“轉(zhuǎn)換”一下數(shù)據(jù)格式，然后再“加載”到DW的一個(gè)過(guò)程，這里需要強(qiáng)調(diào)的是，DB的模型是ER模型，遵從范式化設(shè)計(jì)原則，而DW的數(shù)據(jù)模型是雪花型結(jié)構(gòu)或者星型結(jié)構(gòu)，用的是面向主題，面向問(wèn)題的設(shè)計(jì)思路，所以DB和DW的模型結(jié)構(gòu)不同，需要進(jìn)行轉(zhuǎn)換。

DM/Data Mining/數(shù)據(jù)挖掘——這個(gè)挖掘，不是簡(jiǎn)單的統(tǒng)計(jì)了，他是根據(jù)概率論的或者其他的統(tǒng)計(jì)學(xué)原理，將DW中的大數(shù)據(jù)量進(jìn)行分析，找出我們不能直觀發(fā)現(xiàn)的規(guī)律。

四、Hadoop

1、什么是Hadoop？

維基百科上面，Hadoop的定義是：一個(gè)用java語(yǔ)言編寫(xiě)的便于大型數(shù)據(jù)集合的分布式儲(chǔ)存和計(jì)算的軟件框架。簡(jiǎn)單來(lái)說(shuō)，這是計(jì)算機(jī)領(lǐng)域的一個(gè)開(kāi)源軟件，任何程序開(kāi)發(fā)者都可以看到它的源代碼，并且進(jìn)行編譯。它的出現(xiàn)讓大數(shù)據(jù)的儲(chǔ)存和處理一下子變的快了很多，也便宜了很多。

2、Hadoop特點(diǎn)是什么？

①高效率（Efficient）：分布式云計(jì)算，采用標(biāo)準(zhǔn)x86架構(gòu)服務(wù)器大規(guī)模集群實(shí)現(xiàn)，每個(gè)模塊都是一個(gè)離散的處理單元，使用并行計(jì)算技術(shù)，及群內(nèi)各計(jì)算節(jié)點(diǎn)負(fù)載均衡，當(dāng)某節(jié)點(diǎn)負(fù)荷過(guò)高時(shí)，可智能的將負(fù)荷轉(zhuǎn)移到其他節(jié)點(diǎn)，并支持節(jié)點(diǎn)線性平滑擴(kuò)展；分布式云存儲(chǔ)，采用x86服務(wù)器的本地硬盤實(shí)現(xiàn)，使用分布式文件系統(tǒng)，每份數(shù)據(jù)至少保存在3個(gè)節(jié)點(diǎn)，保證存儲(chǔ)設(shè)計(jì)的性能和可靠性目標(biāo)。

②可靠性（Reliable）：能搞自身的維護(hù)數(shù)據(jù)的多個(gè)成本，并且在任務(wù)失敗是自動(dòng)的重新部署計(jì)算任務(wù)

③可擴(kuò)容性（Scalable）：能可靠的儲(chǔ)存和處理PB級(jí)的數(shù)據(jù)

④成本低（Economical）：可以通過(guò)普通機(jī)器組成的服務(wù)器群來(lái)分發(fā)以及處理數(shù)據(jù)。這些服務(wù)器群總計(jì)可達(dá)數(shù)千個(gè)節(jié)點(diǎn)。

向AI問(wèn)一下細(xì)節(jié)

簡(jiǎn)單了解一下大數(shù)據(jù)的一些基本概念

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽