hadoop一 ---- 我對(duì)hadoop的理解

發(fā)布時(shí)間：2020-07-06 05:30:06 來(lái)源：網(wǎng)絡(luò) 閱讀：978 作者：逆策欄目：大數(shù)據(jù)

大數(shù)據(jù)：海量數(shù)據(jù)

結(jié)構(gòu)化數(shù)據(jù)：即行數(shù)據(jù)，能夠存儲(chǔ)在二維表中的數(shù)據(jù)

非結(jié)構(gòu)化數(shù)據(jù)：無(wú)法使用數(shù)據(jù)的二維邏輯表示數(shù)據(jù)。如word，ppt，圖片

半結(jié)構(gòu)化數(shù)據(jù)：在結(jié)構(gòu)化與非結(jié)構(gòu)化之間，自我描述，將結(jié)構(gòu)與數(shù)據(jù)本身存儲(chǔ)在一起的數(shù)據(jù)：xml、json、html

goole的論文：MapReduce：Simplified Date Processing On Large Clusters

Dynam

Map：把大數(shù)據(jù)映射為分割的多個(gè)節(jié)點(diǎn)處理的小數(shù)據(jù)

Reduce：折疊

i1，i2 ==> o1,i3 ==>o2,i4==>o4

MapReduce:將大數(shù)據(jù)中映射為鍵值對(duì)

數(shù)據(jù)的搜集，監(jiān)控，分析，處理

hadoop： jobtracker、tasktracker，namenode，datanode

hadoop的的特性：

（1）向外擴(kuò)展

（2）數(shù)據(jù)冗余

（3）將程序移向數(shù)據(jù)

（4）順序處理數(shù)據(jù)，避免隨機(jī)訪問(wèn)

（5）向程序員隱藏系統(tǒng)級(jí)別的細(xì)節(jié)

（6）平滑擴(kuò)展

如何將大數(shù)據(jù)切割為多個(gè)可處理的小數(shù)據(jù)，如何將處理的結(jié)果合并

如何選擇將任務(wù)移向多個(gè)不同的小數(shù)據(jù)所在的主機(jī)處理任務(wù)

如何獲取被分割的小數(shù)據(jù)

如何保證個(gè)Map進(jìn)程如何同步

Map如何將處理的結(jié)果傳輸給Reduce

如何在出現(xiàn)軟件故障或硬件故障后保證任務(wù)的完整性

mapreduce：

1.編程框架：API

2.運(yùn)行平臺(tái)

3.具體實(shí)現(xiàn)

hadoop：HDFS-->MapReduce（API，Java）

HDFS：

HDFS分布式集群數(shù)據(jù)存儲(chǔ)

1）HDFS

hadoop一 ---- 我對(duì)hadoop的理解

2）向HDFS分文件系統(tǒng)保存數(shù)據(jù)存儲(chǔ)

hadoop一 ---- 我對(duì)hadoop的理解

MapReduce集群數(shù)據(jù)處理大文件

hadoop一 ---- 我對(duì)hadoop的理解

HBase，運(yùn)行在HDFS之上由zookeeper協(xié)調(diào)工作

Hadoop DataBase

通過(guò)zookeeper使hadoop能夠存儲(chǔ)單個(gè)小文件，實(shí)現(xiàn)隨機(jī)存儲(chǔ)

NoSQL

colum：列式存儲(chǔ)

存儲(chǔ)松散型數(shù)據(jù)，基于鍵值對(duì)的列式存儲(chǔ)

將單個(gè)小文件合并為大文件

bigtable：大表

ETL

數(shù)據(jù)的抽取、轉(zhuǎn)換、加載

日志搜集：

flume

scrible

chukwa

向AI問(wèn)一下細(xì)節(jié)

hadoop一 ---- 我對(duì)hadoop的理解

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽