以MapReduce編程五步走為基礎，說MapReduce工作原理

發(fā)布時間：2020-05-27 04:42:00 來源：網(wǎng)絡閱讀：1256 作者：鯨落大叔欄目：大數(shù)據(jù)

在之前的Hadoop是什么中已經(jīng)說過MapReduce采用了分而治之的思想，MapReduce主要分為兩部分，一部分是Map——分，一部分是Reduce——合

MapReduce全過程的數(shù)據(jù)都是以鍵值對的形式存在的
如果你想了解大數(shù)據(jù)的學習路線，想學習大數(shù)據(jù)知識以及需要免費的學習資料可以加群：784789432.歡迎你的加入。每天下午三點開直播分享基礎知識，晚上20:00都會開直播給大家分享大數(shù)據(jù)項目實戰(zhàn)。

首先，我們假設我們有一個文件，文件中存了以下內(nèi)容

hive spark hive hbase
hadoop hive spark
sqoop flume scala

這里涉及到一個偏移量（一個字符或空格為1位）
第一行的偏移量為0，內(nèi)容為“hive spark hive hbase”
第二行的偏移量為21，內(nèi)容為“hadoop hive spark”
第三行的偏移量為39，內(nèi)容為“sqoop flume scala”

Map
輸入
MapReduce處理的數(shù)據(jù)是從HDFS中讀出來的
以偏移量為key，內(nèi)容value，則存在：
（0，“hive spark hive hbase”）
（21，“hadoop hive spark”）
（39，“sqoop flume scala”）
輸出
將輸入的value中的詞以空格為分割逐個取出來做key，1做value存起來
（hive，1）
（spark，1）
（hive，1）
（hbase，1）
（hadoop，1）
注意：有多少行，Map就要循環(huán)做幾次
shuffle（之后會詳細說，這里簡單解釋）
輸入
map的輸出
輸出
相同的key的value進行合并
這里合并不是進行累加或別的運算，而是合并到一個集合中
（hive，[1,1,1]）
（spark,[1,1]）
（hbase，[1]）
（hadoop，[1]）
。。。。。。
reduce
輸入
shuffle的輸出
輸出
根據(jù)業(yè)務將value進行合并
例如當前的業(yè)務就會將value進行累加
MapReduce處理數(shù)據(jù)五步走
整個MapReduce程序，所有數(shù)據(jù)以（key，value）形式流動

第一步：input
正常情況下不需要寫代碼
僅僅在MapReduce程序運行的時候指定一個路徑即可

第二步：map（核心）
map（key，value，output，context）
key：每行數(shù)據(jù)的偏移量——基本沒用
value：每行數(shù)據(jù)的內(nèi)容——真正需要處理的內(nèi)容

第三步：shuffle
不需要寫代碼

第四步：reduce（核心）
reduce（key，value，output，context）
key：業(yè)務需求中的key
value：要聚合的值

第五步：output
正常情況下不需要寫代碼
僅僅在MapReduce程序運行的時候指定一個路徑即可

工作原理
這里寫圖片描述

向AI問一下細節(jié)

以MapReduce編程五步走為基礎，說MapReduce工作原理

猜你喜歡

最新資訊

相關推薦

相關標簽

以MapReduce編程五步走為基礎，說MapReduce工作原理