您好,登錄后才能下訂單哦!
關(guān)于糾結(jié),曾經(jīng)很糾結(jié)搞大數(shù)據(jù)的人是否要學(xué)習(xí)代碼,更何況自己是售前方向的。理解原理就可以了,后來發(fā)現(xiàn),糾結(jié)的時間越來越多。就明白了,與其糾結(jié)是否要去搞代碼,不如自己實際操作一下代碼,找一個業(yè)務(wù)場景代入之后好好學(xué)習(xí)一下。簡單來說:與其糾結(jié),不如實干!
簡單來說,MapReduce的學(xué)習(xí)開始感覺到吃力??赡苁歉约褐皼]有代碼基礎(chǔ)有關(guān),雖是學(xué)有三年大數(shù)據(jù)的原理基礎(chǔ),但對相關(guān)代碼的實現(xiàn)還是沒有實際操作過。但敲完這一遍代碼,看到最后的WEB結(jié)果展示。心里還是多少有些欣慰。對于一些技術(shù),你知道,了解并能夠運用到實際工作過程中是要有一個階段的。
MAP階段
實際上這一個過程就是要你能夠?qū)⒃次募械?,單詞進行一一的統(tǒng)計,這里邊用到python語句,寫起來也很簡單。就是一個簡單的映射關(guān)系,很容易理解。
實際上,MAP是一個分的思想,相當(dāng)于當(dāng)你有大量數(shù)據(jù)的時候,你需要首先把數(shù)據(jù)分到不同機器上。而在實際操作過程上,相當(dāng)于把你的大文件直接放在HDFS的集群上。每一臺機器上都進行相關(guān)的映射操作。Hadoop上的代碼跟VIM的代碼基本相同,區(qū)別就在于是否前邊要加上hadoop這個起始語句。這里還涉及到相關(guān)的路徑引導(dǎo),這里主要是在JAVA環(huán)境變量里設(shè)置,當(dāng)你設(shè)置好之后,就可以通過+TAB鍵來完全工作。
Reduce階段
這個是一個合并的過程,相當(dāng)于對你之前映射后的文件來一個合并歸約,而我這次的實踐是wordcount操作,相當(dāng)于是對所有重復(fù)的單詞來一個統(tǒng)計。
它這個里邊涉及到的有FIFO,遍歷的算法實現(xiàn)。相當(dāng)于把你各個機器的工作結(jié)果匯總到一臺主PC上。而這一個階段的代碼要比MAP階段多。這一塊有數(shù)組的相關(guān)知識,還有累加函數(shù),這一塊是需要有相關(guān)函數(shù)包的理解的。
在學(xué)習(xí)MAPREDUCE過程中,發(fā)現(xiàn)自己最大的問題就是VIM命令的不熟悉,有些內(nèi)容,只有你操作過你才能更深入的理解其實現(xiàn)原理。已前只是知道其原理,而在這次MAPREDUCE的學(xué)習(xí)實踐過程中,發(fā)現(xiàn)自己的實際操作還是有些不理想,自己也對mapredeuce算是有了一個了解。周未再換一個數(shù)據(jù)集,再來把已經(jīng)會的代碼熟悉一遍。加油!
ulimit -a #查看所能讀文件的能力#
cd /usr/local/src/ #打開hadoop的相應(yīng)文件夾#
ls
ll #ll為查看文件的相關(guān)屬性,ls為查看相關(guān)文件夾下文件#
touch *.* #建立某一個文件#
mkdir python_mr #建立一個文件夾#
cd /home/badou/python_mr/ #打開相關(guān)的mapreduce文件夾#
cd mapreduce_wordcount_python/ #進入相關(guān)詞頻統(tǒng)計函數(shù),通過相應(yīng)的共享文件目標(biāo),將源文件拷貝到此目錄下#
rm output result.data #刪除之前操作過輸出的文檔#
#本地查看源文件#
cat The_Man_of_Property.txt
#查看上傳的文件,若文件太長,用ctrl+c可退出查看#
cat The_Man_of_Property.txt| head -1
#查看文件中第一個頭部信息#
cat The_Man_of_Property.txt| head -2 | tr ' ' '\n'
#將所有的空格都轉(zhuǎn)換成換行符#
cat The_Man_of_Property.txt| head -2 | tr ' ' '\n' | sort -k1 -nr |
#排序(k,k1,k1列標(biāo)示,-n -nr按大小順序OR倒序)#
cat The_Man_of_Property.txt| head -2 | tr ' ' '\n' | sort -k 1 | uniq -c |head
#把相同的行數(shù)進行統(tǒng)計#
cat The_Man_of_Property.txt| head -2 | tr ' ' '\n' | sort -k 1 | uniq -c | awk '{print$2"\t"$1}' |head
#輸出成Key-Value形式#
cat The_Man_of_Property.txt| head -2 | tr ' ' '\n' | sort -k 1 | uniq -c | awk '{print$2"\t"$1}' | sort -k2 -nr | head #將輸出的K-Value形式進行排序并做頭部10行顯示#
#上傳到hadoop系統(tǒng)中進行處理#
vim ~/.bashrc #進入JAVA的環(huán)境變量設(shè)置#
export PATH=$PATHJAVA_HOME/bin:/usr/local/src/hadoop-1.2.1/bin #修改引用,將匹配擴展到hadoop#
sourc ~/.bashrc #保存退出后,用命令使已配的環(huán)境變量生效#
hadoop fs -ls / #查看hadoop下文件#
hadoop fs -rmr /The_Man_of_Property.txt #刪除已上傳好的文檔#
hadoop fs -put The_Man_of_Property.txt / #上傳相應(yīng)文檔,注意:必須是本目錄下文件#
hadoop fs -cat /The_Man_of_Property.txt | head #查看hadoop上的文件,但只能看到明文文件#
hadoop fs -text /The_Man_of_Property.txt | head #查看hadoop上的文件,可以看到密文文件和壓縮文件#
#map.py 代碼#
import sys #定義一個系統(tǒng)模塊#
for line in sys.stdin: #從標(biāo)準(zhǔn)輸入讀取數(shù)據(jù)#
ss = line.strip().split(' ') #對一行字串進行處理,相當(dāng)于用空格分隔每個分詞,ss是很多單詞#
for s in ss: #對每一個單詞進行處理#
if s.strip() != "":
print "%s\t%s" % (s, 1) #如果每個單詞不為完,則記這個單詞為1 #
cat The_Man_of_Property.txt | head | python map.py | head #測試上邊的代碼是否成功#
#reduce.py 代碼#
import sys
current_word = None
count_pool = []
sum = 0 #初始定義參數(shù)值#
for line in sys.stdin: #從標(biāo)準(zhǔn)輸入讀每一行數(shù)值#
word, val = line.strip().split('\t')
if current_word ==None: #當(dāng)前單詞是否為空做為判斷條件#
current_word = word
if current_word != word:
for count in count_pool:
sum += count
print "%s\t%s" % (current_word, sum)
current_word = word
count_pool = []
sum = 0
count_pool.append(int(val)) #Key追加到相當(dāng)數(shù)組中#
for count in count_pool:
sum += count #對Value相行重復(fù)次數(shù)求和#
print "%s\t%s" % (current_word, str(sum)) #輸出相應(yīng)的Key-Value值#
cat The_Man_of_Property.txt | python map.py | sort -k1 | python red.py | sort -k2 -nr |head #驗證map.py跟red.py代碼#
#run.sh shell腳本,用來啟動map.py與red.py#
HADOOP_CMD="/usr/local/src/hadoop-1.2.1/bin/hadoop" #設(shè)置目標(biāo)路徑,便于引用#
STREAM_JAR_PATH="/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar"
#設(shè)置STREAM_JAR_PATH路徑,便于輸入輸出#
INPUT_FILE_PATH_1="/The_Man_of_Property.txt"
OUTPUT_PATH="/output"
# $HADOOP_CMD fs -rmr -skipTrash $OUTPUT_PATH
# Step 1.
$HADOOP_CMD jar $STREAM_JAR_PATH \
-input $INPUT_FILE_PATH_1 \
-output $OUTPUT_PATH \
-mapper "python map.py" \
-reduce "python red.py" \
-file ./map.py \
-filt ./red.py #向HADOOP上上傳相關(guān)文件#
./run.sh #直接運行這個shell腳本,調(diào)用hadoop運行相關(guān)python文件#
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。