您好,登錄后才能下訂單哦!
怎樣解析MapReduce中的Map輸入的分片,相信很多沒有經(jīng)驗的人對此束手無策,為此本文總結(jié)了問題出現(xiàn)的原因和解決方法,通過這篇文章希望你能解決這個問題。
回顧:
在一個電話面試之中,對方提到了:Map階段的分片處理。由于在溝通之中有些許緊張,在對方問及:Map分片的算法過程能否簡單的描述?這個問題,由于對方選取了 Map算法的用詞,一時間思路被誘導(dǎo)了,想到的只有shuffle,以及hash分區(qū),和boolean過濾器等。
而事實上,一個 輸入的分片,在MapReduce之中被稱為”split“就是單個Map處理的塊,每一個Map的操作都只是處理一個輸入分片。每個分片被劃分為若干個記錄,并且,每條記錄就是一個鍵值對。Map一個一個的來處理這些數(shù)據(jù)。事實上,如果單純在是否數(shù)據(jù)一條條來被處理意外,這和Storm是沒有多大的區(qū)別的。而這里的Split 也就是通常數(shù)據(jù)處理之中的segment, 一個輸入的分片可以對應(yīng)于同一個表上的若干行?!《粭l數(shù)據(jù)對于與一行。
輸入分片被包裝稱為了一個java 的interface
public interface InputSplit extends Writable { long getLength() throws IOException; String[] getLocation() throws IOException }
通常你也不需要自己來處理這個分片 ,分片是由于 InputFormat來創(chuàng)建的,InputFormat負(fù)責(zé)產(chǎn)生輸入的分片并將他們分割為記錄。
另外一個關(guān)鍵的地方是 RecordReader。 RecorderReader 也就是我們所說的記錄迭代器。Map任務(wù)會用一個記錄的迭代器來生產(chǎn)鍵值隊。
而 InputFormat 才是我們真正的的使用類。
Java 代碼如下:
public interface IntputFormat<k,v> { InputSplit[] getSplit(JobConf,int numSplits) throws IOException; RecordReader<k,v> getRecordReader(InputSplit split,JobConf conf,Reporter reporter) throws IOExcetion }
第一個方法,你可以指定NumSplits,當(dāng)然很多時候指定是無效的。
第二個方法,你一句getRecordReader來拿到RecordReader;
面試的感觸:很多時候,技術(shù)驅(qū)動的公司往往沒有產(chǎn)品的思維。更不用說是市場化的邏輯了。
一個即將被淘汰的組件,卻成了面試的重點。
看完上述內(nèi)容,你們掌握怎樣解析MapReduce中的Map輸入的分片的方法了嗎?如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注億速云行業(yè)資訊頻道,感謝各位的閱讀!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。