<tbody id="wmggm"><sup id="wmggm"></sup></tbody>

<rt id="wmggm"><cite id="wmggm"></cite></rt>

<pre id="wmggm"><dd id="wmggm"></dd></pre>

<pre id="wmggm"><menu id="wmggm"></menu></pre>

^{<tbody id="wmggm"></tbody>}

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

Hadoop輸入和輸出的處理類有哪些

發(fā)布時間：2021-12-09 15:45:15 來源：億速云閱讀：163 作者：小新欄目：云計算

這篇文章主要介紹了Hadoop輸入和輸出的處理類有哪些，具有一定借鑒價值，感興趣的朋友可以參考下，希望大家閱讀完這篇文章之后大有收獲，下面讓小編帶著大家一起了解一下。

hadoop輸入的處理類

InputFormat

InputFormat負(fù)責(zé)處理MR的輸入部分。

作用：

1、驗證作業(yè)的輸入是否規(guī)范。

2、把輸入文件切分成InputSplit。

3、提供RecordReader的實現(xiàn)類，把InputSplit讀到Mapper中進行處理。

FileInputFormat

FileInputFormat是所有以文件作為數(shù)據(jù)源的InputFormat實現(xiàn)的基類，F(xiàn)ileInputFormat保存為Job輸入的所有文件，并實現(xiàn)了對輸入文件計算splits的方法。至于獲得記錄的方法是由不同的子類---TextInputFormat進行實現(xiàn)的。

TextInputFormat

默認(rèn)的處理類，處理普通文本文件。

文件中每一行作為一個記錄，他將每一行在文件中的起始偏移量作為key，每一行的內(nèi)容作為value，默認(rèn)以\n或回車鍵作為一行記錄。

注意：TextInputFormat集成了FileInputFormat。

InputSplit

在執(zhí)行MapReduce之前，原始數(shù)據(jù)被分割成若干Split，每個Split作為一個Map任務(wù)的輸入，在Map執(zhí)行過程中Split會被分解成一個個記錄(key-value鍵值對)，Map會依次處理每一個記錄。

Hadoop將MapReduce的輸入數(shù)據(jù)劃分成等長的小數(shù)據(jù)塊，稱為輸入分片(InputSplit)或簡稱分片。

Hadoop為每個分片構(gòu)建一個Map任務(wù)，并由該任務(wù)來運行用戶自定義的Map函數(shù)從而處理分片中的每條記錄。

Hadoop在存儲有輸入數(shù)據(jù)(HDFS中的數(shù)據(jù))的節(jié)點運行Map任務(wù)，可以獲得最佳性能。這就是所謂的數(shù)據(jù)本地化優(yōu)化。

最佳分片的大小應(yīng)該與塊大小相同：

因為它是確?？梢源鎯υ趩蝹€節(jié)點上的最大輸入塊的大小。如果分片跨越2個數(shù)據(jù)塊，那么對于任何一個HDFS節(jié)點，基本上都不可能同時存儲著2個數(shù)據(jù)塊，因此分片中的部分?jǐn)?shù)據(jù)需要通過網(wǎng)絡(luò)傳輸?shù)組ap任務(wù)節(jié)點，。與使用本地數(shù)據(jù)運行整個Map任務(wù)相比，這種方法顯然效率更低。

其他輸入類

CombineFileInputFormat

相對于大量的小文件來說，Hadoop更合適處理少量的大文件。

CombineFileInputFormat可以緩解這個問題，它是針對小文件而設(shè)計的。

KeyValueTextInputFormat

當(dāng)輸入數(shù)據(jù)的每一行是兩列，并用Tab分離的形式的時候，KeyValueTextInputFormat處理這種格式的文件非常適合。

NlineInputFormat

可以控制在每個Split中數(shù)據(jù)的行數(shù)。

SequenceFileInputFormat

當(dāng)輸入文件格式是SequenceFile的時候，要使用SequenceFileInputFormat作為輸入。

自定義輸入格式

1、集成FileInputFormat基類；

2、重寫getSplits(JobContext context)方法；

3、重寫createRecordReader(InputSplit split,TaskAttemptContext context)方法；

Hadoop輸出的處理類

TextOutputFormat

默認(rèn)的輸出格式，key和value中間值用Tab隔開的。

SequenceFileOutputFormat

將key和value以sequence格式輸出。

SequenceFileAsOutputFormat

將key和value以原始二進制的格式輸出。

MapFileOutputFormat

將key和value寫入MapFile中，由于MapFile中的key是有序的，所以寫入的時候必須保證記錄是按Key值順序?qū)懭氲摹?/p>

MultipleOutputFormat

默認(rèn)情況下一個Reduce會產(chǎn)生一個輸出，但是有些時候我們想一個Reduce產(chǎn)生多個輸出，MultipleOutputFormat和MultipleOutputs可以實現(xiàn)這個功能。

感謝你能夠認(rèn)真閱讀完這篇文章，希望小編分享的“Hadoop輸入和輸出的處理類有哪些”這篇文章對大家有幫助，同時也希望大家多多支持億速云，關(guān)注億速云行業(yè)資訊頻道，更多相關(guān)知識等著你來學(xué)習(xí)!

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
Hadoop的聯(lián)邦機制知識點有哪些
下一篇新聞：
如何搞懂equals和hashCode

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機網(wǎng)站二維碼

<center id="cissg"><strike id="cissg"></strike></center>