溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

hive中merge小文件的示例分析

發(fā)布時間:2021-12-10 10:13:32 來源:億速云 閱讀:209 作者:小新 欄目:云計算

這篇文章主要介紹了hive中merge小文件的示例分析,具有一定借鑒價值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。

當Hive輸入由很多個小文件組成,由于每個小文件都會啟動一個map任務,如果文件過小,以至于map任務啟動和初始化的時間大于邏輯處理的時間,會造成資源浪費,甚至OOM。
為此,當我們啟動一個任務,發(fā)現(xiàn)輸入數(shù)據(jù)量小但任務數(shù)量多時,需要注意在Map前端進行輸入合并
當然,在我們向一個表寫數(shù)據(jù)時,也需要注意輸出文件大小

1. Map輸入合并小文件
對應參數(shù):
set mapred.max.split.size=256000000;  #每個Map最大輸入大小
set mapred.min.split.size.per.node=100000000; #一個節(jié)點上split的至少的大小 
set mapred.min.split.size.per.rack=100000000; #一個交換機下split的至少的大小
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;  #執(zhí)行Map前進行小文件合并

在開啟了org.apache.hadoop.hive.ql.io.CombineHiveInputFormat后,一個data node節(jié)點上多個小文件會進行合并,合并文件數(shù)由mapred.max.split.size限制的大小決定。
mapred.min.split.size.per.node決定了多個data node上的文件是否需要合并~
mapred.min.split.size.per.rack決定了多個交換機上的文件是否需要合并~



2.輸出合并
set hive.merge.mapfiles = true #在Map-only的任務結(jié)束時合并小文件
set hive.merge.mapredfiles = true #在Map-Reduce的任務結(jié)束時合并小文件
set hive.merge.size.per.task = 256*1000*1000 #合并文件的大小
set hive.merge.smallfiles.avgsize=16000000 #當輸出文件的平均大小小于該值時,啟動一個獨立的map-reduce任務進行文件merge

感謝你能夠認真閱讀完這篇文章,希望小編分享的“hive中merge小文件的示例分析”這篇文章對大家有幫助,同時也希望大家多多支持億速云,關(guān)注億速云行業(yè)資訊頻道,更多相關(guān)知識等著你來學習!

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI