溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

hive小文件如何合并

發(fā)布時(shí)間:2021-12-09 09:35:37 來源:億速云 閱讀:280 作者:小新 欄目:云計(jì)算

這篇文章主要介紹 hive小文件如何合并,文中介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們一定要看完!

起因:

最近倉(cāng)庫(kù)里面新建了一張分區(qū)表,數(shù)據(jù)量大約是12億行,分區(qū)比較多,從2008年7月開始 一天一個(gè)分區(qū)。

配置了一個(gè)任務(wù)

對(duì)這個(gè)表進(jìn)行g(shù)roup by 的時(shí)候 發(fā)現(xiàn)啟動(dòng)了2800多個(gè)maps .

執(zhí)行的時(shí)間也高大10分鐘。

然后我在hdfs文件里面看到 這個(gè)表的每個(gè)分區(qū)里面都有20多個(gè)小文件,每個(gè)文件都不大 300KB--1MB

之前的hive的參數(shù):
hive.merge.mapfiles=true
hive.merge.mapredfiles=false
hive.merge.rcfile.block.level=true
hive.merge.size.per.task=256000000
hive.merge.smallfiles.avgsize=16000000

hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat

mapred.max.split.size=256000000
mapred.min.split.size=1
mapred.min.split.size.per.node=1
mapred.min.split.size.per.rack=1

hive.merge.mapredfiles 這個(gè)指的是 在Map-Reduce的任務(wù)結(jié)束時(shí)合并小文件

解決辦法:

1.修改參數(shù)hive.merge.mapredfiles=true

2.通過map_reduece的辦法生成一張新的表 此時(shí)生成的文件變成了每個(gè)分區(qū)一個(gè)文件

再次執(zhí)行g(shù)roup by 發(fā)現(xiàn)效率得到了大大的提升。

以上是“ hive小文件如何合并”這篇文章的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對(duì)大家有幫助,更多相關(guān)知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI