溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時(shí)！

請點(diǎn)擊重新獲取二維碼

如何理解hive查詢優(yōu)化中的動(dòng)態(tài)分區(qū)

發(fā)布時(shí)間：2021-11-23 16:16:08 來源：億速云閱讀：205 作者：柒染欄目：大數(shù)據(jù)

今天就跟大家聊聊有關(guān)如何理解hive查詢優(yōu)化中的動(dòng)態(tài)分區(qū)，可能很多人都不太了解，為了讓大家更加了解，小編給大家總結(jié)了以下內(nèi)容，希望大家根據(jù)這篇文章可以有所收獲。

最近生產(chǎn)環(huán)境有將近 8 億條，數(shù)據(jù)大小約 1T 左右的某類型客戶業(yè)務(wù)數(shù)據(jù)需要查詢分析。但是發(fā)現(xiàn)執(zhí)行一次 hive sql 篩選數(shù)據(jù)需要耗時(shí)近幾千秒，這樣的性能指標(biāo)實(shí)在太不理想太慢。所以需要對 hive 查詢性能進(jìn)行優(yōu)化，在查詢相關(guān)資料發(fā)現(xiàn) hive 查詢優(yōu)化有如下幾種方式：

使用分區(qū)表( use partition table );
連接優(yōu)化( join table );
排序優(yōu)化( order by );
合并小文件，文件數(shù)目過多，會(huì)給 HDFS 帶來壓力，并且會(huì)影響處理效率。

針對以上幾種性能優(yōu)化方法，分析目前業(yè)務(wù)數(shù)據(jù)特點(diǎn)，決定使用分區(qū)表來提高查詢性能，具體如何操作，下面詳細(xì)解答。

由于我們的業(yè)務(wù)數(shù)據(jù)是伴隨著用戶交易時(shí)產(chǎn)生的，比較符合時(shí)序序列數(shù)據(jù)的特點(diǎn)，且每天數(shù)據(jù)量較為平均，日均數(shù)據(jù)量在 300~500w 條左右。結(jié)合以上特點(diǎn)，我們針對該數(shù)據(jù)表采用時(shí)間分區(qū)即按天建數(shù)據(jù)分區(qū)的方案。

單分區(qū)建表操作

a.創(chuàng)建數(shù)據(jù)表

create database if not exist test;use test;create table if not exist application (  id int,  name string,  hobby array<string>,  address map<Strng,string>,  create_time string)partitioned by (datetime string)ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'WITH SERDEPROPERTIES ("separatorChar" = ",","quoteChar" = "'","escapeChar" = "\\") STORED AS TEXTFILE;

上面操作建立一張單分區(qū)表，表源文件是按照 CSV/TSV 格式來存儲 text 文件，分區(qū)字段是 datetime。注意：分區(qū)字段不能和表中源字段重復(fù)。

b.導(dǎo)入數(shù)據(jù)

在數(shù)據(jù)導(dǎo)入有幾種方案，第一種可以創(chuàng)建 hive 外部表，用 location 關(guān)鍵字指定表源地址。

create external table application (...)WITH SERDEPROPERTIES (...)partitioned by (datetime string)ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'STORED AS TEXTFILElocation '/appdata/application';

第二種直接采用 load data 加載 csv源文件

LOAD DATA LOCAL INPATH '/appdata/application/application.csv' \OVERWRITE INTO TABLE test.application(datetime='20190418');

c.查看數(shù)據(jù)及分區(qū)

select * from test.application limit 1;
show partitions test.application;

可以看到數(shù)據(jù)已經(jīng)導(dǎo)入到分區(qū) datetime=20190418 中，show create table test.application 查看數(shù)據(jù)在 hdfs 的目錄。但是這樣的分區(qū)表我不能每天手動(dòng)將數(shù)據(jù)導(dǎo)入到指定的分區(qū)，這樣的操作影響效率，所以我們就需要使用到 hive 的“動(dòng)態(tài)分區(qū)( dynamic partition )”。

我們的方案是先創(chuàng)建源數(shù)據(jù)外部表，然后采用動(dòng)態(tài)分區(qū)方式從源數(shù)據(jù)表導(dǎo)入數(shù)據(jù)到新的分區(qū)表，和上述操作的主要區(qū)別在于：我們在數(shù)據(jù)導(dǎo)入的操作中不指定分區(qū)值，而是根據(jù)數(shù)據(jù)中的 create_time 自動(dòng)導(dǎo)入到相應(yīng)分區(qū)。

---- hive 源數(shù)據(jù)表create external table application_source (...)WITH SERDEPROPERTIES (...)ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'STORED AS TEXTFILElocation '/appdata/application';

---- hive 動(dòng)態(tài)分區(qū)數(shù)據(jù)表create table application (...)WITH SERDEPROPERTIES (...)partitioned by (datetime string)ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'STORED AS TEXTFILE;

注意：在使用 hive 動(dòng)態(tài)分區(qū)時(shí)需要修改 hive 動(dòng)態(tài)分區(qū)相關(guān)參數(shù)

---- hive 參數(shù)配置set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;---- hive 數(shù)據(jù)導(dǎo)入insert overwrite table application partition(datetime)select id,name,hobby,address,create_timefrom application_source;

hive 先獲取 select 的最后一個(gè)位置的 create_time 參數(shù)值，然后將這個(gè)值填寫到 insert 語句 partition 中的 datetime 變量中，即動(dòng)態(tài)分區(qū)是通過位置來對應(yīng)分區(qū)值的。

這時(shí)我們再使用已經(jīng)分好區(qū)的數(shù)據(jù)表執(zhí)行 hive sql 篩選數(shù)據(jù)，但是此時(shí)可以手動(dòng)在 sql 條件中增加時(shí)間的過濾。

select id,name,hobby,address,create_time from application where ... and create_time=20190418;

這樣可以避免 hive 查詢掃描全表，經(jīng)過上述優(yōu)化之后，查詢時(shí)間由原來的上千秒減小到幾百秒，查詢性能提升近 10 倍。

看完上述內(nèi)容，你們對如何理解hive查詢優(yōu)化中的動(dòng)態(tài)分區(qū)有進(jìn)一步的了解嗎？如果還想了解更多知識或者相關(guān)內(nèi)容，請關(guān)注億速云行業(yè)資訊頻道，感謝大家的支持。

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
怎么利用Python做數(shù)據(jù)分析
下一篇新聞：
c語言怎么實(shí)現(xiàn)含遞歸清場版掃雷游戲

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機(jī)網(wǎng)站二維碼