hive的執(zhí)行流程

發(fā)布時間：2020-07-26 06:37:19 來源：網(wǎng)絡(luò) 閱讀：1301 作者：原生zzy 欄目：大數(shù)據(jù)

1. 執(zhí)行流程概述

hive的執(zhí)行流程
查看hive語句的執(zhí)行流程：explain select ….from t_table …;

查看hive語句的執(zhí)行流程：explain select ….from t_table …;
操作符是hive的最小執(zhí)行單元
Hive通過execmapper和execreducer執(zhí)行MapReduce程序，執(zhí)行模式有本地模式和分布式模式
每個操作符代表一個 HDFS 操作或者 MapReduce 作業(yè)
hive的操作符：

Hive編譯器的工作職責：
Parser：將Hql語句轉(zhuǎn)換成抽像的語法書（Abstract Syntax Tree）
Semantic Analyzer：將抽象語法樹轉(zhuǎn)換成查詢塊
Logic Plan Generator：將查詢樹，轉(zhuǎn)換成邏輯查詢計劃
Logic Optimizer：重寫邏輯查詢計劃，優(yōu)化邏輯執(zhí)行計劃
Physical Plan Gernerator：將邏輯執(zhí)行計劃轉(zhuǎn)化為物理計劃
Physical Optimizer：選擇最佳的join策略，優(yōu)化物理執(zhí)行計劃

2. Hive 工作原理

hive的執(zhí)行流程
流程大致步驟為：

1.?用戶提交查詢等任務(wù)給Driver。

2.?編譯器獲得該用戶的任務(wù)Plan。

3.?編譯器Compiler根據(jù)用戶任務(wù)去MetaStore中獲取需要的Hive的元數(shù)據(jù)信息。

4.?編譯器Compiler得到元數(shù)據(jù)信息，對任務(wù)進行編譯，先將HiveQL轉(zhuǎn)換為抽象語法樹，然后將抽象語法樹轉(zhuǎn)換成查詢塊，將查詢塊轉(zhuǎn)化為邏輯的查詢計劃，重寫邏輯查詢計劃，將邏輯計劃轉(zhuǎn)化為物理的計劃（MapReduce）,?最后選擇最佳的策略。

5.?將最終的計劃提交給Driver。

Driver將計劃Plan轉(zhuǎn)交給ExecutionEngine去執(zhí)行，獲取元數(shù)據(jù)信息，提交給JobTracker或者SourceManager執(zhí)行該任務(wù)，任務(wù)會直接讀取HDFS中文件進行相應(yīng)的操作。

7.?獲取執(zhí)行的結(jié)果。

8.?取得并返回執(zhí)行結(jié)果。

3. hive的具體執(zhí)行過程分析

（1）Join（reduce join）

例：SELECT pv.pageid, u.age FROM page_view pv JOIN user u ON pv.userid = u.userid;
hive的執(zhí)行流程
map 端：以 JOIN ON 條件中的列作為 Key，以page_view表中的需要字段，表標識作為value，最終通過key進行排序，也就是join字段進行排序。
shuffle端：根據(jù) Key 的值進行 Hash，并將 Key/Value 對按照 Hash 值推至不同對 Reduce 中
reduce 端：根據(jù)key進行分組，根據(jù)不同的表的標識，拿出不同的數(shù)據(jù)，進行拼接。

（2）group by

例：SELECT pageid, age, count(1) FROM pv_users GROUP BY pageid, age;
hive的執(zhí)行流程
map 端：
key：以pageid, age作為key,并且在map輸出端有combiner。
value ：1次
reduce 端：對value進行求和

（3）distinct

例：select distinct age from log;
map端：
key：age
value：null
reduce端：
一組只要一個輸出context.write(key,null)。

（4）distinct+count

例：select count(distinct userid) from weibo_temp;
即使設(shè)置了reduce個數(shù)為3個，最終也只會執(zhí)行一個，因為，count()是全局，只能開啟一個reducetask。
map端：
key：userid
value： null
reduce端：
一組只要一個，定義一個全局變量用于計數(shù)，在cleanup（Context context）中輸出context.write(key,count)
當然distinct+count是一個容易產(chǎn)生數(shù)據(jù)傾斜的做法，應(yīng)該盡量避免，如果無法避免，那么就使用這種方法：
select count(1) from (select distinct userid from weibo_temp); 這樣可以并行多個reduce task任務(wù)，從而解決單節(jié)點的壓力過大。

向AI問一下細節(jié)

hive的執(zhí)行流程

1. 執(zhí)行流程概述

2. Hive 工作原理

3. hive的具體執(zhí)行過程分析

（1）Join（reduce join）

（2）group by

（3）distinct

（4）distinct+count

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標簽