溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

Hive架構(gòu)、傾斜優(yōu)化、sql及常見問題

發(fā)布時間:2020-07-18 05:39:11 來源:網(wǎng)絡(luò) 閱讀:532 作者:afeiye 欄目:大數(shù)據(jù)

Hive架構(gòu)

Hive架構(gòu)、傾斜優(yōu)化、sql及常見問題
hive架構(gòu)如圖所示,client跟driver交互,通過parser、planner、optimizer,最后轉(zhuǎn)為mapreduce運行,具體步驟如下
Hive架構(gòu)、傾斜優(yōu)化、sql及常見問題

  1. driver輸入一條sql,會由parser轉(zhuǎn)為抽象語法樹AST,這個是沒有任務(wù)元數(shù)據(jù)信息的語法樹;
  2. 語法分析器再把AST轉(zhuǎn)為一個一個的QueryBlock,一個QueryBlock包含輸入、輸出、計算邏輯,也就是說一個子程序就是QueryBlock
  3. planner遍歷所有的QueryBlock,轉(zhuǎn)為一個個的Operator(算子,比如tablescanOperator),最后形成OperatorTree;
  4. 優(yōu)化器對OperatorTree進行優(yōu)化,包含謂詞下推、剪枝等;
  5. 然后遍歷OperatorTree,分割成多個mapreduce作業(yè),形成物理計劃
  6. 之后進行物理優(yōu)化,比如是否進行map join等

Hive 數(shù)據(jù)傾斜優(yōu)化

  1. 對于group by可以有兩個優(yōu)化點
    map聚合:set hive.map.aggr=true,會在map端對相同key先聚合一下;
    分發(fā)為兩道作業(yè):set hive.groupby.skewindata=true,會對原來的一道作業(yè)分為兩道作業(yè),第一道隨機分配key,第二道再按key分配
    注意:對于部分聚合函數(shù)有用,比如sum和count,但是完全聚合函數(shù)無用,比如avg
  2. 對于join也有兩個優(yōu)化點
    map join:新版hive中默認開啟set hive.auto.convert.join=true ,join的左表如果足夠小,會直接把左表內(nèi)容加載到內(nèi)存中
    兩道作業(yè):set hive.optimize.skewjoin = true;set hive.skewjoin.key = skew_key_threshold (default = 100000)這個兩道作業(yè)跟groupby不一樣,這個是說把超過10萬行的數(shù)據(jù)單獨啟一道m(xù)ap join,最后再把結(jié)果聚合

hive常見問題

  1. hive不支持非等值join
    錯誤:select from a inner join b on a.id<>b.id
    替代方法:select
    from a inner join b on a.id=b.id and a.id is null;
  2. hive不支持非join連接
    錯誤:select from dual a,dual b where a.key = b.key;
    正確:select
    from dual a join dual b on a.key = b.key;
  3. hive不支持or
    錯誤:select from a inner join b on a.id=b.id or a.name=b.name
    替代方法:select
    from a inner join b on a.id=b.id union all select * from a inner join b on a.name=b.name
  4. hive內(nèi)部表和外部表的區(qū)別
    創(chuàng)建表時:創(chuàng)建內(nèi)部表時,會將數(shù)據(jù)移動到數(shù)據(jù)倉庫指向的路徑;若創(chuàng)建外部表,僅記錄數(shù)據(jù)所在的路徑, 不對數(shù)據(jù)的位置做任何改變。
    刪除表時:在刪除表的時候,內(nèi)部表的元數(shù)據(jù)和數(shù)據(jù)會被一起刪除, 而外部表只刪除元數(shù)據(jù),不刪除數(shù)據(jù)。這樣外部表相對來說更加安全些,數(shù)據(jù)組織也更加靈活,方便共享源數(shù)據(jù)
  5. sortby、orderby、distributeby
    order by會引發(fā)全局排序;會導(dǎo)致所有的數(shù)據(jù)集中在一臺reducer節(jié)點上,然后進行排序,這樣很可能會超過單個節(jié)點的磁盤和內(nèi)存存儲能力導(dǎo)致任務(wù)失敗。
    distribute by + sort by就是該替代方案,被distribute by設(shè)定的字段為KEY,數(shù)據(jù)會被HASH分發(fā)到不同的reducer機器上,然后sort by會對同一個reducer機器上的每組數(shù)據(jù)進行局部排序。
向AI問一下細節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI