<ol id="ovcly"><center id="ovcly"></center></ol>

^{<var id="ovcly"></var>}

<big id="ovcly"><nobr id="ovcly"></nobr></big>

<noscript id="ovcly"><tbody id="ovcly"></tbody></noscript>

<var id="ovcly"><thead id="ovcly"><del id="ovcly"></del></thead></var>

<var id="ovcly"></var>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

hive中數(shù)據(jù)傾斜的原因有哪些

發(fā)布時(shí)間：2021-12-04 09:12:34 來(lái)源：億速云閱讀：183 作者：小新欄目：云計(jì)算

這篇文章主要為大家展示了“hive中數(shù)據(jù)傾斜的原因有哪些”，內(nèi)容簡(jiǎn)而易懂，條理清晰，希望能夠幫助大家解決疑惑，下面讓小編帶領(lǐng)大家一起研究并學(xué)習(xí)一下“hive中數(shù)據(jù)傾斜的原因有哪些”這篇文章吧。

hive大數(shù)據(jù)傾斜總結(jié)

在做Shuffle階段的優(yōu)化過(guò)程中，遇到了數(shù)據(jù)傾斜的問(wèn)題，造成了對(duì)一些情況下優(yōu)化效果不明顯。主要是因?yàn)樵贘ob完成后的所得到的Counters是整個(gè)Job的總和，優(yōu)化是基于這些Counters得出的平均值，而由于數(shù)據(jù)傾斜的原因造成map處理數(shù)據(jù)量的差異過(guò)大，使得這些平均值能代表的價(jià)值降低。Hive的執(zhí)行是分階段的，reduce處理數(shù)據(jù)量的差異取決于上一個(gè)stage的map輸出，所以如何將數(shù)據(jù)均勻的分配到各個(gè)reduce中，就是解決數(shù)據(jù)傾斜的根本所在。規(guī)避錯(cuò)誤來(lái)更好的運(yùn)行比解決錯(cuò)誤更高效。在查看了一些資料后，總結(jié)如下。

1數(shù)據(jù)傾斜的原因

1.1操作：

關(guān)鍵詞	情形	后果
Join	其中一個(gè)表較小，但是key集中	分發(fā)到某一個(gè)或幾個(gè)Reduce上的數(shù)據(jù)遠(yuǎn)高于平均值
大表與大表，但是分桶的判斷字段0值或空值過(guò)多	這些空值都由一個(gè)reduce處理，灰常慢
group by	group by 維度過(guò)小，某值的數(shù)量過(guò)多	處理某值的reduce灰常耗時(shí)
Count Distinct	某特殊值過(guò)多	處理此特殊值的reduce耗時(shí)

1.2原因：

1)、key分布不均勻

2)、業(yè)務(wù)數(shù)據(jù)本身的特性

3)、建表時(shí)考慮不周

4)、某些SQL語(yǔ)句本身就有數(shù)據(jù)傾斜

1.3表現(xiàn)：

任務(wù)進(jìn)度長(zhǎng)時(shí)間維持在99%（或100%），查看任務(wù)監(jiān)控頁(yè)面，發(fā)現(xiàn)只有少量（1個(gè)或幾個(gè)）reduce子任務(wù)未完成。因?yàn)槠涮幚淼臄?shù)據(jù)量和其他reduce差異過(guò)大。

單一reduce的記錄數(shù)與平均記錄數(shù)差異過(guò)大，通?？赡苓_(dá)到3倍甚至更多。最長(zhǎng)時(shí)長(zhǎng)遠(yuǎn)大于平均時(shí)長(zhǎng)。

2數(shù)據(jù)傾斜的解決方案

2.1參數(shù)調(diào)節(jié)：

hive.map.aggr=true

Map 端部分聚合，相當(dāng)于Combiner

hive.groupby.skewindata=true

有數(shù)據(jù)傾斜的時(shí)候進(jìn)行負(fù)載均衡，當(dāng)選項(xiàng)設(shè)定為 true，生成的查詢計(jì)劃會(huì)有兩個(gè) MR Job。第一個(gè) MR Job 中，Map 的輸出結(jié)果集合會(huì)隨機(jī)分布到 Reduce 中，每個(gè) Reduce 做部分聚合操作，并輸出結(jié)果，這樣處理的結(jié)果是相同的 Group By Key 有可能被分發(fā)到不同的 Reduce 中，從而達(dá)到負(fù)載均衡的目的；第二個(gè) MR Job 再根據(jù)預(yù)處理的數(shù)據(jù)結(jié)果按照 Group By Key 分布到 Reduce 中（這個(gè)過(guò)程可以保證相同的 Group By Key 被分布到同一個(gè) Reduce 中），最后完成最終的聚合操作。

2.2 SQL語(yǔ)句調(diào)節(jié)：

如何Join：

關(guān)于驅(qū)動(dòng)表的選取，選用join key分布最均勻的表作為驅(qū)動(dòng)表

做好列裁剪和filter操作，以達(dá)到兩表做join的時(shí)候，數(shù)據(jù)量相對(duì)變小的效果。

大小表Join：

使用map join讓小的維度表（1000條以下的記錄條數(shù)）先進(jìn)內(nèi)存。在map端完成reduce.

大表Join大表：

把空值的key變成一個(gè)字符串加上隨機(jī)數(shù)，把傾斜的數(shù)據(jù)分到不同的reduce上，由于null值關(guān)聯(lián)不上，處理后并不影響最終結(jié)果。

count distinct大量相同特殊值

count distinct時(shí)，將值為空的情況單獨(dú)處理，如果是計(jì)算count distinct，可以不用處理，直接過(guò)濾，在最后結(jié)果中加1。如果還有其他計(jì)算，需要進(jìn)行g(shù)roup by，可以先將值為空的記錄單獨(dú)處理，再和其他計(jì)算結(jié)果進(jìn)行union。

group by維度過(guò)?。?/strong>

采用sum() group by的方式來(lái)替換count(distinct)完成計(jì)算。

特殊情況特殊處理：

在業(yè)務(wù)邏輯優(yōu)化效果的不大情況下，有些時(shí)候是可以將傾斜的數(shù)據(jù)單獨(dú)拿出來(lái)處理。最后union回去。

3典型的業(yè)務(wù)場(chǎng)景

3.1空值產(chǎn)生的數(shù)據(jù)傾斜

場(chǎng)景：如日志中，常會(huì)有信息丟失的問(wèn)題，比如日志中的 user_id，如果取其中的 user_id 和用戶表中的user_id 關(guān)聯(lián)，會(huì)碰到數(shù)據(jù)傾斜的問(wèn)題。

解決方法1： user_id為空的不參與關(guān)聯(lián)（紅色字體為修改后）

select * from log a join users b on a.user_id is not null and a.user_id = b.user_idunion allselect * from log a where a.user_id is null;

解決方法2 ：賦與空值分新的key值

select * from log a left outer join users b on case when a.user_id is null then concat(‘hive’,rand() ) else a.user_id end = b.user_id;

結(jié)論：方法2比方法1效率更好，不但io少了，而且作業(yè)數(shù)也少了。解決方法1中 log讀取兩次，jobs是2。解決方法2 job數(shù)是1 。這個(gè)優(yōu)化適合無(wú)效 id (比如 -99 , ’’, null 等) 產(chǎn)生的傾斜問(wèn)題。把空值的 key 變成一個(gè)字符串加上隨機(jī)數(shù)，就能把傾斜的數(shù)據(jù)分到不同的reduce上 ,解決數(shù)據(jù)傾斜問(wèn)題。

3.2不同數(shù)據(jù)類型關(guān)聯(lián)產(chǎn)生數(shù)據(jù)傾斜

場(chǎng)景：用戶表中user_id字段為int，log表中user_id字段既有string類型也有int類型。當(dāng)按照user_id進(jìn)行兩個(gè)表的Join操作時(shí)，默認(rèn)的Hash操作會(huì)按int型的id來(lái)進(jìn)行分配，這樣會(huì)導(dǎo)致所有string類型id的記錄都分配到一個(gè)Reducer中。

解決方法：把數(shù)字類型轉(zhuǎn)換成字符串類型

select * from users a left outer join logs b on a.usr_id = cast(b.user_id as string)

3.3小表不小不大，怎么用 map join 解決傾斜問(wèn)題

使用 map join 解決小表(記錄數(shù)少)關(guān)聯(lián)大表的數(shù)據(jù)傾斜問(wèn)題，這個(gè)方法使用的頻率非常高，但如果小表很大，大到map join會(huì)出現(xiàn)bug或異常，這時(shí)就需要特別的處理。 以下例子:

select * from log a left outer join users b on a.user_id = b.user_id;

users 表有 600w+ 的記錄，把 users 分發(fā)到所有的 map 上也是個(gè)不小的開(kāi)銷，而且 map join 不支持這么大的小表。如果用普通的 join，又會(huì)碰到數(shù)據(jù)傾斜的問(wèn)題。

解決方法：

select /*+mapjoin(x)*/* from log a left outer join ( select /*+mapjoin(c)*/d.* from ( select distinct user_id from log ) c join users d on c.user_id = d.user_id ) x on a.user_id = b.user_id;

假如，log里user_id有上百萬(wàn)個(gè)，這就又回到原來(lái)map join問(wèn)題。所幸，每日的會(huì)員uv不會(huì)太多，有交易的會(huì)員不會(huì)太多，有點(diǎn)擊的會(huì)員不會(huì)太多，有傭金的會(huì)員不會(huì)太多等等。所以這個(gè)方法能解決很多場(chǎng)景下的數(shù)據(jù)傾斜問(wèn)題。

4總結(jié)

使map的輸出數(shù)據(jù)更均勻的分布到reduce中去，是我們的最終目標(biāo)。由于Hash算法的局限性，按key Hash會(huì)或多或少的造成數(shù)據(jù)傾斜。大量經(jīng)驗(yàn)表明數(shù)據(jù)傾斜的原因是人為的建表疏忽或業(yè)務(wù)邏輯可以規(guī)避的。在此給出較為通用的步驟：

1、采樣log表，哪些user_id比較傾斜，得到一個(gè)結(jié)果表tmp1。由于對(duì)計(jì)算框架來(lái)說(shuō)，所有的數(shù)據(jù)過(guò)來(lái)，他都是不知道數(shù)據(jù)分布情況的，所以采樣是并不可少的。

2、數(shù)據(jù)的分布符合社會(huì)學(xué)統(tǒng)計(jì)規(guī)則，貧富不均。傾斜的key不會(huì)太多，就像一個(gè)社會(huì)的富人不多，奇特的人不多一樣。所以tmp1記錄數(shù)會(huì)很少。把tmp1和users做map join生成tmp2,把tmp2讀到distribute file cache。這是一個(gè)map過(guò)程。

3、map讀入users和log，假如記錄來(lái)自log,則檢查user_id是否在tmp2里，如果是，輸出到本地文件a,否則生成<user_id,value>的key,value對(duì)，假如記錄來(lái)自member,生成<user_id,value>的key,value對(duì)，進(jìn)入reduce階段。

4、最終把a(bǔ)文件，把Stage3 reduce階段輸出的文件合并起寫到hdfs。

如果確認(rèn)業(yè)務(wù)需要這樣傾斜的邏輯，考慮以下的優(yōu)化方案：

1、對(duì)于join，在判斷小表不大于1G的情況下，使用map join

2、對(duì)于group by或distinct，設(shè)定 hive.groupby.skewindata=true

3、盡量使用上述的SQL語(yǔ)句調(diào)節(jié)進(jìn)行優(yōu)化

以上是“hive中數(shù)據(jù)傾斜的原因有哪些”這篇文章的所有內(nèi)容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內(nèi)容對(duì)大家有所幫助，如果還想學(xué)習(xí)更多知識(shí)，歡迎關(guān)注億速云行業(yè)資訊頻道！

向AI問(wèn)一下細(xì)節(jié)

推薦閱讀：

hive中數(shù)據(jù)傾斜

hive的數(shù)據(jù)傾斜以及常用的優(yōu)化方法

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

hive

上一篇新聞：
create instance 生成創(chuàng)建虛擬機(jī)從nova到調(diào)用libvirt的流程是怎樣的

下一篇新聞：
網(wǎng)頁(yè)里段落的html標(biāo)簽是哪些

猜你喜歡

vps怎么開(kāi)啟udp端口

MFC中GetDlgItem函數(shù)怎么使用

Java中static靜態(tài)變量的作用是什么

static定義的變量有哪些特點(diǎn)

怎么使用c語(yǔ)言訪問(wèn)數(shù)組元素

c語(yǔ)言怎么讀取數(shù)組中的數(shù)

Java虛擬機(jī)安裝的方法是什么

Js CloneNode()方法如何使用

如何用自己的電腦架設(shè)vps

ftp服務(wù)器搭建vps的方法是什么

最新資訊

Android Studio中控件的陰影效果如何實(shí)現(xiàn)

控件事件監(jiān)聽(tīng)器編寫規(guī)范

控件單元測(cè)試編寫與執(zhí)行

Android Studio控件API變更追蹤

控件狀態(tài)保存與恢復(fù)機(jī)制

控件觸摸反饋?zhàn)远x

控件動(dòng)態(tài)添加與移除技巧

控件無(wú)障礙設(shè)計(jì)在Android Studio中

控件權(quán)限與隱私保護(hù)考量

控件樣式繼承與覆蓋策略

相關(guān)推薦

hive sql 優(yōu)化數(shù)據(jù)傾斜

hive mysql中沒(méi)有表的原因

Hive數(shù)據(jù)傾斜的示例分析

Hive怎么避免數(shù)據(jù)傾斜

Hive性能調(diào)優(yōu)中數(shù)據(jù)傾斜的示例分析

? hive大數(shù)據(jù)傾斜的示例分析

hive大數(shù)據(jù)傾斜的原因有哪些

Hive數(shù)據(jù)傾斜的原因及優(yōu)化方法

hive中數(shù)據(jù)傾斜的示例分析

Hive中SQL數(shù)據(jù)傾斜及優(yōu)化的示例分析

相關(guān)標(biāo)簽

archived archive hive架構(gòu) pt-archiver hive原理 hive安裝 archivelog hive sql archiver carchive ziparchive hiveserver2 hive表強(qiáng)制下線 el-button underscore 平滑升級(jí) 版本庫(kù) webpack3 外形框

AI
助
手

產(chǎn)品服務(wù)

云服務(wù)器

高防服務(wù)器

高防IP

裸金屬服務(wù)器

機(jī)柜租用

SSL證書

高防CDN

彈性IP

地區(qū)劃分

中國(guó)香港服務(wù)器

美國(guó)服務(wù)器

德國(guó)服務(wù)器

日本服務(wù)器

韓國(guó)服務(wù)器

新加坡服務(wù)器

專題活動(dòng)

控制臺(tái)

應(yīng)用市場(chǎng)

最新活動(dòng)

幫助支持

幫助中心

網(wǎng)站備案

法律條款

全國(guó)服務(wù)

安全漏洞

主題地圖

關(guān)于我們

關(guān)于億速云

客戶案例

新聞資訊

資訊地圖

問(wèn)答地圖

聯(lián)系我們

人才招聘

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼

Copyright ? Yisu Cloud Ltd. All Rights Reserved. 2018 版權(quán)所有

廣州億速云計(jì)算有限公司粵ICP備17096448號(hào)-1 粵公網(wǎng)安備 44010402001142號(hào)增值電信業(yè)務(wù)經(jīng)營(yíng)許可證編號(hào)：B1-20181529

感谢您访问我们的网站，您可能还对以下资源感兴趣：
女人爽到高潮潮喷18禁
欧美日韩亚洲国产精品自拍精品丝袜国产自在线拍日本高清视频在线网站 97久久超碰国产精品旧版麻豆久久久国产一区二区三区

^{<small id="fsfhy"></small>}
<big id="fsfhy"></big>