一次Hadoop開發(fā)思路分享

發(fā)布時間：2020-08-04 08:41:41 來源：網(wǎng)絡(luò) 閱讀：691 作者：zfz_linux_boy 欄目：大數(shù)據(jù)

困擾了自己1周的一個問題終于得到解決了，感謝給我?guī)椭耐瑢W(xué)，同時記錄下來分享給大家.

問題簡化描述：

HDFS存在這樣格式的文件：用戶ID 主題ID 用戶對此主題的偏好分數(shù)score。
現(xiàn)在要求實現(xiàn)對給定的幾個主題T1，T2，T3，...TN，每個主題要求篩選出指定數(shù)量的用戶ID是M1,M2,M3,...MX。
希望盡可能根據(jù)score來選出偏好的用戶ID，并且主題之間的用戶ID不可以重復(fù)。
另外HDFS上distinct的用戶ID數(shù)量是大于等于M1+M2+M3+...+MX的。

思路分析：

問題有幾個關(guān)鍵點，第一，不重復(fù)，第二，數(shù)量上要滿足，第三，偏好分數(shù)score。

如何保證，主題之間的用戶不重復(fù)呢？

其實就是完成，一個用戶只能屬于一個主題的過程，當(dāng)然，我們可以很簡單的對一個用戶下的所有偏好分數(shù)進行排序，取出最偏好的主題。

雖然這樣避免了重復(fù)的問題，可是問題來了，如果偏好主題T1要求的數(shù)量是100W，而僅僅只有90W的用戶ID對T1最偏好，這該如何補數(shù)呢？又如何通過程序來自動化的實現(xiàn)這個過程呢？越想越復(fù)雜！

這個問題好像有點類似于高考填自愿的問題，我們每一個人會填寫幾個志愿，但是我們終究只會被一個院校錄取，這是怎么做到的呢？是否可以從中借鑒呢？

首先，我們根據(jù)HDFS的內(nèi)容，寫一個MapReduce完成一次計算，形成下面的用戶志愿HDFS內(nèi)容：

用戶ID 主題ID-A:score1;主題ID-B:score2;...

很簡單，希望得到一個用戶ID下面按照score desc排序的主題列表，上面一行其實就是說:

用戶ID的第一志愿是主題A，第二志愿是主題B...。

------------------------------------------

接下來，形成下面的一個列表list信息：

主題A count-A

主題B count-B

主題C count-C

...

按照主題需要的用戶ID的數(shù)量進行ASC排序。

------------------------------------------

下面，我們就來看如何進行主題選擇用戶的過程：

我們首先選擇對數(shù)量要求最少的主題A完成下面的MapReduce計算：

一次Hadoop開發(fā)思路分享

這樣，我們就完成了主題A的用戶篩選問題。

接下來，我們?nèi)〕鰈ist中數(shù)量要求比A多一點的主題B，那么它怎么取用戶呢？

很簡單，我們只需要在MAP處理階段，傳遞主題A生成的結(jié)果HDFS路徑（路徑下面的文件內(nèi)容當(dāng)然是主題A的用戶）用于reduce階段取用戶時進行過濾。

那么，主題C又如何取用戶呢？

類似的，只需要給MAP多傳遞主題A,主題B已經(jīng)占用的用戶信息用于過濾，其他處理操作不變！

其實，我們可以發(fā)現(xiàn)，上面的MapReduce其實可以是一個通用的程序，類似于COMMAND：

hadoop jar XXX.jar 主題ID 數(shù)量 [input1,input2,input3,...] 用戶志愿HDFS路徑輸出路徑

其中input1,input2,input3,...是可選的，其實就是用于用戶過濾的。

最后，我們可以寫一個Shell腳本，根據(jù)list的內(nèi)容來進行重復(fù)調(diào)用上面的COMMAND，通過傳遞不同的參數(shù)信息達到目的，這樣我們就可以自動化實現(xiàn)上面的要求了！

向AI問一下細節(jié)

猜你喜歡