溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

一次Hadoop開發(fā)思路分享

發(fā)布時間:2020-08-04 08:41:41 來源:網(wǎng)絡(luò) 閱讀:691 作者:zfz_linux_boy 欄目:大數(shù)據(jù)

困擾了自己1周的一個問題終于得到解決了,感謝給我?guī)椭耐瑢W(xué),同時記錄下來分享給大家.


問題簡化描述:

  • HDFS存在這樣格式的文件:用戶ID    主題ID    用戶對此主題的偏好分數(shù)score。

  • 現(xiàn)在要求實現(xiàn)對給定的幾個主題T1,T2,T3,...TN,每個主題要求篩選出指定數(shù)量的用戶ID是M1,M2,M3,...MX。

  • 希望盡可能根據(jù)score來選出偏好的用戶ID,并且主題之間的用戶ID不可以重復(fù)。

  • 另外HDFS上distinct的用戶ID數(shù)量是大于等于M1+M2+M3+...+MX的。


思路分析:


問題有幾個關(guān)鍵點,第一,不重復(fù),第二,數(shù)量上要滿足,第三,偏好分數(shù)score。


如何保證,主題之間的用戶不重復(fù)呢?


其實就是完成,一個用戶只能屬于一個主題的過程,當(dāng)然,我們可以很簡單的對一個用戶下的所有偏好分數(shù)進行排序,取出最偏好的主題。


雖然這樣避免了重復(fù)的問題,可是問題來了,如果偏好主題T1要求的數(shù)量是100W,而僅僅只有90W的用戶ID對T1最偏好,這該如何補數(shù)呢?又如何通過程序來自動化的實現(xiàn)這個過程呢?越想越復(fù)雜!


這個問題好像有點類似于高考填自愿的問題,我們每一個人會填寫幾個志愿,但是我們終究只會被一個院校錄取,這是怎么做到的呢?是否可以從中借鑒呢?


首先,我們根據(jù)HDFS的內(nèi)容,寫一個MapReduce完成一次計算,形成下面的用戶志愿HDFS內(nèi)容:


用戶ID   主題ID-A:score1;主題ID-B:score2;...


很簡單,希望得到一個用戶ID下面按照score desc排序的主題列表,上面一行其實就是說:


用戶ID的第一志愿是主題A,第二志愿是主題B...。


------------------------------------------


接下來,形成下面的一個列表list信息:


主題A   count-A

主題B   count-B

主題C   count-C

...


按照主題需要的用戶ID的數(shù)量進行ASC排序。


------------------------------------------


下面,我們就來看如何進行主題選擇用戶的過程:


我們首先選擇對數(shù)量要求最少的主題A完成下面的MapReduce計算:


一次Hadoop開發(fā)思路分享

這樣,我們就完成了主題A的用戶篩選問題。


接下來,我們?nèi)〕鰈ist中數(shù)量要求比A多一點的主題B,那么它怎么取用戶呢?


很簡單,我們只需要在MAP處理階段,傳遞主題A生成的結(jié)果HDFS路徑(路徑下面的文件內(nèi)容當(dāng)然是主題A的用戶)用于reduce階段取用戶時進行過濾。


那么,主題C又如何取用戶呢?


類似的,只需要給MAP多傳遞主題A,主題B已經(jīng)占用的用戶信息用于過濾,其他處理操作不變!


其實,我們可以發(fā)現(xiàn),上面的MapReduce其實可以是一個通用的程序,類似于COMMAND:


hadoop jar XXX.jar 主題ID 數(shù)量  [input1,input2,input3,...] 用戶志愿HDFS路徑 輸出路徑


其中input1,input2,input3,...是可選的,其實就是用于用戶過濾的。


最后,我們可以寫一個Shell腳本,根據(jù)list的內(nèi)容來進行重復(fù)調(diào)用上面的COMMAND,通過傳遞不同的參數(shù)信息達到目的,這樣我們就可以自動化實現(xiàn)上面的要求了!



向AI問一下細節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI