您好,登錄后才能下訂單哦!
困擾了自己1周的一個問題終于得到解決了,感謝給我?guī)椭耐瑢W(xué),同時記錄下來分享給大家.
問題簡化描述:
HDFS存在這樣格式的文件:用戶ID 主題ID 用戶對此主題的偏好分數(shù)score。
現(xiàn)在要求實現(xiàn)對給定的幾個主題T1,T2,T3,...TN,每個主題要求篩選出指定數(shù)量的用戶ID是M1,M2,M3,...MX。
希望盡可能根據(jù)score來選出偏好的用戶ID,并且主題之間的用戶ID不可以重復(fù)。
另外HDFS上distinct的用戶ID數(shù)量是大于等于M1+M2+M3+...+MX的。
思路分析:
問題有幾個關(guān)鍵點,第一,不重復(fù),第二,數(shù)量上要滿足,第三,偏好分數(shù)score。
如何保證,主題之間的用戶不重復(fù)呢?
其實就是完成,一個用戶只能屬于一個主題的過程,當(dāng)然,我們可以很簡單的對一個用戶下的所有偏好分數(shù)進行排序,取出最偏好的主題。
雖然這樣避免了重復(fù)的問題,可是問題來了,如果偏好主題T1要求的數(shù)量是100W,而僅僅只有90W的用戶ID對T1最偏好,這該如何補數(shù)呢?又如何通過程序來自動化的實現(xiàn)這個過程呢?越想越復(fù)雜!
這個問題好像有點類似于高考填自愿的問題,我們每一個人會填寫幾個志愿,但是我們終究只會被一個院校錄取,這是怎么做到的呢?是否可以從中借鑒呢?
首先,我們根據(jù)HDFS的內(nèi)容,寫一個MapReduce完成一次計算,形成下面的用戶志愿HDFS內(nèi)容:
用戶ID 主題ID-A:score1;主題ID-B:score2;...
很簡單,希望得到一個用戶ID下面按照score desc排序的主題列表,上面一行其實就是說:
用戶ID的第一志愿是主題A,第二志愿是主題B...。
------------------------------------------
接下來,形成下面的一個列表list信息:
主題A count-A
主題B count-B
主題C count-C
...
按照主題需要的用戶ID的數(shù)量進行ASC排序。
------------------------------------------
下面,我們就來看如何進行主題選擇用戶的過程:
我們首先選擇對數(shù)量要求最少的主題A完成下面的MapReduce計算:
這樣,我們就完成了主題A的用戶篩選問題。
接下來,我們?nèi)〕鰈ist中數(shù)量要求比A多一點的主題B,那么它怎么取用戶呢?
很簡單,我們只需要在MAP處理階段,傳遞主題A生成的結(jié)果HDFS路徑(路徑下面的文件內(nèi)容當(dāng)然是主題A的用戶)用于reduce階段取用戶時進行過濾。
那么,主題C又如何取用戶呢?
類似的,只需要給MAP多傳遞主題A,主題B已經(jīng)占用的用戶信息用于過濾,其他處理操作不變!
其實,我們可以發(fā)現(xiàn),上面的MapReduce其實可以是一個通用的程序,類似于COMMAND:
hadoop jar XXX.jar 主題ID 數(shù)量 [input1,input2,input3,...] 用戶志愿HDFS路徑 輸出路徑
其中input1,input2,input3,...是可選的,其實就是用于用戶過濾的。
最后,我們可以寫一個Shell腳本,根據(jù)list的內(nèi)容來進行重復(fù)調(diào)用上面的COMMAND,通過傳遞不同的參數(shù)信息達到目的,這樣我們就可以自動化實現(xiàn)上面的要求了!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。