您好,登錄后才能下訂單哦!
本篇文章為大家展示了如何用spark分析網(wǎng)吧同行朋友思路,內(nèi)容簡明扼要并且容易理解,絕對能使你眼前一亮,通過這篇文章的詳細(xì)介紹希望你能有所收獲。
在mysql庫中有2.5kw網(wǎng)吧軌跡數(shù)據(jù),需要計(jì)算同行關(guān)系:計(jì)算兩人在相同網(wǎng)吧十分鐘前后上下網(wǎng)三次及以上(如:a和b在19號十分鐘前后出現(xiàn)在了A網(wǎng)吧,又在21號十分鐘前后出現(xiàn)在了B網(wǎng)吧,再在22號十分鐘前后出現(xiàn)在了D網(wǎng)吧)就需要保留他們的身份ID和一起上下網(wǎng)的次數(shù)。2.5kw軌跡中有8k+網(wǎng)吧請問有什么思路嗎?
如果flink有更好的處理方式也可以。
使用用一個(gè)mysql的連接器,但是這東西需要配置一個(gè)分區(qū)列。
直接用的網(wǎng)吧編號。這樣會分8000多分區(qū)(而且后面的邏輯也沒有用到這個(gè)分區(qū)列),是不是有問題?今天測試了一下。兩個(gè)網(wǎng)吧,3w多數(shù)據(jù),兩個(gè)小時(shí)沒跑完。。(我們是先用連接器抽出數(shù)據(jù),按照網(wǎng)吧分組計(jì)算單次然后聚合篩選3次及以上的)網(wǎng)吧數(shù)據(jù)從幾條到幾萬條不等。
分區(qū)列的問題解決:
上述內(nèi)容就是如何用spark分析網(wǎng)吧同行朋友思路,你們學(xué)到知識或技能了嗎?如果還想學(xué)到更多技能或者豐富自己的知識儲備,歡迎關(guān)注億速云行業(yè)資訊頻道。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。