溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

PHP 基于laravel框架獲取微博數(shù)據(jù)之二 用戶(hù)數(shù)據(jù)的使用

發(fā)布時(shí)間:2020-05-26 19:04:53 來(lái)源:網(wǎng)絡(luò) 閱讀:654 作者:daweilang 欄目:web開(kāi)發(fā)

項(xiàng)目地址:

https://github.com/daweilang/GetWB


開(kāi)始抓取微博數(shù)據(jù)的時(shí)候,只是想獲得一條熱門(mén)微博下的所有評(píng)論,因?yàn)槔锩嬗胁簧賵D片廣告,所以想試試能不能分析出熱門(mén)微博評(píng)論里的異常用戶(hù)。


使用PHP的Laravel框架后,通過(guò)隊(duì)列、命令等各種功能,最后構(gòu)架了一套完整的微博用戶(hù)數(shù)據(jù)抓取平臺(tái),經(jīng)過(guò)一段時(shí)間的運(yùn)行積累了大量數(shù)據(jù),那么使用這些數(shù)據(jù)能做什么呢?


微博數(shù)據(jù)分析很早就有人在做了,網(wǎng)上采集分析工具貌似有很多,搜索一下想找一些微博數(shù)據(jù)分析的具體方案。世事變幻,發(fā)現(xiàn)很多幾年前的微博數(shù)據(jù)分析平臺(tái)都不能用了,可能微博數(shù)據(jù)分析和微博一樣在商業(yè)上還是沒(méi)有什么更好的盈利模式。。。


根據(jù)之前網(wǎng)上微博數(shù)據(jù)分析的方案,微博傳播力是數(shù)據(jù)分析的一個(gè)方向,熱門(mén)微博轉(zhuǎn)發(fā)傳播可以用于廣告營(yíng)銷(xiāo)分析,這個(gè)數(shù)據(jù)基礎(chǔ)是采集微博內(nèi)容和傳播路徑,和我的數(shù)據(jù)獲取方式并不相同。


沒(méi)有找到用戶(hù)數(shù)據(jù)分析的解決方案,也沒(méi)有數(shù)據(jù)挖掘相關(guān)知識(shí)的基礎(chǔ),所以還是以一個(gè)程序員的角度說(shuō)說(shuō)微博用戶(hù)數(shù)據(jù)使用的設(shè)想吧。


使用Laravel框架搭建的平臺(tái)是以微博用戶(hù)為基礎(chǔ)的數(shù)據(jù)抓取模式,可以獲得某條微博下的所有評(píng)論、轉(zhuǎn)發(fā)和贊。進(jìn)一步深入,獲得一個(gè)微博用戶(hù)的所有微博后,即可以獲得該用戶(hù)所發(fā)微博,包括其評(píng)論、轉(zhuǎn)發(fā)和贊的所有數(shù)據(jù)。


微博用戶(hù)的完整數(shù)據(jù)中能夠得到什么?


一、通過(guò)微博贊積累微博用戶(hù)
微博不能重復(fù)點(diǎn)贊,所以一條有百萬(wàn)個(gè)贊的微博就能獲得百萬(wàn)用戶(hù)基礎(chǔ)信息,這是積累微博用戶(hù)池效率比較高的方式,不過(guò)隨著累積量增加,重復(fù)數(shù)據(jù)變多,效率會(huì)降低。同樣評(píng)論和轉(zhuǎn)發(fā)也可以積累用戶(hù)信息,不過(guò)重復(fù)性使得獲取數(shù)據(jù)效率不高。



二、通過(guò)數(shù)據(jù)建立關(guān)于用戶(hù)的數(shù)學(xué)模型
早就把數(shù)學(xué)模型還給大學(xué)老師了,當(dāng)年這東西也沒(méi)好好學(xué)。不過(guò)還是明白一點(diǎn),一個(gè)用戶(hù),其粉絲量、微博數(shù)和轉(zhuǎn)發(fā)、評(píng)論、贊應(yīng)該有一定的數(shù)學(xué)模型關(guān)系。

具體來(lái)說(shuō),百萬(wàn)級(jí)的微博用戶(hù),其微博的平均轉(zhuǎn)發(fā)、評(píng)論、贊,應(yīng)該在一定的范圍內(nèi)。以大量微博用戶(hù)數(shù)據(jù)為基礎(chǔ)可建立數(shù)據(jù)模型。這種模型可以用來(lái)評(píng)估一個(gè)微博用戶(hù)的健康性。


三、通過(guò)數(shù)據(jù)獲得用戶(hù)的活躍粉絲
一個(gè)微博用戶(hù)的完整數(shù)據(jù),通過(guò)交叉對(duì)比可以獲得粉絲的活躍度。

當(dāng)前微博除了用戶(hù)自己,其他人是不能查看該用戶(hù)所有粉絲數(shù)據(jù)的。但是通過(guò)“共同關(guān)注”關(guān)系,可以判斷出是否是用戶(hù)粉絲。
理論上說(shuō)如果有全部幾十億微博用戶(hù)數(shù)據(jù),逐個(gè)對(duì)比,是可以獲取某用戶(hù)所有粉絲的,但這只是理論方案。
通過(guò)用戶(hù)微博下的轉(zhuǎn)發(fā)、評(píng)論、贊可縮小對(duì)比范圍,雖然不能得到用戶(hù)的所有粉絲,但能分析出和微博用戶(hù)有過(guò)互動(dòng)的所有粉絲,這些粉絲的占比可以評(píng)估出微博用戶(hù)粉絲的質(zhì)量。


以上就是通過(guò)微博用戶(hù)數(shù)據(jù)抓取平臺(tái)獲得的數(shù)據(jù)后在使用方面的一些設(shè)想。


作為一個(gè)程序員,還是不適合寫(xiě)這種理論性的東西,自己都看不懂,還是好好寫(xiě)程序去吧。。。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI