太行山有Python爬取微博數(shù)據(jù)

發(fā)布時間：2021-10-11 17:02:02 來源：億速云閱讀：194 作者：柒染欄目：大數(shù)據(jù)

今天就跟大家聊聊有關太行山有Python爬取微博數(shù)據(jù)，可能很多人都不太了解，為了讓大家更加了解，小編給大家總結(jié)了以下內(nèi)容，希望大家根據(jù)這篇文章可以有所收獲。

爬蟲的最大功能之一就是整合數(shù)據(jù)，能弄到更全面的信息，真正做好大數(shù)據(jù)的分析，在這個數(shù)據(jù)說話的年代，影響是決定性的。（注意別侵權）

?思路流程

1、利用chrome瀏覽器，獲取自己的cookie。

2、獲取你要爬取的用戶的微博User_id

3、將獲得的兩項內(nèi)容填入到weibo.py中，替換代碼中的YOUR_USER_ID和#YOUR_COOKIE，運行代碼。

?完整代碼

import requestsimport reimport pandas as pdimport time as tmimport random# ------------------------id = "2304132803301701"timedata = []for p in range(1,3):    page = str(p)    url = "https://m.weibo.cn/api/container/getIndex?containerid=" + id + "_-_WEIBO_SECOND_PROFILE_WEIBO&luicode=10000011&lfid=" + id + "&page_type=03&page=" + page    data = requests.get(url)    data_text = data.text    data_num = re.findall(r'\"mid\"\:\"(\d{16})\"', data_text)    num = len(data_num)    for i in range(0,num):        url_detail = "https://m.weibo.cn/detail/" + data_num[i]        html = requests.get(url_detail)        time = re.search(r'\"created_at\"\:\s\"(\w\w\w\s\w\w\w\s\d\d\s\d\d\:\d\d\:\d\d)\s\+\d{4}\s\d{4}\"', html.text)        timedata.append(time.group(1))        tm.sleep(random.uniform(1,4)) #反爬間隔        print("采集第%d頁第%d條微博數(shù)據(jù)"%(p,i))name =["time"]data_save = pd.DataFrame(columns=name, data=timedata)data_save.to_csv('./data.csv')

用wordcloud等軟件生成詞云，它會根據(jù)信息的頻率、權重按比列顯示關鍵字的字體大小。

看完上述內(nèi)容，你們對太行山有Python爬取微博數(shù)據(jù)有進一步的了解嗎？如果還想了解更多知識或者相關內(nèi)容，請關注億速云行業(yè)資訊頻道，感謝大家的支持。

向AI問一下細節(jié)

太行山有Python爬取微博數(shù)據(jù)

猜你喜歡

最新資訊

相關推薦

相關標簽