溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

如何讓Python爬取B站耗子尾汁、不講武德出處的視頻彈幕

發(fā)布時(shí)間:2021-10-26 09:18:55 來源:億速云 閱讀:117 作者:柒染 欄目:大數(shù)據(jù)

本篇文章為大家展示了如何讓Python爬取B站耗子尾汁、不講武德出處的視頻彈幕,內(nèi)容簡(jiǎn)明扼要并且容易理解,絕對(duì)能使你眼前一亮,通過這篇文章的詳細(xì)介紹希望你能有所收獲。

前言

耗子喂汁是什么意思什么梗呢?可能很多人不知道,這個(gè)梗是出自馬保國(guó),經(jīng)常上網(wǎng)的人可能聽說過這個(gè)名字,而他所說的一些話也被當(dāng)成了一些梗,比如年輕人不講武德,閃電五連鞭等等

B站馬保國(guó)的一段視頻中他右眼紅腫金句頻出,部分經(jīng)典句式甚至被網(wǎng)友們總結(jié)歸納成了“保國(guó)體”,變成了口頭禪,比如“年輕人不講武德,欺侮我六十九歲的老同志”“耗子尾汁”(好自為之)等

那么讓我們來看看網(wǎng)友們大都發(fā)了啥彈幕 

項(xiàng)目目標(biāo)

爬取B站彈幕,詞云圖

第一個(gè)視頻播放量快2000W了,彈幕也有4.8W

如何讓Python爬取B站耗子尾汁、不講武德出處的視頻彈幕

每天一遍,快樂源泉,嘿嘿嘿

環(huán)境

Python3.6

pycharm

爬蟲代碼

導(dǎo)入工具

import requests
import parsel
import csv
import time

先按F12,找到彈幕的數(shù)據(jù)在哪

從列表頁(yè)中獲取詳情頁(yè)的URL地址等數(shù)據(jù)

如何讓Python爬取B站耗子尾汁、不講武德出處的視頻彈幕

for page in range(20,32):
    time.sleep(1)
    print('=================正在下載11月{}日彈幕===================================='.format(page))
    url = 'https://api.bilibili.com/x/v2/dm/history?type=1&oid=140610898&date=2020-11-{}'.format(page)
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
        "cookie": "__uuid=1896D3F7-4A98-54EB-F7FA-3301CE9EF5F307776infoc; buvid3=B68B2187-4C3E-4466-A896-FBF9B292099B190963infoc; LIVE_BUVID=AUTO4115757254257055; stardustvideo=1; rpdid=|(umu|ulY)JJ0J'ul~l~klRJ); sid=8cq4r229; im_notify_type_65901796=0; laboratory=1-1; DedeUserID=523606542; DedeUserID__ckMd5=909861ec223d26d8; blackside_state=1; CURRENT_FNVAL=80; SESSDATA=a976c0b4%2C1618637313%2C4d792*a1; bili_jct=7f54729ec20660f750661122b80746d2; PVID=1; bp_video_offset_523606542=458111639975213216; CURRENT_QUALITY=16; bfe_id=1e33d9ad1cb29251013800c68af42315"
    }
    response = requests.get(url=url, headers=headers)
    response.encoding = response.apparent_encoding
    selector = parsel.Selector(response.text)
    data = selector.css('d::text').getall()
    for i in data:
        print(i)
        with open('B站彈幕.csv', mode='a', newline='', encoding='utf-8-sig') as f:
            writer = csv.writer(f)
            links = []
            links.append(i)
            writer.writerow(links)

如何讓Python爬取B站耗子尾汁、不講武德出處的視頻彈幕

詞云代碼

import jieba
import wordcloud
import imageio

# 讀取文件內(nèi)容
f = open('csv文件地址', encoding='utf-8')
txt = f.read()
# print(txt)
# jiabe 分詞 分割詞匯
txt_list = jieba.lcut(txt)
string = ' '.join(txt_list)
# 詞云圖設(shè)置
wc = wordcloud.WordCloud(
        width=800,         # 圖片的寬
        height=500,         # 圖片的高
        background_color='white',   # 圖片背景顏色
        font_path='msyh.ttc',    # 詞云字體
        # mask=py,     # 所使用的詞云圖片
        scale=15,
)
# 給詞云輸入文字
wc.generate(string)
# 詞云圖保存圖片地址
wc.to_file('\\1.png')

上述內(nèi)容就是如何讓Python爬取B站耗子尾汁、不講武德出處的視頻彈幕,你們學(xué)到知識(shí)或技能了嗎?如果還想學(xué)到更多技能或者豐富自己的知識(shí)儲(chǔ)備,歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI