如何使用Python對網(wǎng)易云歌單數(shù)據(jù)分析及可視化

發(fā)布時間：2023-03-22 11:30:11 來源：億速云閱讀：284 作者：iii 欄目：開發(fā)技術(shù)

這篇文章主要介紹了如何使用Python對網(wǎng)易云歌單數(shù)據(jù)分析及可視化的相關(guān)知識，內(nèi)容詳細易懂，操作簡單快捷，具有一定借鑒價值，相信大家閱讀完這篇如何使用Python對網(wǎng)易云歌單數(shù)據(jù)分析及可視化文章都會有所收獲，下面我們一起來看看吧。

項目概述

1.1項目來源

網(wǎng)易云音樂是一款由網(wǎng)易開發(fā)的音樂產(chǎn)品，是網(wǎng)易杭州研究院的成果，依托專業(yè)音樂人、DJ、好友推薦及社交功能，在線音樂服務主打歌單、社交、大牌推薦和音樂指紋，以歌單、DJ節(jié)目、社交、地理位置為核心要素，主打發(fā)現(xiàn)和分享。對網(wǎng)易云音樂官網(wǎng)歌單部分進行爬取，對網(wǎng)易云音樂歌單進行數(shù)據(jù)獲取，獲取某一歌曲風格的所有歌單，并獲取歌單的名稱、標簽、介紹、收藏量、播放量、歌單收錄的歌曲數(shù)目，以及評論數(shù)。

1.2需求描述

對爬取到的數(shù)據(jù)進行預處理，在對預處理的數(shù)據(jù)進行分析，對歌單播放量、歌單收藏量、歌單評論量、歌單歌曲收錄情況，、歌單標簽，歌單貢獻up主等進行分析，并進行可視化，將分析結(jié)果更直觀的反映出來。

數(shù)據(jù)獲取

2.1數(shù)據(jù)源的選取

聽音樂音樂是當今很多年輕人抒發(fā)情感的方式，網(wǎng)易云音樂是一個大眾化的音樂平臺，可以通過對網(wǎng)易云音樂的歌單情況進行分析，從而了解到當今社會年輕人所面對的問題，以及各方面情感壓力；還可以了解到用戶的喜好，分析出什么樣的歌歌單最受大眾歡迎，還可以反應大眾的喜好，對音樂創(chuàng)作人的創(chuàng)作也有著很重要的作用。從廣大普通用戶的角度來看，對于歌單的創(chuàng)建者，創(chuàng)建歌單一方面便于對自己收藏的音樂曲庫進行分類管理，另一方面，生產(chǎn)出優(yōu)質(zhì)的歌單可以凸顯自己的音樂品味，收獲點贊與評論，得到極大的成就感與滿足感。而對于歌單的消費者來說，基于“歌單”聽歌可以大大地提升聽歌的用戶體驗。對于音樂人以及電臺主持等類型的歌單創(chuàng)建者來講，通過“歌單”可以更好地傳播自己的音樂與作品，也可以更好地與粉絲互動并擴大知名度。

本次項目爬取的是網(wǎng)易云官網(wǎng)華語歌單部分的數(shù)據(jù)，爬取地址為：華語歌單 - 歌單 - 網(wǎng)易云音樂

2.2數(shù)據(jù)的獲取

2.2.1 設計

進入每一個頁面，獲取該頁面的每一個歌單，進入單個歌單中，歌單名，收藏量，評論數(shù)，標簽，介紹，歌曲總數(shù)，播放量，收錄的歌名等數(shù)據(jù)都存放在網(wǎng)頁的同一個div內(nèi)，通過selector選擇器選擇各個內(nèi)容。

2.2.2 實現(xiàn)

from bs4 import BeautifulSoup  
import requests  
import time  
  
headers = {  
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'  
}  
  
for i in range(0, 1330, 35):  
    print(i)  
    time.sleep(2)  
    url = 'https://music.163.com/discover/playlist/?cat=華語&order=hot&limit=35&offset=' + str(i)#修改這里即可  
    response = requests.get(url=url, headers=headers)  
    html = response.text  
    soup = BeautifulSoup(html, 'html.parser')  
    # 獲取包含歌單詳情頁網(wǎng)址的標簽  
    ids = soup.select('.dec a')  
    # 獲取包含歌單索引頁信息的標簽  
    lis = soup.select('#m-pl-container li')  
    print(len(lis))  
    for j in range(len(lis)):  
        # 獲取歌單詳情頁地址  
        url = ids[j]['href']  
        # 獲取歌單標題  
        title = ids[j]['title']  
        # 獲取歌單播放量  
        play = lis[j].select('.nb')[0].get_text()  
        # 獲取歌單貢獻者名字  
        user = lis[j].select('p')[1].select('a')[0].get_text()  
        # 輸出歌單索引頁信息  
        print(url, title, play, user)  
        # 將信息寫入CSV文件中  
        with open('playlist.csv', 'a+', encoding='utf-8-sig') as f:  
            f.write(url + ',' + title + ',' + play + ',' + user + '\n')  
  
from bs4 import BeautifulSoup  
import pandas as pd  
import requests  
import time  
  
df = pd.read_csv('playlist.csv', header=None, error_bad_lines=False, names=['url', 'title', 'play', 'user'])  
  
headers = {  
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'  
}  
  
for i in df['url']:  
    time.sleep(2)  
    url = 'https://music.163.com' + i  
    response = requests.get(url=url, headers=headers)  
    html = response.text  
    soup = BeautifulSoup(html, 'html.parser')  
    # 獲取歌單標題  
    title = soup.select('h3')[0].get_text().replace(',', '，')  
    # 獲取標簽  
    tags = []  
    tags_message = soup.select('.u-tag i')  
    for p in tags_message:  
        tags.append(p.get_text())  
    # 對標簽進行格式化  
    if len(tags) > 1:  
        tag = '-'.join(tags)  
    else:  
        tag = tags[0]  
    # 獲取歌單介紹  
    if soup.select('#album-desc-more'):  
        text = soup.select('#album-desc-more')[0].get_text().replace('\n', '').replace(',', '，')  
    else:  
        text = '無'  
    # 獲取歌單收藏量  
    collection = soup.select('#content-operation i')[1].get_text().replace('(', '').replace(')', '')  
    # 歌單播放量  
    play = soup.select('.s-fc6')[0].get_text()  
    # 歌單內(nèi)歌曲數(shù)  
    songs = soup.select('#playlist-track-count')[0].get_text()  
    # 歌單評論數(shù)  
    comments = soup.select('#cnt_comment_count')[0].get_text()  
    # 輸出歌單詳情頁信息  
    print(title, tag, text, collection, play, songs, comments)  
    # 將詳情頁信息寫入CSV文件中  
    with open('music_message.csv', 'a+', encoding='utf-8') as f:  
        # f.write(title + '/' + tag + '/' + text + '/' + collection + '/' + play + '/' + songs + '/' + comments + '\n')  
        f.write(title + ',' + tag + ',' + text + ',' + collection + ',' + play + ',' + songs + ',' + comments + '\n')

2.2.3 效果

將相關(guān)內(nèi)容存放至相應的.csv文件中，music_message.csv文件中存放了獲取歌單的名稱、標簽、介紹、收藏量、播放量、歌單收錄的歌曲數(shù)目，以及評論數(shù)。playlist.csv文件中存放了歌單詳情頁地址，歌單標題，歌單播放量，以及歌單貢獻者名字。結(jié)果如圖2-1、2-2所示。

如何使用Python對網(wǎng)易云歌單數(shù)據(jù)分析及可視化

數(shù)據(jù)預處理

關(guān)于數(shù)據(jù)的清洗，實際上在上一部分抓取數(shù)據(jù)的過程中已經(jīng)做了一部分，包括：后臺返回的空歌單信息、重復數(shù)據(jù)的去重等。除此之外，還要進行一些清洗：將評論量數(shù)據(jù)統(tǒng)一格式等。

3.1 設計

將評論數(shù)中數(shù)據(jù)帶“萬”的數(shù)據(jù)，用“0000”替換“萬”便于后續(xù)的數(shù)據(jù)分析，將評論數(shù)中數(shù)據(jù)統(tǒng)計出錯的數(shù)據(jù)用“0”填充，不參與后續(xù)統(tǒng)計。

3.2 實現(xiàn)

df['collection'] = df['collection'].astype('string').str.strip()  
df['collection'] = [int(str(i).replace('萬','0000')) for i in df['collection']]  
df['text'] = [str(i)[3:] for i in df['text']]  
df['comments'] = [0 if '評論' in str(i).strip() else int(i) for i in df['comments']]

3.3 效果

如何使用Python對網(wǎng)易云歌單數(shù)據(jù)分析及可視化

數(shù)據(jù)分析及可視化

4.1 歌單播放量Top10

4.1.1 實現(xiàn)

df_play = df[['title','play']].sort_values('play',ascending=False)  
df_play[:10]  
df_play = df_play[:10]  
_x = df_play['title'].tolist()  
_y = df_play['play'].tolist()  
df_play = get_matplot(x=_x,y=_y,chart='barh',title='網(wǎng)易云音樂華語歌單播放 TOP10',ha='left',size=8,color=color[0])  
df_play

4.1.2 結(jié)果

如何使用Python對網(wǎng)易云歌單數(shù)據(jù)分析及可視化

4.1.3 可視化

如何使用Python對網(wǎng)易云歌單數(shù)據(jù)分析及可視化

4.2 歌單收藏量Top10

4.2.1 實現(xiàn)

df_col = df[['title','collection']].sort_values('collection',ascending=False)  
df_col[:10]  
df_col = df_col[:10]  
_x = df_col['title'].tolist()  
_y = df_col['collection'].tolist()  
df_col = get_matplot(x=_x,y=_y,chart='barh',title='網(wǎng)易云音樂華語歌單收藏 TOP10',ha='left',size=8,color=color[1])  
df_col

4.2.2 結(jié)果

如何使用Python對網(wǎng)易云歌單數(shù)據(jù)分析及可視化

4.2.3 可視化

如何使用Python對網(wǎng)易云歌單數(shù)據(jù)分析及可視化

4.3 歌單評論數(shù)Top10

4.3.1 實現(xiàn)

df_com = df[['title','comments']].sort_values('comments',ascending=False)  
df_com[:10]  
df_com = df_com[:10]  
_x = df_com['title'].tolist()  
_y = df_com['comments'].tolist()  
df_com = get_matplot(x=_x,y=_y,chart='barh',title='網(wǎng)易云音樂華語歌單評論數(shù) TOP10',ha='left',size=8,color=color[2])  
df_com

4.3.2 結(jié)果

如何使用Python對網(wǎng)易云歌單數(shù)據(jù)分析及可視化

4.3.3 可視化

如何使用Python對網(wǎng)易云歌單數(shù)據(jù)分析及可視化

4.4 歌單歌曲收錄情況分布

4.4.1 實現(xiàn)

df_songs = np.log(df['songs'])  
df_songs  
df_songs = get_matplot(x=0,y=df_songs,chart='hist',title='華語歌單歌曲收錄分布情況',ha='left',size=10,color=color[3])  
df_songs

4.4.2 效果及可視化

如何使用Python對網(wǎng)易云歌單數(shù)據(jù)分析及可視化

4.4.3 分析

通過對柱形圖分析發(fā)現(xiàn)，歌單對歌曲的收錄情況多數(shù)集中在20-60首歌曲，至多超過80首，也存在空歌單現(xiàn)象，但絕大多數(shù)歌單收錄歌曲均超過10首左右。通過本次可視化分析可以使得后續(xù)創(chuàng)作者對自己創(chuàng)作歌單的歌曲收錄情況提供幫助。也能夠更受大眾歡迎。

4.5 歌單標簽圖

4.5.1 實現(xiàn)

def get_tag(df):  
    df = df['tag'].str.split('-')  
    datalist = list(set(x for data in df for x in data))  
    return  datalist  
df_tag = get_tag(df)  
# df_tag  
def get_lx(x,i):  
    if i in str(x):  
        return 1  
    else:  
        return 0  
for i in list(df_tag):#這里的df['all_category'].unique()也可以自己用列表構(gòu)建，我這里是利用了前面獲得的  
    df[i] = df['tag'].apply(get_lx,i=f'{i}')  
# df.head()  
Series = df.iloc[:,7:].sum().sort_values(0,ascending=False)  
df_tag = [tag for tag in zip(Series.index.tolist(),Series.values.tolist())]  
df_tag[:10]  
df_iex = [index for index in Series.index.tolist()][:20]  
df_tag = [tag for tag in Series.values.tolist()][:20]  
df_tagiex = get_matplot(x=df_iex,y=df_tag,chart='plot',title='網(wǎng)易云音樂華語歌單標簽圖',size=10,ha='center',color=color[3])  
df_tagiex

4.5.2 結(jié)果

如何使用Python對網(wǎng)易云歌單數(shù)據(jù)分析及可視化

4.5.3 可視化

如何使用Python對網(wǎng)易云歌單數(shù)據(jù)分析及可視化

4.5.4 分析

可以通過此標簽圖看出歌單的風格，可以分析出目前的主流歌曲的情感，以及大眾的需求，也網(wǎng)易云音樂用戶的音樂偏好，據(jù)此可以看出，網(wǎng)易云音樂用戶，在音樂偏好上比較多元化：國內(nèi)流行、歐美流行、電子、等各種風格均有涉及。

4.6 歌單貢獻up主Top10

4.6.1 實現(xiàn)

df_user = pd.read_csv('playlist.csv',encoding="unicode_escape",header=0,names=['url','title','play','user'],sep=',')  
df_user.shape  
df_user = df_user.iloc[:,1:]  
df_user['count'] = 0  
df_user = df_user.groupby('user',as_index=False)['count'].count()  
df_user = df_user.sort_values('count',ascending=False)[:10]  
df_user  
df_user = df_user[:10]  
names = df_user['user'].tolist()  
nums = df_user['count'].tolist()  
df_u = get_matplot(x=names,y=nums,chart='barh',title='歌單貢獻UP主 TOP10',ha='left',size=10,color=color[4])  
df_u

4.6.2 結(jié)果

如何使用Python對網(wǎng)易云歌單數(shù)據(jù)分析及可視化

4.6.3 可視化

如何使用Python對網(wǎng)易云歌單數(shù)據(jù)分析及可視化

4.7歌單名生成詞云

4.7.1 實現(xiàn)

import wordcloud  
import pandas as pd  
import numpy as np  
from PIL import Image  
data = pd.read_excel('music_message.xlsx')  
#根據(jù)播放量排序，只取前五十個  
data = data.sort_values('play',ascending=False).head(50)  
  
#font_path指明用什么樣的字體風格，這里用的是電腦上都有的微軟雅黑  
w1 = wordcloud.WordCloud(width=1000,height=700,  
                         background_color='black',  
                         font_path='msyh.ttc')  
txt = "\n".join(i for i in data['title'])  
w1.generate(txt)  
w1.to_file('F:\\詞云.png')

4.7.2 結(jié)果及可視化

如何使用Python對網(wǎng)易云歌單數(shù)據(jù)分析及可視化

4.8 代碼實現(xiàn)

為了簡化代碼，構(gòu)建了通用函數(shù)

get_matplot(x,y,chart,title,ha,size,color)

x表示充當x軸數(shù)據(jù)；

y表示充當y軸數(shù)據(jù)；

chart表示圖標類型，這里分為三種barh、hist、squarify.plot；

ha表示文本相對朝向；

size表示字體大??；

color表示圖表顏色；

def get_matplot(x,y,chart,title,ha,size,color):  
    # 設置圖片顯示屬性,字體及大小  
    plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']  
    plt.rcParams['font.size'] = size  
    plt.rcParams['axes.unicode_minus'] = False  
    # 設置圖片顯示屬性  
    fig = plt.figure(figsize=(16, 8), dpi=80)  
    ax = plt.subplot(1, 1, 1)  
    ax.patch.set_color('white')  
    # 設置坐標軸屬性  
    lines = plt.gca()  
    # 設置顯示數(shù)據(jù)  
    if x ==0:  
        pass  
    else:  
        x.reverse()  
        y.reverse()  
        data = pd.Series(y, index=x)  
    # 設置坐標軸顏色  
    lines.spines['right'].set_color('none')  
    lines.spines['top'].set_color('none')  
    lines.spines['left'].set_color((64/255, 64/255, 64/255))  
    lines.spines['bottom'].set_color((64/255, 64/255, 64/255))  
    # 設置坐標軸刻度  
    lines.xaxis.set_ticks_position('none')  
    lines.yaxis.set_ticks_position('none')  
    if chart == 'barh':  
        # 繪制柱狀圖,設置柱狀圖顏色  
        data.plot.barh(ax=ax, width=0.7, alpha=0.7, color=color)  
        # 添加標題,設置字體大小  
        ax.set_title(f'{title}', fontsize=18, fontweight='light')  
        # 添加歌曲出現(xiàn)次數(shù)文本  
        for x, y in enumerate(data.values):  
            plt.text(y+0.3, x-0.12, '%s' % y, ha=f'{ha}')  
    elif chart == 'hist':  
        # 繪制直方圖,設置柱狀圖顏色  
        ax.hist(y, bins=30, alpha=0.7, color=(21/255, 47/255, 71/255))  
        # 添加標題,設置字體大小  
        ax.set_title(f'{title}', fontsize=18, fontweight='light')  
    elif chart == 'plot':  
        colors = ['#adb0ff', '#ffb3ff', '#90d595', '#e48381', '#aafbff', '#f7bb5f', '#eafb50',  
         '#adb0ff', '#ffb3ff', '#90d595', '#e48381', '#aafbff', '#f7bb5f', '#eafb50',  
         '#adb0ff', '#ffb3ff', '#90d595', '#e48381', '#aafbff', '#f7bb5f', '#eafb50',  
         '#adb0ff', '#ffb3ff', '#90d595', '#e48381', '#aafbff', '#f7bb5f', '#eafb50',  
         '#adb0ff', '#ffb3ff', '#90d595', '#e48381', '#aafbff', '#f7bb5f', '#eafb50',  
          '#adb0ff', '#ffb3ff', '#90d595', '#e48381', '#aafbff', '#f7bb5f', '#eafb50',  
          '#adb0ff', '#ffb3ff', '#90d595', '#e48381', '#aafbff']  
        plot = squarify.plot(sizes=y, label=x, color=colors, alpha=1, value=y, edgecolor='white', linewidth=1.5)  
        # 設置標簽大小為1  
        plt.rc('font', size=6)  
        # 設置標題大小  
        plot.set_title(f'{title}', fontsize=13, fontweight='light')  
        # 除坐標軸  
        plt.axis('off')  
        # 除上邊框和右邊框刻度  
        plt.tick_params(top=False, right=False)  
    # 顯示圖片  
    plt.show()  
#構(gòu)建color序列  
color = [(153/255, 0/255, 102/255),(8/255, 88/255, 121/255),(160/255, 102/255, 50/255),(136/255, 43/255, 48/255),(16/255, 152/255, 168/255),(153/255, 0/255, 102/255)]

關(guān)于“如何使用Python對網(wǎng)易云歌單數(shù)據(jù)分析及可視化”這篇文章的內(nèi)容就介紹到這里，感謝各位的閱讀！相信大家對“如何使用Python對網(wǎng)易云歌單數(shù)據(jù)分析及可視化”知識都有一定的了解，大家如果還想學習更多知識，歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細節(jié)

如何使用Python對網(wǎng)易云歌單數(shù)據(jù)分析及可視化

項目概述

1.1項目來源

1.2需求描述

數(shù)據(jù)獲取

2.1數(shù)據(jù)源的選取

2.2數(shù)據(jù)的獲取

2.2.1 設計

2.2.2 實現(xiàn)

2.2.3 效果

數(shù)據(jù)預處理

3.1 設計

3.2 實現(xiàn)

3.3 效果

數(shù)據(jù)分析及可視化

4.1 歌單播放量Top10

4.1.1 實現(xiàn)

4.1.2 結(jié)果

4.1.3 可視化

4.2 歌單收藏量Top10

4.2.1 實現(xiàn)

4.2.2 結(jié)果

4.2.3 可視化

4.3 歌單評論數(shù)Top10

4.3.1 實現(xiàn)

4.3.2 結(jié)果

4.3.3 可視化

4.4 歌單歌曲收錄情況分布

4.4.1 實現(xiàn)

4.4.2 效果及可視化

4.4.3 分析

4.5 歌單標簽圖

4.5.1 實現(xiàn)

4.5.2 結(jié)果

4.5.3 可視化

4.5.4 分析

4.6 歌單貢獻up主Top10

4.6.1 實現(xiàn)

4.6.2 結(jié)果

4.6.3 可視化

4.7歌單名生成詞云

4.7.1 實現(xiàn)

4.7.2 結(jié)果及可視化

4.8 代碼實現(xiàn)

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標簽