溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

怎么用Python分析全網(wǎng)取暖器數(shù)據(jù)

發(fā)布時間:2021-11-23 16:28:00 來源:億速云 閱讀:157 作者:iii 欄目:大數(shù)據(jù)

本篇內(nèi)容主要講解“怎么用Python分析全網(wǎng)取暖器數(shù)據(jù)”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學(xué)習(xí)“怎么用Python分析全網(wǎng)取暖器數(shù)據(jù)”吧!

用Python分析全網(wǎng)取暖器數(shù)據(jù)

我們使用Python獲取了淘寶網(wǎng)搜索關(guān)鍵詞暖氣片、取暖器、壁掛爐的商品數(shù)據(jù),并進行了數(shù)據(jù)分析。

讀取數(shù)據(jù)

首先導(dǎo)入獲取的數(shù)據(jù)。

# 導(dǎo)入工具包
import numpy as np 
import pandas as pd 

from pyecharts.charts import Bar, Pie, Map, Page
from pyecharts import options as opts

import jieba 

# 讀取數(shù)據(jù)
df_all = pd.read_csv('../data/導(dǎo)出數(shù)據(jù).csv')
df_all.head()

怎么用Python分析全網(wǎng)取暖器數(shù)據(jù)

df_all.shape
(13212, 7)

數(shù)據(jù)清洗和整理

此處我們需要對數(shù)據(jù)集進行數(shù)據(jù)清洗以便后續(xù)分析和可視化,主要工作內(nèi)容如下:

  • 刪除記錄的重復(fù)值

  • goods_price列處理:提取數(shù)值

  • purchase_num列處理:提取數(shù)值

  • 計算銷售額sales_volume = goods_price*purchase_num

  • 刪除多余的列

代碼實現(xiàn)如下:

df = df_all.copy()
# 去除重復(fù)值
df.drop_duplicates(inplace=True)
df.shape
(6849, 7)

# 篩選記錄
df = df[df['purchase_num'].str.contains('人付款')]

# goods_price列處理
df['goods_price'] = df['goods_price'].str.extract('(\d+\.{0,1}\d*)')  
df['goods_price'] = df['goods_price'].astype('float')

# purchase_num列處理
df['num'] = df['purchase_num'].str.extract('(\d+\.{0,1}\d*)')
df['num'] = df['num'].astype('float') 
df['unit'] = [10000 if '萬' in i else 1 for i in df['purchase_num']]

# 計算銷量
df['purchase_num'] = df['num'] * df['unit']

# 計算銷售額
df['sales_volume'] = df['goods_price'] * df['purchase_num']

# 提取省份字段 
df['province_name'] = df['location'].astype('str').str.split(' ').apply(lambda x:x[0]) 

# 刪除多余的列
df.drop(['num', 'unit', 'detail_url'], axis=1, inplace=True)

# 重置索引
df = df.reset_index(drop=True)
df.head()

怎么用Python分析全網(wǎng)取暖器數(shù)據(jù)

可以看到"取暖器">

接著,看到店鋪月銷量排名Top10。

店鋪月銷量排名Top10

怎么用Python分析全網(wǎng)取暖器數(shù)據(jù)

可以看到店鋪銷量前十,凱瑞萊旗艦店位居第一。其后春尚電器專營店和蘇寧易購分別是第二第三名。排在前十的還有美的、tcl等品牌。

# 計算top10店鋪
shop_top10 = df.groupby('shop_name')['purchase_num'].sum().sort_values(ascending=False).head(10)

全國各省份產(chǎn)地銷量排名Top10

這些取暖器的產(chǎn)地都在哪兒呢?經(jīng)過分析發(fā)現(xiàn),浙江是生產(chǎn)取暖器的頭號大省,在產(chǎn)地銷量排名中一騎絕塵位居第一。之后排在第二位的是廣東。湖南、江蘇、山東分別位居第三第四第五名。

# 計算銷量top10
province_top10 = df.groupby('province_name')['purchase_num'].sum().sort_values(ascending=False).head(10)

不同價格區(qū)間的商品數(shù)量占比

怎么用Python分析全網(wǎng)取暖器數(shù)據(jù)

取暖器都賣多少錢呢?經(jīng)過分析發(fā)現(xiàn),100元以下的商品是最多占比高達34.76%。其次是200-500元的商品,占比22.09%。

不同價格區(qū)間的銷量占比

與此同時,在銷量方面,價格在100元以下和100-200元之間的取暖產(chǎn)品也是銷量最好的,全網(wǎng)銷售量分別占比37.49%和35.92%。

到此,相信大家對“怎么用Python分析全網(wǎng)取暖器數(shù)據(jù)”有了更深的了解,不妨來實際操作一番吧!這里是億速云網(wǎng)站,更多相關(guān)內(nèi)容可以進入相關(guān)頻道進行查詢,關(guān)注我們,繼續(xù)學(xué)習(xí)!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI