您好,登錄后才能下訂單哦!
本篇內(nèi)容主要講解“怎么用Python分析全網(wǎng)取暖器數(shù)據(jù)”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學(xué)習(xí)“怎么用Python分析全網(wǎng)取暖器數(shù)據(jù)”吧!
我們使用Python獲取了淘寶網(wǎng)搜索關(guān)鍵詞暖氣片、取暖器、壁掛爐的商品數(shù)據(jù),并進行了數(shù)據(jù)分析。
首先導(dǎo)入獲取的數(shù)據(jù)。
# 導(dǎo)入工具包 import numpy as np import pandas as pd from pyecharts.charts import Bar, Pie, Map, Page from pyecharts import options as opts import jieba # 讀取數(shù)據(jù) df_all = pd.read_csv('../data/導(dǎo)出數(shù)據(jù).csv') df_all.head()
df_all.shape (13212, 7)
此處我們需要對數(shù)據(jù)集進行數(shù)據(jù)清洗以便后續(xù)分析和可視化,主要工作內(nèi)容如下:
刪除記錄的重復(fù)值
goods_price列處理:提取數(shù)值
purchase_num列處理:提取數(shù)值
計算銷售額sales_volume = goods_price*purchase_num
刪除多余的列
代碼實現(xiàn)如下:
df = df_all.copy() # 去除重復(fù)值 df.drop_duplicates(inplace=True) df.shape (6849, 7) # 篩選記錄 df = df[df['purchase_num'].str.contains('人付款')] # goods_price列處理 df['goods_price'] = df['goods_price'].str.extract('(\d+\.{0,1}\d*)') df['goods_price'] = df['goods_price'].astype('float') # purchase_num列處理 df['num'] = df['purchase_num'].str.extract('(\d+\.{0,1}\d*)') df['num'] = df['num'].astype('float') df['unit'] = [10000 if '萬' in i else 1 for i in df['purchase_num']] # 計算銷量 df['purchase_num'] = df['num'] * df['unit'] # 計算銷售額 df['sales_volume'] = df['goods_price'] * df['purchase_num'] # 提取省份字段 df['province_name'] = df['location'].astype('str').str.split(' ').apply(lambda x:x[0]) # 刪除多余的列 df.drop(['num', 'unit', 'detail_url'], axis=1, inplace=True) # 重置索引 df = df.reset_index(drop=True) df.head()
可以看到"取暖器">
接著,看到店鋪月銷量排名Top10。
可以看到店鋪銷量前十,凱瑞萊旗艦店位居第一。其后春尚電器專營店和蘇寧易購分別是第二第三名。排在前十的還有美的、tcl等品牌。
# 計算top10店鋪 shop_top10 = df.groupby('shop_name')['purchase_num'].sum().sort_values(ascending=False).head(10)
這些取暖器的產(chǎn)地都在哪兒呢?經(jīng)過分析發(fā)現(xiàn),浙江是生產(chǎn)取暖器的頭號大省,在產(chǎn)地銷量排名中一騎絕塵位居第一。之后排在第二位的是廣東。湖南、江蘇、山東分別位居第三第四第五名。
# 計算銷量top10 province_top10 = df.groupby('province_name')['purchase_num'].sum().sort_values(ascending=False).head(10)
取暖器都賣多少錢呢?經(jīng)過分析發(fā)現(xiàn),100元以下的商品是最多占比高達34.76%。其次是200-500元的商品,占比22.09%。
與此同時,在銷量方面,價格在100元以下和100-200元之間的取暖產(chǎn)品也是銷量最好的,全網(wǎng)銷售量分別占比37.49%和35.92%。
到此,相信大家對“怎么用Python分析全網(wǎng)取暖器數(shù)據(jù)”有了更深的了解,不妨來實際操作一番吧!這里是億速云網(wǎng)站,更多相關(guān)內(nèi)容可以進入相關(guān)頻道進行查詢,關(guān)注我們,繼續(xù)學(xué)習(xí)!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。