您好,登錄后才能下訂單哦!
本篇內(nèi)容主要講解“Python如何利用Pandas處理復(fù)雜的Excel數(shù)據(jù)”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“Python如何利用Pandas處理復(fù)雜的Excel數(shù)據(jù)”吧!
問題緣起
pandas read_excel函數(shù)在讀取Excel工作表方面做得很好。但是,如果數(shù)據(jù)不是從頭開始,不是從單元格A1開始的連續(xù)表格,則結(jié)果會不是很好。比如下面一個銷售表,使用read_excel讀?。?/p>
讀取的結(jié)果如下所示:
結(jié)果中標題表頭變成了Unnamed,而且還會額外增加很多職位NaN列,字段為空的列的值也會被轉(zhuǎn)換為NaN,這顯然不是我們所期望的。
header和usecols參數(shù)
對這樣的非標準格式的表格,我們可以使用read_excel()的header和usecols參數(shù)來控制選擇的需要讀取的列。
import pandas as pd from pathlib import Path src_file = 'sales.xlsx'
結(jié)果的DataFrame包含了我們期望的數(shù)據(jù)。
代碼中使用header和usecols參數(shù)設(shè)定了用于顯示標題的列和需要讀取的字段:
header參數(shù)為一個整數(shù),從0開始索引,其為選擇的行,比如1表示Excel中的第2行。
usecols參數(shù)設(shè)定選擇的Excel列范圍范圍(A-…),例如,B:F表示讀取B到F列。
在某些情況下,可能希望將列定義為數(shù)字列表。比如,可以定義整數(shù)列數(shù):
df = pd.read_excel(src_file, header=1, usecols=[1,2,3,4,5])
這對對大型數(shù)據(jù)集(例如,每3列或僅偶數(shù)列)要遵循一定的數(shù)字模式,則這個參數(shù)方法會很有用。
usecols還可以設(shè)定從列名列表讀取。比如上面的例子也可以這樣寫:
df = pd.read_excel( src_file, header=1, usecols=['item_type', 'order id', 'order date', 'state', 'priority'])
列順序支持自由選擇,這種命名列列表的方式實際中很有用。
usecols支持一個回調(diào)函數(shù)column_check,可通過該函數(shù)對數(shù)據(jù)進行處理。
下面是一個簡單的示例:
def column_check(x): if 'unnamed' in x.lower(): return False if 'priority' in x.lower(): return False if 'order' in x.lower(): return True return True
df = pd.read_excel(src_file, header=1, usecols=column_check)
column_check按名稱解析每列,每列通過定義True或False,來選擇是否讀取。
usecols也可以使用lambda表達式。下面的示例中定義的需要顯示的字段列表。為了進行比較,通過將名稱轉(zhuǎn)換為小寫來規(guī)范化。
cols_to_use = ['item_type', 'order id', 'order date', 'state', 'priority'] df = pd.read_excel(src_file, header=1, usecols=lambda x: x.lower() in cols_to_use)
回調(diào)函數(shù)為我們提供了許多靈活性,可以處理Excel文件的實際混亂情況。
關(guān)于read_exce函數(shù)更多參數(shù)可以查看官方文檔,下面是一個總結(jié)表格:
結(jié)合openpyxl
在某些情況下,數(shù)據(jù)甚至可能在Excel中變得更加復(fù)雜。在下面示例中,我們有一個ship_cost要讀取的表。如果必須使用這樣的文件,那么只用pandas函數(shù)和選項也很難做到。在這種情況下,可以直接使用openpyxl解析文件并將數(shù)據(jù)轉(zhuǎn)換為pandas DataFrame。比如要讀取下面示例的數(shù)據(jù):
from openpyxl import load_workbook import pandas as pd from pathlib import Path src_file = ' sales1.xlsx'
加載整個工作簿:
cc = load_workbook(filename = src_file)
查看所有工作表:
cc.sheetnames
['sales', 'shipping_rates']
要訪問特定的工作表:
sheet = cc['shipping_rates']
要查看所有命名表的列表:
sheet.tables.keys()
dict_keys(['ship_cost'])
該鍵對應(yīng)于Excel中分配給表的名稱。這樣就可以設(shè)定要讀取的Excel范圍:
lookup_table = sheet.tables['ship_cost']
lookup_table.ref
'C8:E16'
這樣就獲得了要加載的數(shù)據(jù)范圍。最后將其轉(zhuǎn)換為pandas DataFrame即可。遍歷每一行并轉(zhuǎn)換為DataFrame:
data = sheet[lookup_table.ref] rows_list = [] for row in data: cols = [] for col in row: cols.append(col.value) rows_list.append(cols) df = pd.DataFrame(data=rows_list[1:], index=None, columns=rows_list[0])
結(jié)果數(shù)據(jù)框:
到此,相信大家對“Python如何利用Pandas處理復(fù)雜的Excel數(shù)據(jù)”有了更深的了解,不妨來實際操作一番吧!這里是億速云網(wǎng)站,更多相關(guān)內(nèi)容可以進入相關(guān)頻道進行查詢,關(guān)注我們,繼續(xù)學習!
免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。