溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

Python利用pandas庫實現(xiàn)合并Excel的方法

發(fā)布時間：2020-11-05 15:08:48 來源：億速云閱讀：197 作者：Leah 欄目：開發(fā)技術(shù)

Python利用pandas庫實現(xiàn)合并Excel的方法？很多新手對此不是很清楚，為了幫助大家解決這個難題，下面小編將為大家詳細講解，有這方面需求的人可以來學習下，希望你能有所收獲。

前言

在網(wǎng)上找了很多Python處理Excel的方法和代碼，都不是很盡人意，所以自己綜合網(wǎng)上各位大佬的方法，自己進行了優(yōu)化，具體的代碼如下。

博主也是新手一枚，代碼肯定有很多需要優(yōu)化的地方，歡迎各位大佬提出建議~

代碼我自己已經(jīng)用了一段時間，可以直接拿去用

主要功能

按行合并，即保留固定的表頭（如前幾行），實現(xiàn)多個Excel相同格式相同名字的表單按縱軸合并；
按列合并。即保留固定的首列，實現(xiàn)多個Excel相同格式相同名字的表單按橫軸合并；
表單集成，實現(xiàn)不同Excel中相同sheet的集成（即不匯總，僅集成到同一個新的Excel中）。此處的代碼稍微改一下即可實現(xiàn)不同Excel中所有sheet的集成；
自動檢測所需合并的sheet名稱是否出現(xiàn)在所有的目標文件中，如果不是則予以提示；
sheet選擇、表頭選擇、功能選擇界面實現(xiàn)可視化；
合并后進行簡單的缺省值處理、格式處理
解決MacOS系統(tǒng)下文件目錄中出現(xiàn).DS_Store隱藏文件導致程序出錯的bug。
用到的庫

pandas 、tkinter 、 pathlib、os 、 xlrd

代碼

import pandas as pd
import tkinter as tk
from tkinter import filedialog
import pathlib
import os
import xlrd

# 選擇文件夾對話框，窗口交互，打開選擇窗口
filedirectory = filedialog.askdirectory()
p1 = pathlib.Path(filedirectory) # 該部分主要為了獲取目標路徑下的文件名
print(p1)
bookname1 = os.listdir(p1) # 返回目標文件夾下的所有文件名
if ".DS_Store" in bookname1:
 bookname1.remove('.DS_Store')

# 刪除文件名里的.xlsx
bookname = []
for n in bookname1:
 n1 = list(n) # 把字符變成列表
 for i in range(5): # 因為去除的是.XSLX，5個字符，可以根據(jù)實際需要修改
  n1.pop() # 依次刪除最后一個元素
 n2 = ''.join(n1) # 把列表變成字符
 bookname.append(n2)

excles = p1.rglob('*.xlsx') # 類似于os.work，能夠返回目標路徑下的文件路徑，并且可以添加條件
excelarr = []
for eachexcel in excles:
 excelarr.append(eachexcel) # 創(chuàng)建目標路徑下特定文件名的列表

# 建立一個交互窗口
windows = tk.Tk()
windows.title('請?zhí)峁┤缦滦畔?#39;) # 設(shè)置文本框的標題
windows.geometry('1000x300') # 設(shè)置界面的大小
# tk.Label(windows, text='你好！this is Tkinter', bg='green', font=('Arial', 12), width=30, height=2)
# 說明：bg為背景，font為字體，width為長，height為高，這里的長和高是字符的長和高，比如height=2,就是標簽有2個字符這么高)
tk.Label(windows, text='請輸入想要合并的sheet名稱：').grid(row=0, column=0) # label用來顯示不可編輯的文本和圖標（提示性文字）
tk.Label(windows, text='請輸入想要確定的表頭行數(shù)：').grid(row=1, column=0)
tk.Label(windows, text='請輸入您想實現(xiàn)的功能，1為按行合并sheet，2為按列合并sheet，3為sheet匯總：').grid(row=2, column=0)
# Listbox(dict={}) # 創(chuàng)建可選下拉框
e1 = tk.Entry(windows) # 創(chuàng)建輸入框
e2 = tk.Entry(windows) # 創(chuàng)建第2個輸入框
e3 = tk.Entry(windows)
e1.grid(row=0, column=1, padx=10, pady=5)
e2.grid(row=1, column=1, padx=10, pady=5)
e3.grid(row=2, column=1, padx=10, pady=5)
tk.Button(windows, text='點擊繼續(xù)', width=10, command=windows.quit) \
   .grid(row=4, column=1, sticky=tk.E, padx=10, pady=5) # sticky表示方位，NSWE為上下左右
tk.mainloop() # 結(jié)束循環(huán)
# 為變量賦值
word = str(e1.get())
number = int(e2.get()) - 1
choice = int(e3.get())

# 檢查想要處理的sheet是否在所有的目標文件中
file_list = os.listdir(p1)
file_list.remove('.DS_Store') # 移除Mac系統(tǒng)自動生成的文件
for file in file_list: # 循環(huán)遍歷列出所有文件名稱
 file_name = os.path.join(p1, file) # 因os.listdir工具返回的是目標文件夾里文件的名字，然而打開文件需要文件路徑+名字，故通過此工具獲取完整的文件名
 workbook = xlrd.open_workbook(file_name) # 打開遍歷的文件
 if word in workbook.sheet_names():
  continue
 else:
  print(str(file) + '中不存在想要合并的sheet')

if choice == 2:
 p1 = pd.ExcelFile(excelarr[0]) # 讀取獲取到的第一個文件名對應的文件
 mergedata1 = p1.parse(header=number, sheet_name=word).iloc[:, 0] # 設(shè)置索引為第一行，如果為index_col，則索引為第一列 iloc為取特定的列
 p2 = []
 for i in range(0, len(excelarr)):
  tmp = pd.ExcelFile(excelarr[i]) # 讀取文件
  currentdata = tmp.parse(header=number, sheet_name=word).iloc[:, [1, 2, 3, 4]] # 讀取特定的列
  mergedata1 = pd.concat([mergedata1, currentdata], axis=1) # concat連接函數(shù)，唯一必須的參數(shù)是參與連接的對象的列表或字典。axis=1，表示可以按照縱軸來合并
  n = currentdata.shape[1] # 返回Dataframe的行數(shù)，1為返回列數(shù)
  p2.append(n) # 獲取讀取文件的行數(shù)列表
 name_list = []
 i = 0
 # 獲取應插入的文件名的列表
 for a1 in bookname:
  for x in range(p2[i]):
   name_list.append(a1)
  i = i + 1
 name_list.insert(0, '來自表格')
 mergedata1.loc[-1] = name_list # 按行插入

if choice == 1:
 p1 = pd.ExcelFile(excelarr[0]) # 讀取獲取到的第一個文件名對應的文件
 mergedata1 = p1.parse(header=number, sheet_name=word) # 設(shè)置索引為第一行，如果為index_col，則索引為第一列
 p2 = []
 p2.append(mergedata1.shape[0])
 for i in range(1, len(excelarr)):
  tmp = pd.ExcelFile(excelarr[i]) # 讀取文件
  currentdata = tmp.parse(header=number, sheet_name=word) # 讀取特定的表
  mergedata1 = pd.concat([mergedata1, currentdata]) # concat連接函數(shù)，唯一必須的參數(shù)是參與連接的對象的列表或字典。axis=1，表示可以按照縱軸來合并
  n = currentdata.shape[0] # 返回Dataframe的行數(shù)，1為返回列數(shù)
  p2.append(n) # 獲取讀取文件的行數(shù)列表
 name_list = []
 i = 0
 # 獲取應插入的文件名的列表
 for a1 in bookname:
  for x in range(p2[i]):
   name_list.append(a1)
  i = i + 1
 mergedata1.insert(0, '來自表格', name_list) # 插入第一列，作為表格數(shù)據(jù)來源的注釋

if choice == 3:
 i = 0
 fname = tk.filedialog.asksaveasfilename(title=u'保存文件', filetypes=[("excel", ".xlsx")])
 # fideialog的一個方法，可以實現(xiàn)數(shù)據(jù)儲存是要保存的名字
 writerExcel = pd.ExcelWriter(fname+'.xlsx') # 寫入到一個新的Excel，并且命名為上一步驟確認的名字
 for name in bookname:
  p1 = pd.ExcelFile(excelarr[i])
  mergedata1 = p1.parse(header=number, sheet_name=word) # 設(shè)置索引為第一行，如果為index_col，則索引為第一列
  # mergedata1.dropna(thresh=4, inplace=True) # 必須使用inplace才可以使數(shù)據(jù)庫記住刪除的單元格
  # mergedata1.dropna(axis='columns', how='all') # 刪除全是缺失值的列
  mergedata1.fillna('0') # 將所有缺失值填充為0
  mergedata1.to_excel(writerExcel, sheet_name=name, index=False) # 新建一個sheet儲存信息
  i = i + 1

if choice != 3:
 # 數(shù)據(jù)清理
 mergedata1.dropna(thresh=4, inplace=True) # 必須使用inplace才可以使數(shù)據(jù)庫記住刪除的單元格
 mergedata1.dropna(axis='columns', how='all') # 刪除全是缺失值的列
 mergedata1.fillna('0') # 將所有缺失值填充為0
 # 保存至excel
 fname = tk.filedialog.asksaveasfilename(title=u'保存文件',
           filetypes=[("excel", ".xlsx")]) # fideialog的一個方法，可以實現(xiàn)數(shù)據(jù)儲存是要保存的名字
 writerExcel = pd.ExcelWriter(fname + '.xlsx') # 寫入到一個新的Excel，并且命名為上一步驟確認的名字
 mergedata1.to_excel(writerExcel, sheet_name='匯總表', index=False) # 將之前匯總的farmdate數(shù)據(jù)通過to excel寫入到Excel中

# 設(shè)置格式
sheetname = writerExcel.sheets
workbook = writerExcel.book
for sheets in sheetname:
 worksheet = writerExcel.sheets[sheets]
 format1 = workbook.add_format({'num_format': '###,##0.00', })
 # 通過xlsxwriter模塊命名format1的格式，對于數(shù)字內(nèi)容，每三位進行一個分隔符，并且保留兩位小數(shù)。#.00%為保留兩位小數(shù)的百分數(shù).border為邊框。最后為文本換行和居中
 # format2 = workbook.add_format({'bold': True, 'italic': True}) # 加粗、斜體
 worksheet.set_column('A:ZZ', 16, format1) # 將上述定義的格式應用到具體的單元格
 # worksheet.set_row(0, 16, format2) # 將特定格式用于表頭

writerExcel.save() # 保存Excel
print('success')

看完上述內(nèi)容是否對您有幫助呢？如果還想對相關(guān)知識有進一步的了解或閱讀更多相關(guān)文章，請關(guān)注億速云行業(yè)資訊頻道，感謝您對億速云的支持。

向AI問一下細節(jié)

推薦閱讀：

免責聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
Word中的空白段落使用Java 實現(xiàn)批量刪除的方法
下一篇新聞：
使用Django如何開發(fā)測試接口和跨域

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機網(wǎng)站二維碼

<video id="ogbrl"><sup id="ogbrl"></sup></video>