溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

python執(zhí)行較大excel文件openpyxl慢怎么辦

發(fā)布時間:2020-07-27 10:09:00 來源:億速云 閱讀:449 作者:小豬 欄目:開發(fā)技術(shù)

小編這次要給大家分享的是python執(zhí)行較大excel文件openpyxl慢怎么辦,文章內(nèi)容豐富,感興趣的小伙伴可以來了解一下,希望大家閱讀完這篇文章之后能夠有所收獲。

我就廢話不多說了,大家還是直接看代碼吧!

talk is cheap

  from openpyxl import Workbook
  from openpyxl.utils import get_column_letter
  from openpyxl import load_workbook
  import time
  wb = load_workbook("E:/a.xlsx", read_only=True)
  sh = wb["Sheet"]
  # rowItem = {}
  # for j in range(1,2000):
  #   for i in range(1, 30):
  #     rowItem[get_column_letter(i)] = i
  #   sh.append(rowItem)
  # wb.save("E:/a.xlsx")
  t0 = time.time()
  print(sh['V500'].value)
  t1 = time.time()
  print("openpyxl所用時間:", str(t1-t0))

  import xlrd
  xlsPath = "E:/a.xlsx"
  WorkBook = xlrd.open_workbook(xlsPath)
  sh = WorkBook.sheet_by_name("Sheet")

  t0 = time.time()
  print(sh.cell(499,22).value)
  t1 = time.time()
  print("xlrd所用時間:", str(t1-t0))

測試結(jié)果:

22
openpyxl所用時間: 0.44217610359191895
23.0
xlrd所用時間: 0.0010063648223876953

結(jié)論

openpyxl的慢是讀取慢,可以選擇xlrd代替,詳細(xì)測試下面繼續(xù)

不直接使用xlwt+xlrd是因?yàn)閤lwt僅支持2003及以下版本,最大行數(shù)限制在65536,不夠用,而openpyxl大概在一百多萬

主要的說完了,下面詳細(xì)說了:在寫工具的時候遇到的這個問題,開始是用的xlwt+xlrd,然后行數(shù)超標(biāo)了,沒辦法換成openpyxl使用excel2007的版本,原本測試不到三萬行的數(shù)據(jù),只要三四秒,換成openpyxl以后,花了好幾分鐘,具體沒看多少了,然后加上函數(shù)運(yùn)行時間的監(jiān)視器以后,才看到是讀取的時候出的問題

推測原因:

推測的話,openpyxl的根據(jù)行號列號讀取的時候,是從第一行第一列開始遍歷,直到行號等于指定行號,列號等于指定列號,所以要讀取的行號列號越多就越慢,(也可能是從第一個有數(shù)據(jù)的行或列),而xlrd則是類似與數(shù)組一樣,我們要取第幾個元素,直接根據(jù)下標(biāo)找到內(nèi)存中對應(yīng)地址的元素即可,所以無論excel總量多少,速度基本都是不變的

留下的坑

xlwt寫入僅支持65536行,那xlrd的讀取很可能也是,也就是超過這么多的數(shù)據(jù)可能也會出錯

我這里因?yàn)槭亲x多表數(shù)據(jù)生成單表數(shù)據(jù),生成方式大概是Na*Nb這樣,所以實(shí)際讀取的不會太多,但生成的很多,所以基本可以用考慮這個問題

另外,據(jù)說xlrd讀取xlsx格式的偶爾會出現(xiàn)問題,具體沒測試,暫時用還沒毛病

最后,順帶上一下監(jiān)控函數(shù)運(yùn)行時間的裝飾器吧:

import time
from functools import wraps

def fn_timer(function):
  @wraps(function)
  def function_timer(*args, **kwargs):
    t0 = time.time()
    result = function(*args, **kwargs)
    t1 = time.time()
    print ("Total time running %s: %s seconds" %
      (function.__name__, str(t1-t0))
      )
    return result
  return function_timer

使用方式的話,就是在要監(jiān)控的函數(shù)定義上面加上 @fn_timer 就行了

看完這篇關(guān)于python執(zhí)行較大excel文件openpyxl慢怎么辦的文章,如果覺得文章內(nèi)容寫得不錯的話,可以把它分享出去給更多人看到。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI