<menu id="au0ag"><blockquote id="au0ag"></blockquote></menu>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

利用Python怎么將pdf表格導(dǎo)入到excel

發(fā)布時間：2021-01-22 14:38:50 來源：億速云閱讀：651 作者：Leah 欄目：開發(fā)技術(shù)

這篇文章給大家介紹利用Python怎么將pdf表格導(dǎo)入到excel，內(nèi)容非常詳細，感興趣的小伙伴們可以參考借鑒，希望對大家能有所幫助。

避免CV大法

pdf 文件的表格的數(shù)據(jù)可以復(fù)制，但是這是一項非常繁瑣的事情。所以我首先考慮的是，Python 可否幫助我們高效且規(guī)范地讀取 pdf 中的表格數(shù)據(jù)。所以一頓的檢索，發(fā)現(xiàn)了一個比較優(yōu)質(zhì)處理 pdf 的庫：pdfplumber，當然這個庫需要大家 pip install pdfplumber 去進行安裝。

導(dǎo)入 pdfplumber 庫
通過 pdfplumber.open() 函數(shù) 獲取 mt2018.pdf 文件對象
通過該對象.pages 獲取 pdf 每頁的對象，截取我們需要的頁對象即可
通過頁對象.extract_tables() 獲取表格數(shù)據(jù)（若需要獲取文本：頁對象.extract_text()）

代碼實現(xiàn)：

import pdfplumber


# 獲取 pdf 文件對象
pdf_mt = pdfplumber.open("mt2018.pdf")

# 因為我需要獲取的資產(chǎn)負債表在 51-53頁 但是索引從0開始 所以切片取 50-52即可
for pdf_pg in pdf_mt.pages[50:53]:
  
  # 只提取當前頁表格數(shù)據(jù) 
  print(pdf_pg.extract_tables())
  
  
--------------------------------------------------------------------------
結(jié)果比較多，截取一部分：
[[['項目', '附注', '期末余額', '期初余額'], ['流動資產(chǎn)：', '', '', ''], ['貨幣資金', '1', '112,074,791,420.06', '87,868,869,913.34'], ['結(jié)算備付金', '', '', ''], ['拆出資金', '', '', ''], ['以公允價值計量且其變動計入當\n期損益的金融資產(chǎn)', '', '', ''], ['衍生金融資產(chǎn)', '', '', ''], ['應(yīng)收票據(jù)及應(yīng)收賬款', '2', '563,739,710.00', '1,221,706,039.00']]]

將完整表保存到 csv 文件中

我們發(fā)現(xiàn)，返回的數(shù)據(jù)集是一個三維的列表。那么在我們平時處理的 excel 表格數(shù)據(jù)(行與列)都是二維的數(shù)據(jù)。那么，這多出的一維是什么呢？其實就是我們的夜[頁]~ 再來一個循環(huán)取出二維數(shù)據(jù)進行保存即可

for pdf_pg in pdf_mt.pages[50:53]:
  for pdf_tb in pdf_pg.extract_tables():
    print(pdf_tb)
    
------------------------------------------------------------------------------
結(jié)果比較多，截取一部分：
[['項目', '附注', '期末余額', '期初余額'], ['流動資產(chǎn)：', '', '', ''], ['貨幣資金', '1', '112,074,791,420.06', '87,868,869,913.34'], ['結(jié)算備付金', '', '', ''], ['拆出資金', '', '', ''], ['以公允價值計量且其變動計入當\n期損益的金融資產(chǎn)', '', '', ''], ['衍生金融資產(chǎn)', '', '', ''], ['應(yīng)收票據(jù)及應(yīng)收賬款', '2', '563,739,710.00', '1,221,706,039.00']]

但是，真的那么簡單嗎？這時，我們就需要細品我們的 pdf 了，如下圖

利用Python怎么將pdf表格導(dǎo)入到excel

我們發(fā)現(xiàn)，一張完整的資產(chǎn)負債表分布在多頁上。也就是說，每一頁的里面的表格數(shù)據(jù)都是一個三維的列表，所以我們保存數(shù)據(jù)的時候，需要讓其有共同的表頭(列索引)，并且進行拼接。

那必須就要強推我們的 pandas 了，pandas.DataFrame() 非常完美的創(chuàng)建表格式的二維數(shù)組，以及指定列索引(表頭)。包括可以直接使用 df.append() 進行共同表頭數(shù)據(jù)的堆疊拼接。

import pdfplumber
import pandas as pd
import numpy as np

# 創(chuàng)建僅有表頭的 dataframe 數(shù)組
pdf_df = pd.DataFrame(columns=['項目', '附注', '期末余額', '期初余額'])

# 獲取 pdf 文件對象
pdf_mt = pdfplumber.open("mt2018.pdf")

# 因為我需要獲取的資產(chǎn)負債表在 51-53頁 但是索引從0開始 所以切片取 50-52即可
for pdf_pg in pdf_mt.pages[50:53]:
  
  # 獲取二維列表
  for pdf_tb in pdf_pg.extract_tables():
    
    # 將其拼接
    pdf_df = pdf_df.append(pd.DataFrame(np.array(pdf_tb),columns=['項目', '附注', '期末余額', '期初余額']))

# 顯示后五條
pdf_df.tail()

dataframe數(shù)據(jù)輸出如下：

利用Python怎么將pdf表格導(dǎo)入到excel

pdf 53頁如下：

利用Python怎么將pdf表格導(dǎo)入到excel

實際上，大家也發(fā)現(xiàn)，我們獲取的最后一頁的數(shù)據(jù)還有一部分是另一個表的，所以我們需要將其去除，并且有序的設(shè)置行索引，再保存到 csv 文件中。

# 去除后三行
pdf_df = pdf_df.iloc[:-3,:]

# 重置索引
pdf_df = pdf_df.reset_index(drop=True)

# 保存到 csv 文件中
pdf_df.to_csv("mt_2018.csv")

關(guān)于利用Python怎么將pdf表格導(dǎo)入到excel就分享到這里了，希望以上內(nèi)容可以對大家有一定的幫助，可以學(xué)到更多知識。如果覺得文章不錯，可以把它分享出去讓更多的人看到。

向AI問一下細節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
如何在JS中實現(xiàn)Laravel的route函數(shù)
下一篇新聞：
如何在Visual Studio Code中安裝PostgreSQL拓展

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機網(wǎng)站二維碼

<cite id="weu08"><blockquote id="weu08"></blockquote></cite>

<th id="weu08"><blockquote id="weu08"></blockquote></th>