溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

如何利用Python代碼批量將PDF文件轉為Word格式

發(fā)布時間：2021-10-28 17:03:12 來源：億速云閱讀：257 作者：柒染欄目：編程語言

本篇文章給大家分享的是有關如何利用Python代碼批量將PDF文件轉為Word格式，小編覺得挺實用的，因此分享給大家學習，希望大家閱讀完這篇文章后可以有所收獲，話不多說，跟著小編一起來看看吧。

在日常工作或學習中，經(jīng)常會遇到這樣的無奈：

“小任，你把這個PDF中的文件碼出來發(fā)我”

倒霉，2M的PDF12點也完不了?。?/p>

很多時候在學習時發(fā)現(xiàn)許多文檔都是PDF格式，PDF格式卻不利于學習使用，因此需要將PDF轉換為Word文件，但或許你從網(wǎng)上下載了很多軟件，但只能轉換前五頁（如WPS等），要不就是需要收費，那有沒有免費的轉換軟件呢？

so，菜鳥分析給各位帶來了一個免費簡單快速的方法，手把手教你用Python批量處理PDF格式文件，獲取自己想要的內(nèi)容，存為word形式。

在實現(xiàn)PDF轉Word功能之前，我們需要一個python的編寫和運行環(huán)境，同時安裝好相關的依賴包。對于python環(huán)境，我們推薦使用PyCharm。在本地電腦環(huán)境，anaconda提供了非常便利的安裝和部署。

PDF轉Word功能所需的依賴包如下：

PDFParser（文檔分析器），PDFDocument（文檔對象），PDFResourceManager（資源管理器），PDFPageInterpreter（解釋器），PDFPageAggregator（聚合器），LAParams（參數(shù)分析器）

一、前期準備工作

說明：菜鳥分析是在Windows7下使用python***的3.6版本

1.安裝pdfminer3k模塊

安裝anaconda后，直接可以通過pip安裝

如何利用Python代碼批量將PDF文件轉為Word格式

2.若安裝不成功，可以試試下面方法

首先下載pdfminer3k：https://pypi.python.org/pypi/pdfminer3k；然后安裝pdfminer

將下載好的pdfminer3k解壓到D:或其他合適的盤符，通過win+r 打開運行窗口，輸入cmd；

輸入D:切換到D盤，cd pdfminer3k(pdf解壓的文件夾)，輸入setup.py install安裝軟件。

如何利用Python代碼批量將PDF文件轉為Word格式

最終顯示Finished，則代表成功

二、代碼實操

導入相關包

from pdfminer.pdfparser import PDFParser, PDFDocument  from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter  from pdfminer.layout import LAParams  from pdfminer.converter import PDFPageAggregator

整體思路為：構造文檔對象，解析文檔對象，提取所需內(nèi)容

如何利用Python代碼批量將PDF文件轉為Word格式

構造文檔對象

如何利用Python代碼批量將PDF文件轉為Word格式

構造解釋器

2.導入需要解析的PDF文件

將所需解析的文件與執(zhí)行代碼放到同一個目錄下，如圖：

如何利用Python代碼批量將PDF文件轉為Word格式

如何利用Python代碼批量將PDF文件轉為Word格式

test.pdf內(nèi)容

3.具體代碼如下：

from pdfminer.pdfparser import PDFParser, PDFDocument  from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.layout import LAParams  from pdfminer.converter import PDFPageAggregator  from pdfminer.pdfinterp import PDFTextExtractionNotAllowed   def parse():      #rb以二進制讀模式打開本地pdf文件      fn = open('test.pdf','rb')     #創(chuàng)建一個pdf文檔分析器      parser = PDFParser()      #創(chuàng)建一個PDF文檔      doc = PDFDocument()      #連接分析器 與文檔對象      parser.set_document()      doc.set_parser()       # 提供初始化密碼doc.initialize("lianxipython")      # 如果沒有密碼 就創(chuàng)建一個空的字符串      doc.initialize("")      # 檢測文檔是否提供txt轉換，不提供就忽略      if not doc.is_extractable:          raise PDFTextExtractionNotAllowed      else:          #創(chuàng)建PDf資源管理器          resource = PDFResourceManager()          #創(chuàng)建一個PDF參數(shù)分析器          laparams = LAParams()          #創(chuàng)建聚合器,用于讀取文檔的對象          device = PDFPageAggregator(resource,laparams=laparams)          #創(chuàng)建解釋器，對文檔編碼，解釋成Python能夠識別的格式          interpreter = PDFPageInterpreter(resource,device)          # 循環(huán)遍歷列表，每次處理一頁的內(nèi)容          # doc.get_pages() 獲取page列表          for page in doc.get_pages():              #利用解釋器的process_page()方法解析讀取單獨頁數(shù)              interpreter.process_page(page)              #使用聚合器get_result()方法獲取內(nèi)容              layout = device.get_result()              #這里layout是一個LTPage對象,里面存放著這個page解析出的各種對象              for out in layout:                  #判斷是否含有get_text()方法，獲取我們想要的文字                  if hasattr(out,"get_text"):                      print(out.get_text())                      with open('test.txt','a') as f:                          f.write(out.get_text()+'\n')   if __name__ == '__main__':      parse()

最終得到的test.txt結果如下：

如何利用Python代碼批量將PDF文件轉為Word格式

結束：對于Python批量PDF轉Word的操作介紹就到此。

以上就是如何利用Python代碼批量將PDF文件轉為Word格式，小編相信有部分知識點可能是我們?nèi)粘９ぷ鲿姷交蛴玫降摹ＯＭ隳芡ㄟ^這篇文章學到更多知識。更多詳情敬請關注億速云行業(yè)資訊頻道。

向AI問一下細節(jié)

推薦閱讀：

免責聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權內(nèi)容。

上一篇新聞：
Linux上的/run怎么用
下一篇新聞：
Mysql數(shù)據(jù)分組排名實現(xiàn)的示例分析

猜你喜歡

AI
助
手

產(chǎn)品服務

地區(qū)劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網(wǎng)站二維碼