<dfn id="duzse"><pre id="duzse"></pre></dfn>

<td id="duzse"></td>

<ins id="duzse"></ins>

<button id="duzse"><meter id="duzse"></meter></button>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

Python讀取Word（.docx）正文信息的方法

發(fā)布時(shí)間：2020-09-29 10:32:22 來源：腳本之家閱讀：208 作者：0_蠟筆小熊_0 欄目：開發(fā)技術(shù)

本文介紹用Python簡(jiǎn)單讀取*.docx文件信息，一些python-word庫就是對(duì)這種方法的擴(kuò)展。

介紹分兩部分：

Word(*.docx)文件簡(jiǎn)述
Python提取Word信息

Word(*.docx)文件簡(jiǎn)述

大約在2008年以前，Office產(chǎn)品中Word用.doc文件格式，這種二進(jìn)制格式很難與其他軟件兼容。
為了跟上時(shí)代，微軟采用類XML格式標(biāo)準(zhǔn)定義其新版Word文件.docx。
.docx實(shí)際上是一個(gè)zip的壓縮文件，比如我們有一個(gè)test.docx的文件：

Python讀取Word（.docx）正文信息的方法

其內(nèi)容如下：

Python讀取Word（.docx）正文信息的方法

改變其后綴名為test.zip，然后解壓，會(huì)得到如下文件：

Python讀取Word（.docx）正文信息的方法

其中Word文件的正文內(nèi)容被保持在word/document.xml中，我們可以打開查看：

Python讀取Word（.docx）正文信息的方法

Python提取Word信息

根據(jù)Word（.docx）文件格式，我們遵循如下步驟進(jìn)行正文信息的提?。?

1 解壓.docx文件
2 用BeautifulSoup解析word/document.xml提取正文信息

具體代碼如下：

from zipfile import ZipFile
from bs4 import BeautifulSoup

document=ZipFile('test.docx')
xml=document.read("word/document.xml")
wordObj=BeautifulSoup(xml.decode("utf-8"))
texts=wordObj.findAll("w:t")
for text in texts:
  print(text.text)

以上就是本文的全部?jī)?nèi)容，希望對(duì)大家的學(xué)習(xí)有所幫助，也希望大家多多支持億速云。

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
Java中如何實(shí)現(xiàn)不可變Map詳解
下一篇新聞：
Android編程實(shí)現(xiàn)動(dòng)態(tài)支持多語言的方法

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼

<var id="jtbgh"></var><thead id="jtbgh"><s id="jtbgh"></s></thead><source id="jtbgh"><th id="jtbgh"><ol id="jtbgh"></ol></th></source>