Python GUI編程怎么制作一個文檔圖片提取軟件

發(fā)布時間：2021-11-23 14:21:21 來源：億速云閱讀：149 作者：iii 欄目：大數(shù)據(jù)

本篇內(nèi)容主要講解“Python GUI編程怎么制作一個文檔圖片提取軟件”，感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷，實用性強。下面就讓小編來帶大家學習“Python GUI編程怎么制作一個文檔圖片提取軟件”吧!

本文將進一步講解如何用Python提取PDF與Word中圖片，并結合之前講解過的GUI框架PysimpleGUI，做一個多文件圖片提取軟件，效果如下：

本文主要將分為以下部分講解：

PDF，Word，Excel文件圖片提取
構造圖片提取器GUI框架
整合代碼并打包

主要涉及的Python模塊有：

PIL
PySimpleGUI
re
win32
os
zipfile
fitz

準備工作

首先使用pip安裝相關依賴模塊

pip install pillow   #這是對模塊PTL的安裝
pip install pypiwin32    #這是對win32的安裝
pip install os 
pip install zipfile
pip install PyMuPDF  #這是引用fitz對PDF操作的包
pip install PySimpleGui

一，提取各文件內(nèi)嵌圖片

在之前的文章有講過，讀取Excel有兩種方法。一種是將后綴名改成.zip格式進行提取，一種是通過Pillow模塊對Excel進行圖片復制與保存。而在我們這次3種文件格式的圖片提取當中，Excel提取圖片方法和之前一樣。

Word中圖片提取方法和通過.zip提取方法類似，PDF提取圖片方法要用到新的模塊。由于Excel中提取圖片的兩種方法在之前的文章講過，故這里只講解PDF和Word中的提取方法。

1.1提取Word圖片思路

和以前一樣，我們先看代碼再講解

path = values["lujing"]  
count = 1
for file in os.listdir(path):
    new_file = file.replace(".docx",".zip")
    os.rename(os.path.join(path,file),os.path.join(path,new_file))
    count+=1      
    number = 0
    craterDir = values["lujing"] + '/'  # 存放zip文件的文件夾路徑
    saveDir = values["lujing"] + '/' # 存放圖片的路徑
    list_dir = os.listdir(craterDir) # 獲取所有的zip文件名
    for i in range(len(list_dir)):
        if 'zip' not in list_dir[i]:
            list_dir[i] = ''
            while '' in list_dir:
                list_dir.remove('')                            
                for zip_name in list_dir:
                    # 默認模式r,讀
                    azip = zipfile.ZipFile(craterDir + zip_name)
                    # 返回所有文件夾和文件
                    namelist = (azip.namelist())
                    for idx in range(0,len(namelist)):
                        if namelist[idx][:11] == 'word/media/':#圖片是在這個路徑下
                            img_name = saveDir + str(number)+'.jpg'
                            f = azip.open(namelist[idx])
                            img = Image.open(f)
                            img = img.convert("RGB")
                            img.save(img_name,"JPEG")
                            number += 1
                            azip.close()  #關閉文件，必須有，釋放內(nèi)存

這里的代碼和GUI中通過.zip方式提取Excel圖片的代碼思路是一樣的。

“
path = values["lujing"]這里是讀取GUI中鍵為**“ lujing” **的值，也即文件存儲位置，用于os模塊讀取與操作。
new_file = file.replace(".docx",".zip")是替換后綴名，如果是Excel的話，就把.docx改成.xlsx或xls。
craterDir = values["lujing"] + '/' 這是存放zip文件的文件夾路徑，注意此處重新到的鍵為“ lujing”的值后要在后面添加/。
saveDir = values["lujing"] + '/' 這是存放圖片的路徑，同理，和上面一樣加個/號。
”

最后說一下與Excel提取比例，最大的不同是下面的代碼

if namelist[idx][:11] == 'word/media/':細心的讀者可以發(fā)現(xiàn)，與Excel提取比例，中括號里面的值改了。

很好理解，我們可以打印名稱列表[idx]，可以發(fā)現(xiàn)在索引0到10是'word/media/'所在位置。而在Excel中是前9位。

感興趣的讀者可以翻看之前的文章，那里有對這段代碼的詳細解析，這里不多做介紹。

1.2提取PDF圖片思路

和之前的excel提取圖片一樣，在一個pdf中加入4張圖片，我們將它壓縮為zip文件

Python GUI編程怎么制作一個文檔圖片提取軟件

讀取后

相關代碼如下：

def pdf2pic(path, pic_path):
    doc = fitz.open(path)
    nums = doc._getXrefLength()
    imgcount = 0 
    for i in range(1, nums):
        text = doc._getXrefString(i)
        if ('Width 2550' in text) and ('Height 3300' in text) or ('thumbnail' in text):
            continue
            checkXO = r"/Type(?= */XObject)"
            checkIM = r"/Subtype(?= */Image)"
            isXObject = re.search(checkXO, text)
            isImage = re.search(checkIM, text)
            if not isXObject or not isImage:
                continue
                imgcount += 1
                pix = fitz.Pixmap(doc, i)
                img_name = "img{}.png".format(imgcount)
                if pix.n < 5:
                    try:
                        pix.writePNG(os.path.join(pic_path, img_name))
                        pix = None
                        except:
                            pix0 = fitz.Pixmap(fitz.csRGB, pix)
                            pix0.writePNG(os.path.join(pic_path, img_name))
                            pix0 = None
if __name__ == '__main__':
 path = values["lujing"]+ '/' + values["wenjian"]
    pic_path = values["lujing"]
    pdf2pic(path, pic_path)

先說一下這段代碼的思路吧，由于PDF不能像Excel和Word一樣改后綴名進行提取，故這里運用python的一個模塊PyMuPDF，過程如下

閱讀PDF并遍歷每一頁
篩選無用的元素并用正則表達式獲取圖片
生成并保存圖片

fitz.open(path)是打開PDF文件夾，這里的路徑是需要在GUI界面中獲取用戶的文件放置路徑于文件名的。

for i in range(1, nums):
    text = doc._getXrefString(i)

這是我們的第一步重新并存歷，將重新引入到的字符串內(nèi)容放入到文本中

if ('Width 2550' in text) and ('Height 3300' in text) or ('thumbnail' in text):
 continue

由于PDF每頁的背景就是一張圖片，故我們可以通過寬高來尋找這些背景圖片并用continue把他們剔除。

checkXO = r"/Type(?= */XObject)"
checkIM = r"/Subtype(?= */Image)"
isXObject = re.search(checkXO, text)
isImage = re.search(checkIM, text)
if not isXObject or not isImage:
    continue

我們通過實驗發(fā)現(xiàn)圖片所對應的字符串在checkxo與checkIM這兩個中。故用正則表達式在文本中進行索引提取，用到了re模塊的搜索函數(shù)。如果不是這兩個字符串就用繼續(xù)剔除。

pix = fitz.Pixmap(doc, i)
img_name = "img{}.png".format(imgcount)
if pix.n < 5:
 try:
  pix.writePNG(os.path.join(pic_path, img_name))
  pix = None
 except:
  pix0 = fitz.Pixmap(fitz.csRGB, pix)
  pix0.writePNG(os.path.join(pic_path, img_name))
  pix0 = None

這是最后一步生成與保存圖片

“
pix = fitz.Pixmap(doc, i)是生成圖像語句，doc代表PDF文件，i代表遍歷每個圖片對象的索引值。
img_name = "img{}.png".format(imgcount)是設置圖像名語句，用提取到的圖片的序列號作為命名格式。
”

如果pix.n <5，可以直接存為PNG，否則將進行RGB變換在保存。

由于代碼采用的是def函數(shù)編寫模式，故最后還要一個函數(shù)的初始化：if __name__ == '__main__':

至此，3種文件格式（Excel，Word，PDF）圖片提取方法已全部講解，接下來就是重中之重GUI生成了。

二，GUI框架建造

先看完整代碼：

import PySimpleGUI as sg
sg.ChangeLookAndFeel('GreenTan')   #更換主題
menu_def = [['&使用說明', ['&注意']]]
layout = [
    [sg.Menu(menu_def, tearoff=True)],
    [sg.Frame(layout=[
    [sg.Radio('Excel1', "RADIO1",size=(10,1),key="Excel1"),  sg.Radio('Word', "RADIO1",default=True,key="Word")],
    [sg.Radio('Excel2', "RADIO1", enable_events=True, size=(10,1),key="Excel2"), sg.Radio('PDF', "RADIO1",key="PDF")]], title='選項',title_color='red', relief=sg.RELIEF_SUNKEN, tooltip='Use these to set flags')],
    [sg.Text('文件位置', size=(8, 1), auto_size_text=False, justification='right'),
     sg.InputText(enable_events=True,key="lujing"), sg.FolderBrowse()],
    [sg.Text('文件名字', size=(8, 1), justification='right'),
     sg.InputText(enable_events=True,key="wenjian")],
    [sg.Submit(tooltip='文件'), sg.Cancel()]]

window = sg.Window('圖片提取器', layout, default_element_size=(40, 1), grab_anywhere=False)
while True:
    event, values = window.read()
    if event == "Submit":
        if values["Excel2"] == True:
   '''
   事件綁定
   '''
            sg.Popup("提取成功")

        if values["Excel1"] == True:
   '''
   事件綁定
   '''
            sg.Popup("提取成功")
        if values["Word"] == True:
   '''
   事件綁定
   '''
            sg.Popup("提取成功") 
        if values["PDF"] == True:
   '''
   事件綁定
   '''
            sg.Popup("提取成功")
    if event == "Cancel" or event == sg.WIN_CLOSED:
        break    
    if event == "注意":
        sg.Popup("作用講解：",
                 "Excel1 ：解析選定位置中所有的Excel文件，無需在文件名處填寫",
                 "Excel2 ：解析選定位置中單個指定的Excel文件，需在文件名處填寫",
                 "Word ：  解析選定位置中單個指定的docx結尾的文件，無需在文件名處填寫",
                 "PDF ：   解析選定位置中單個指定的PDF文件，需在文件名處填寫")
window.close()

效果呈現(xiàn)：

Python GUI編程怎么制作一個文檔圖片提取軟件

代碼解析：做PySimpleGUI還是原來那個步驟：

導入創(chuàng)建一些小部件創(chuàng)建窗口創(chuàng)建事件循環(huán)

當然，做GUI之前就是先想清楚自己的圖形交互頁面長什么樣，像我就是現(xiàn)在紙上畫一個大概，這樣更有益于制作頁面。

初步先引用模塊

第二步添加元素（小部件）到容器（layout）中，這里先介紹一下用到到的部件：

“
Menu：顧名思義，這是菜單欄，每個GUI都必帶一個菜單欄來提示用戶該如何做，我們這里用了menu_def這個布局來完成菜單的設置。
Frame：這個跟layout布局完全相同，工作方式也一樣，他們都是容器元素?？梢钥吹健斑x項”那里是一個指示器的正方形，里面有四個選項，作用就是這個。注意，&這個符號的作用是創(chuàng)建相同類型的菜單，這里只有注意事項這一個菜單，故可以不用管，讀者如果想添加同樣的菜單的話必須添加一個&。tearoff=True這個參數(shù)是菜單欄中每個子選項上面加虛線。
Radio：單選按鈕。我們只可以在同樣的id上選擇一個選項。id就是指代碼中的“ ra-dio1 ”。其中每個無線電函數(shù)的第一個參數(shù)是文本內(nèi)容，這里就是我們要進行提取的4個文件格式。而“ size”就是位置，每行的第一個設置同樣的參數(shù)（10，1）。最后就是我們進行事件幫忙的綁定鍵，其中“ enable_events”可以不寫因為我們只是調(diào)用它而不用去對它產(chǎn)生事件。
Text：之前有講是不能改的正文內(nèi)容。同樣這里設置的位置參數(shù)（8，1），justification='right'有點類似我們平常用的單詞那個向右指向。
InputText：需要用戶輸入的正文內(nèi)容。這里有兩個需要我們填充的地方：文件位置和文件名。這里需要設置鍵，因為在后面事件綁定中我們需要調(diào)用文件存儲路徑和文件名，在文中上半部分有提到過。
FolderBrowse：簡易的打開文件路徑操作，不用你去復制路徑。
Submit：確定按鈕，這里綁定為執(zhí)行提取文檔圖片事件
Cancel：退出主程序按鈕。
”

第三步就是創(chuàng)建窗戶來容納這些元素布置。

第四步創(chuàng)建事件循環(huán)，可以看到代碼，都是一樣的套路：當用戶點擊提交按鈕時系統(tǒng)將進行判斷你按的是該單選按鈕，長長的進行相對應的事件執(zhí)行。當你點擊cancel或者×時，就是退出主程序。當你按菜單中的注意時，就會彈出一個指示告訴你這個系統(tǒng)怎么用。

在事件循環(huán)中，我們用values[]的布爾值來判斷我們選的是哪個單選按鈕，有讀者疑問為什么不用event=，因為我們在第一個if當中用了eventso第二個if當中需要換一個判斷方法。

至此，GUI部分就搞定了！景點的讀者可以繼續(xù)在上面添加功能。

三，打包

我們將完整代碼整合在一起，后安裝pyinstaller模塊

pip install pyinstaller

如果你的上述項目代碼文件命名為：photo.py。那么你要用以下命令進行打包

pyinstaller photo.py

最后打包成功之后，你會在py文件所在的文件夾看到一個dist的子文件夾。進去之后，找到pachong.exe文件并運行它即可。

注意，文件夾里附帶了很多文件，您可以刪除它。當然，如果嫌麻煩就直接從photo.py文件用Python執(zhí)行。

到此，相信大家對“Python GUI編程怎么制作一個文檔圖片提取軟件”有了更深的了解，不妨來實際操作一番吧！這里是億速云網(wǎng)站，更多相關內(nèi)容可以進入相關頻道進行查詢，關注我們，繼續(xù)學習！

向AI問一下細節(jié)

Python GUI編程怎么制作一個文檔圖片提取軟件

準備工作

一，提取各文件內(nèi)嵌圖片

1.1提取Word圖片思路

1.2提取PDF圖片思路

二，GUI框架建造

三，打包

猜你喜歡

最新資訊

相關推薦

相關標簽

二，GUI框架建造

三，打包