<strong id="zpxhn"><sup id="zpxhn"></sup></strong>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

如何利用Python批量識別電子賬單數(shù)據(jù)

發(fā)布時間：2021-02-16 08:06:38 來源：億速云閱讀：252 作者：小新欄目：開發(fā)技術(shù)

這篇文章給大家分享的是有關(guān)如何利用Python批量識別電子賬單數(shù)據(jù)的內(nèi)容。小編覺得挺實用的，因此分享給大家做個參考，一起跟隨小編過來看看吧。

一、前言

有一定數(shù)量類似如下截圖所示的賬單，利用 Python 批量識別電子賬單數(shù)據(jù)，并將數(shù)據(jù)保存到Excel。

如何利用Python批量識別電子賬單數(shù)據(jù)

百度智能云接口
打開https://cloud.baidu.com/，如未注冊請先注冊，然后登錄點擊管理控制臺，點擊左側(cè)產(chǎn)品服務(wù)→人工智能→文字識別，點擊創(chuàng)建應(yīng)用，輸入應(yīng)用名稱如Baidu_OCR，選擇用途如學(xué)習(xí)辦公，最后進行簡單應(yīng)用描述，即可點擊立即創(chuàng)建。會出現(xiàn)應(yīng)用列表，包括AppID、API Key、Secret Key等信息，這些稍后會用到。

如何利用Python批量識別電子賬單數(shù)據(jù)

如何利用Python批量識別電子賬單數(shù)據(jù)

二、調(diào)用Baidu aip識別

首先需要安裝百度的接口，命令行輸入如下：

pip install baidu-aip -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

查看 Python 的 SDK 文檔：

如何利用Python批量識別電子賬單數(shù)據(jù)

如何利用Python批量識別電子賬單數(shù)據(jù)

AipOcr是 OCR 的 Python SDK 客戶端，為使用 OCR 的開發(fā)人員提供了一系列的交互方法。參考如下代碼新建一個AipOcr：

from aip import AipOcr

""" 你的 APPID AK SK """
APP_ID = '你的 App ID'
API_KEY = '你的 Api Key'
SECRET_KEY = '你的 Secret Key'

client = AipOcr(APP_ID, API_KEY, SECRET_KEY)

用戶向服務(wù)請求識別某張圖中的所有文字

""" 讀取圖片 """
def get_file_content(filePath):
 with open(filePath, 'rb') as fp:
  return fp.read()

image = get_file_content('example.jpg')

""" 調(diào)用通用文字識別, 圖片參數(shù)為本地圖片 """
client.basicGeneral(image)
""" 調(diào)用通用文字識別（高精度版） 圖片參數(shù)為本地圖片 """
client.basicAccurate(image)

識別出如下圖片中的文字，示例如下：

如何利用Python批量識別電子賬單數(shù)據(jù)

from aip import AipOcr

# """ 改成你的 百度云服務(wù)的 ID AK SK """
APP_ID = '18690701'
API_KEY = 'QFaTVXvZdPrR05dNlR5I49xA'
SECRET_KEY = '*******************************'
client = AipOcr(APP_ID, API_KEY, SECRET_KEY)

def get_file_content(filePath):
 with open(filePath, 'rb') as fp:
  return fp.read()

image = get_file_content('example.jpg')
# 調(diào)用通用文字識別, 圖片參數(shù)為本地圖片
result = client.basicGeneral(image)
print(result)
# 提取識別結(jié)果
info = '\n'.join([i['words'] for i in result['words_result']])
print(info)

結(jié)果如下：

如何利用Python批量識別電子賬單數(shù)據(jù)

三、批量識別電子賬單

獲取所有待識別的電子賬單圖像

from pathlib import Path

# 換成你放圖片的路徑
p = Path(r'D:\test\test_img')
# 得到所有文件夾下 .jpg 圖片
file = p.glob('**/*.jpg')
for img_file in file:
 print(type(img_file)) # <class 'pathlib.WindowsPath'> 轉(zhuǎn)成str
 img_file = str(img_file)
 print(img_file)

為了增加識別準確率，將賬單上要提取的數(shù)據(jù)區(qū)域分割出來，再調(diào)用Baidu aip識別。

如何利用Python批量識別電子賬單數(shù)據(jù)

from pathlib import Path
import cv2 as cv
from aip import AipOcr
from time import sleep

APP_ID = '18690701'
API_KEY = 'QFaTVXvZdPrR05dNlR5I49xA'
SECRET_KEY = '**********************************'
client = AipOcr(APP_ID, API_KEY, SECRET_KEY)

""" 讀取圖片 """
def get_file_content(filePath):
 with open(filePath, 'rb') as fp:
  return fp.read()

def identity(num):
 result_list = []
 for i in range(num):
  image = get_file_content('img{}.jpg'.format(i))
  """ 調(diào)用通用文字識別, 圖片參數(shù)為本地圖片 """
  result = client.basicGeneral(image)
  print(result)
  sleep(2)
  # 識別結(jié)果
  info = ''.join([i['words'] for i in result['words_result']])
  result_list.append(info)
 print(result_list)

src = cv.imread(r'D:\test\test_img\001.jpg')
src = cv.resize(src, None, fx=0.5, fy=0.5)
# print(src.shape)
img = src[280:850, 10:580]  # 截取圖片 高 寬
money = img[70:130, 150:450]  # 支出 收入金額
goods = img[280:330, 160:560]  # 商品
time_1 = img[380:425, 160:292] # 支付時間 年月日
time_2 = img[380:425, 160:390] # 支付時間 完整
way = img[430:475, 160:560]  # 支付方式
num_1 = img[480:520, 160:560]  # 交易單號
num_2 = img[525:570, 160:560]  # 商戶單號
img_list = [money, goods, time_1, time_2, way, num_1, num_2]
for index_, item in enumerate(img_list):
 cv.imwrite(f'img{index_}.jpg', item)

identity(len(img_list))

如何利用Python批量識別電子賬單數(shù)據(jù)

發(fā)現(xiàn)調(diào)用 client.basicGeneral(image)，通用文字識別，-5.90識別成590，而圖像里支付時間年月日時分秒之間間隔小，識別出來都在一起了，需要把支付時間的年月日時分秒分別分割出來識別，調(diào)用 client.basicAccurate(image)，通用文字識別(高精度版)。

完整實現(xiàn)如下：

"""
@File ：test_01.py
@Author ：葉庭云
@CSDN ：https://yetingyun.blog.csdn.net/
"""
from aip import AipOcr
from pathlib import Path
import cv2 as cv
from time import sleep
import openpyxl


wb = openpyxl.Workbook()
sheet = wb.active
sheet.append(['消費', '商品', '支付時間', '支付方式', '交易單號', '商品單號'])
# """ 改成你的 百度云服務(wù)的 ID AK SK """
APP_ID = '18690701'
API_KEY = 'QFaTVXvZdPrR05dNlR5I49xA'
SECRET_KEY = '*******************************'

client = AipOcr(APP_ID, API_KEY, SECRET_KEY)

""" 讀取圖片 """
def get_file_content(filePath):
 with open(filePath, 'rb') as fp:
  return fp.read()


def identity(num):
 result_list = []
 for i in range(num):
  image = get_file_content('img{}.jpg'.format(i))
  """ 調(diào)用通用文字識別, 圖片參數(shù)為本地圖片 """
  result = client.basicAccurate(image)
  print(result)
  sleep(1)
  # 識別結(jié)果
  info = ''.join([i['words'] for i in result['words_result']])
  result_list.append(info)

 result_list[2] = result_list[2] + ' ' + result_list[3]
 result_list.pop(3)
 print(result_list)
 sheet.append(result_list)


# 換成你放圖片的路徑
p = Path(r'D:\test\test_img')
# 得到所有文件夾下 .jpg 圖片
file = p.glob('**/*.jpg')
for img_file in file:
 img_file = str(img_file)
 src = cv.imread(r'{}'.format(img_file))
 src = cv.resize(src, None, fx=0.5, fy=0.5)
 # print(src.shape)
 img = src[280:850, 10:580]  # 截取圖片 高、寬范圍
 money = img[70:130, 150:450]  # 支出金額
 goods = img[280:330, 160:560]  # 商品
 time_1 = img[380:425, 160:292] # 支付時間 年月日
 time_2 = img[380:425, 290:390] # 支付時間 時分秒
 way = img[430:475, 160:560]  # 支付方式
 num_1 = img[480:520, 160:560]  # 交易單號
 num_2 = img[525:570, 160:560]  # 商戶單號
 img_list = [money, goods, time_1, time_2, way, num_1, num_2]
 for index_, item in enumerate(img_list):
  cv.imwrite(f'img{index_}.jpg', item)
 identity(len(img_list))
 # cv.imshow('img', img)
 # cv.imshow('goods', time_2)
 # cv.waitKey(0)

wb.save(filename='識別賬單結(jié)果.xlsx')

結(jié)果如下：

如何利用Python批量識別電子賬單數(shù)據(jù)

如何利用Python批量識別電子賬單數(shù)據(jù)

識別結(jié)果還不錯，成功利用 Python 批量識別電子賬單數(shù)據(jù)，并將數(shù)據(jù)保存到Excel。

感謝各位的閱讀！關(guān)于“如何利用Python批量識別電子賬單數(shù)據(jù)”這篇文章就分享到這里了，希望以上內(nèi)容可以對大家有一定的幫助，讓大家可以學(xué)到更多知識，如果覺得文章不錯，可以把它分享出去讓更多的人看到吧！

向AI問一下細節(jié)

推薦閱讀：

免責聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
利用php怎么實現(xiàn)一個朋友圈分享功能
下一篇新聞：
如何在Linux中部署一個.net core Api項目

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機網(wǎng)站二維碼