您好,登錄后才能下訂單哦!
這篇文章給大家分享的是有關(guān)怎么用Python實(shí)現(xiàn)數(shù)據(jù)篩選與匹配的內(nèi)容。小編覺得挺實(shí)用的,因此分享給大家做個(gè)參考,一起跟隨小編過來看看吧。
數(shù)據(jù)篩選要求我們?cè)诒碇泻Y選出符合條件的數(shù)據(jù)。
數(shù)據(jù)匹配需要我們?cè)诙鄠€(gè)表之間匹配相關(guān)的數(shù)據(jù)。
與之前一樣,完成項(xiàng)目問題的代碼,需要我們先分析數(shù)據(jù)篩選和數(shù)據(jù)匹配的需求,再找到對(duì)應(yīng)知識(shí)點(diǎn),確定代碼的執(zhí)行順序,從而實(shí)現(xiàn)項(xiàng)目代碼。
這個(gè)案例需要我們篩選出遲到人員的信息,來具體看看。
在【10月考勤統(tǒng)計(jì).xlsx】工作簿中,保存了公司一百名員工的遲到信息,這些信息包含了遲到時(shí)間和遲到次數(shù)。
公司規(guī)定,遲到時(shí)間超過45分鐘且遲到過3次以上的員工記為考勤不合格,需要扣除300的考勤保證金。
之前的同事需要把篩選后的結(jié)果保存為【10月遲到人員信息.xlsx】,并將整理后的信息上報(bào)給領(lǐng)導(dǎo)。
那么如何用代碼實(shí)現(xiàn)這個(gè)場(chǎng)景呢?
在編寫代碼之前,我們要先明確任務(wù)需求。
根據(jù)公司的規(guī)定,篩選出【10月考勤統(tǒng)計(jì).xlsx】中遲到時(shí)間大于45分鐘并且遲到次數(shù)超過3次以上的員工信息,將遲到人員信息打印出來后再存入新工作簿【10月遲到人員信息.xlsx】中。
代碼實(shí)現(xiàn):
from openpyxl import load_workbook, Workbook # 打開【10月考勤統(tǒng)計(jì).xlsx】工作簿 wb = load_workbook('./material/10月考勤統(tǒng)計(jì).xlsx') # 獲取活動(dòng)工作表 ws = wb.active print(ws) print(ws[1]) print('----------------') # 獲取表頭 late_header = [] for cell in ws[1]: late_header.append(cell.value) print(cell.value) # 新建工作簿 new_wb = Workbook() # 獲取新工作簿中的工作表 new_ws = new_wb.active # 將表頭寫入新工作簿的工作表中 new_ws.append(late_header) # 從第二行開始遍歷表格 for row in ws.iter_rows(min_row=2, values_only=True): # 取出姓名,遲到時(shí)間和遲到次數(shù) name = row[1] time = row[3] number = row[-1] # 判斷是否遲到 if time > 45 and number > 3: print('{}遲到了{(lán)}分鐘,遲到了{(lán)}次'.format(name, time, number)) # 將遲到人員信息寫入新工作簿的工作表中 new_ws.append(row) # 將新工作簿保存為【10月遲到人員信息.xlsx】 new_wb.save('./material/10月遲到人員信息.xlsx')
運(yùn)行結(jié)果:
根據(jù)任務(wù)需求,我們需要獲取兩部分?jǐn)?shù)據(jù):表頭數(shù)據(jù)和表頭以外的所有數(shù)據(jù)。
你可能會(huì)比較疑惑,為什么要單獨(dú)獲取表頭數(shù)據(jù)呢?
由于任務(wù)需要我們生成新的工作簿【10月遲到人員信息.xlsx】,新工作簿中的表頭與【10月考勤統(tǒng)計(jì).xlsx】相同,所以我們需要獲取到表頭的數(shù)據(jù)以便后續(xù)使用。
使用數(shù)據(jù)
我們需要在這一步實(shí)現(xiàn)數(shù)據(jù)篩選功能,通過分析任務(wù)需求可以總結(jié)出三個(gè)篩選條件:
1)遲到時(shí)間大于45分鐘。
2)遲到次數(shù)大于3次。
3)同時(shí)滿足上面兩個(gè)條件。
明確了篩選條件后,就可以借助條件判斷語句,比較運(yùn)算符,成員運(yùn)算符和邏輯運(yùn)算符等Python基礎(chǔ)知識(shí),實(shí)現(xiàn)對(duì)于數(shù)據(jù)的篩選,即將上面得到的篩選條件用Python語言實(shí)現(xiàn)出來。
假設(shè)我們用time
來代表遲到時(shí)間,用number
代表遲到次數(shù),那么篩選條件就可以寫為:if time > 45 and number > 3:
數(shù)據(jù)輸出
完成篩選后,我們需要根據(jù)實(shí)際需求將篩選結(jié)果輸出到終端,或?qū)⒑Y選結(jié)果保存起來。
本次任務(wù)要求我們將篩選后的員工信息打印出來,并且存儲(chǔ)到【10月遲到人員信息.xlsx】中。
如果需要獲取工作簿中滿足某些條件的數(shù)據(jù),這種場(chǎng)景就可以被歸類為數(shù)據(jù)篩選場(chǎng)景。
處理該場(chǎng)景時(shí),可以按照獲取數(shù)據(jù),使用數(shù)據(jù)和數(shù)據(jù)輸出這三個(gè)步驟來處理。
首先是獲取數(shù)據(jù),使用上節(jié)課學(xué)習(xí)過的表格讀寫的相關(guān)知識(shí),根據(jù)任務(wù)需求,確定要獲取的是零散的單元格,是單行/單列,還是多行/多列的數(shù)據(jù)。
數(shù)據(jù)篩選的關(guān)鍵落在了篩選二字上,我們可以在使用數(shù)據(jù)這一步中實(shí)現(xiàn)篩選功能。
在這一步,要仔細(xì)理解任務(wù)需求,明確篩選條件,然后根據(jù)實(shí)際情況,選擇Python基礎(chǔ)語法的相關(guān)知識(shí)(條件判斷語句,比較運(yùn)算符,成員運(yùn)算符和邏輯運(yùn)算符),構(gòu)造篩選條件。
最后是數(shù)據(jù)輸出部分,根據(jù)實(shí)際需要輸出篩選結(jié)果,或?qū)⒑Y選結(jié)果保存起來。總結(jié)起來可以分為三類:
1)將篩選的結(jié)果存入學(xué)過的數(shù)據(jù)結(jié)構(gòu)里,比如:列表,元組或字典。
2)將篩選的結(jié)果存入文件中。
3)將篩選的結(jié)果打印出來。
這個(gè)案例需要我們匹配兩張表格中指定的遲到次數(shù),先來看看案例場(chǎng)景。
現(xiàn)有兩張表格,【10月考勤統(tǒng)計(jì).xlsx】中記錄了員工十月份的遲到次數(shù)數(shù)據(jù),這份表格是公司行政手動(dòng)記錄的。
【遲到次數(shù)月度統(tǒng)計(jì)(10月更新).xlsx】中按月記錄了員工每月的遲到次數(shù)數(shù)據(jù),這份表格是由公司的考勤系統(tǒng)自動(dòng)生成的。
兩份表格中的數(shù)據(jù)可以通過工號(hào)一一對(duì)應(yīng)。
現(xiàn)需要核對(duì)兩張表格中10月遲到次數(shù)是否匹配(即兩表中相同工號(hào)在十月份的遲到次數(shù)是否一致),并在終端提醒相關(guān)人員去核查不匹配的情況。
代碼實(shí)現(xiàn):
from openpyxl import load_workbook # 打開工作簿【10月考勤統(tǒng)計(jì).xlsx】,獲取活動(dòng)工作表 wb = load_workbook('./material/10月考勤統(tǒng)計(jì).xlsx') ws = wb.active # 創(chuàng)建遲到人員字典 info_dict = {} # 循環(huán)讀取除表頭外的表格數(shù)據(jù) for row in ws.iter_rows(min_row=2, values_only=True): # 取出員工工號(hào) staff_id = row[0] # 取出遲到次數(shù) staff_late = row[-1] # 將信息添加入字典,字典格式為{'員工工號(hào)': '遲到次數(shù)'} info_dict[staff_id] = staff_late # 打開工作簿【遲到次數(shù)月度統(tǒng)計(jì)(10月更新).xlsx】,獲取活動(dòng)工作表 monthly_wb = load_workbook('./material/遲到次數(shù)月度統(tǒng)計(jì)(10月更新).xlsx') monthly_ws = monthly_wb.active # 循環(huán)讀取出表頭外的表格數(shù)據(jù) for monthly_row in monthly_ws.iter_rows(min_row=3, max_col=13, values_only=True): # 取出員工工號(hào) member_id = monthly_row[0] # 取出十一月份的遲到次數(shù) member_late = monthly_row[-1] # 匹配遲到次數(shù)是否相等 if member_late != info_dict[member_id]: print('工號(hào){}遲到情況不匹配,請(qǐng)核查后更新'.format(member_id))
運(yùn)行結(jié)果:
為什么會(huì)選擇存儲(chǔ)到字典中呢?
因?yàn)樽值淇梢院芎玫伢w現(xiàn)出工號(hào)與遲到次數(shù)的對(duì)應(yīng)關(guān)系,即{'工號(hào)': '遲到次數(shù)'}
。
然后把【遲到次數(shù)月度統(tǒng)計(jì)(10月更新).xlsx】中的遲到次數(shù),與字典中存儲(chǔ)的遲到次數(shù)進(jìn)行匹配,再判斷相同工號(hào)對(duì)應(yīng)的遲到次數(shù)是否相同。
感謝各位的閱讀!關(guān)于“怎么用Python實(shí)現(xiàn)數(shù)據(jù)篩選與匹配”這篇文章就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,讓大家可以學(xué)到更多知識(shí),如果覺得文章不錯(cuò),可以把它分享出去讓更多的人看到吧!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。