您好,登錄后才能下訂單哦!
這篇文章主要介紹Python3如何實(shí)現(xiàn)識別點(diǎn)觸點(diǎn)選驗(yàn)證碼,文中介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們一定要看完!
上一節(jié)我們實(shí)現(xiàn)了極驗(yàn)驗(yàn)證碼的識別,但是除了極驗(yàn)其實(shí)還有另一種常見的且應(yīng)用廣泛的驗(yàn)證碼,比較有代表性的就是點(diǎn)觸驗(yàn)證碼。
可能你對這個(gè)名字比較陌生,但是肯定見過類似的驗(yàn)證碼,比如 12306,這就是一種典型的點(diǎn)觸驗(yàn)證碼,如圖 8-18 所示:
圖 8-18 12306 驗(yàn)證碼
我們需要直接點(diǎn)擊圖中符合要求的圖,如果所有答案均正確才會(huì)驗(yàn)證成功,如果有一個(gè)答案錯(cuò)誤,驗(yàn)證就會(huì)失敗,這種驗(yàn)證碼就可以稱之為點(diǎn)觸驗(yàn)證碼。
1. 本節(jié)目標(biāo)
本節(jié)我們的目標(biāo)是用程序來識別并通過點(diǎn)觸驗(yàn)證碼的驗(yàn)證。
2. 準(zhǔn)備工作
本次我們使用的 Python 庫是 Selenium,使用的瀏覽器為 Chrome,在此之前請確保已經(jīng)正確安裝好了 Selenium 庫、Chrome瀏覽器并配置好了 ChromeDriver,相關(guān)流程可以參考第一章的說明。
3. 了解點(diǎn)觸驗(yàn)證碼
TouClick 官方網(wǎng)站的驗(yàn)證碼樣式如圖 8-19 所示:
圖 8-19 驗(yàn)證碼樣式
和 12306 站點(diǎn)有相似之處,不過這次是點(diǎn)擊圖片中的文字,不是圖片了,另外還有各種形形色色的點(diǎn)觸驗(yàn)證碼,其交互形式可能略有不同,但基本原理都是類似的。
接下來我們就來統(tǒng)一實(shí)現(xiàn)一下此類點(diǎn)觸驗(yàn)證碼的識別過程。
4. 識別思路
此種驗(yàn)證碼的如果依靠圖像識別的話識別難度非常之大。
例如就 12306 來說,其識別難點(diǎn)有兩個(gè)點(diǎn),第一點(diǎn)是文字識別,如圖 8-20 所示:
圖 8-20 12306 驗(yàn)證碼
如點(diǎn)擊圖中所有的漏斗,“漏斗”二字其實(shí)都經(jīng)過變形、放縮、模糊處理了,如果要借助于前面我們講的 OCR 技術(shù)來識別,識別的精準(zhǔn)度會(huì)大打折扣,甚至得不到任何結(jié)果。第二點(diǎn)是圖像的識別,我們需要將圖像重新轉(zhuǎn)化文字,可以借助于各種識圖接口,可經(jīng)我測試識別正確結(jié)果的準(zhǔn)確率非常低,經(jīng)常會(huì)出現(xiàn)匹配不正確或匹配不出結(jié)果的情況,而且圖片本身的的清晰度也不夠,所以識別難度會(huì)更大,更何況需要同時(shí)識別出八張圖片的結(jié)果,且其中幾個(gè)答案需要完全匹配正確才能驗(yàn)證通過,綜合來看,此種方法基本是不可行的。
再拿 TouClick 來說,如圖 8-21 所示:
圖 8-21 驗(yàn)證碼示例
我們需要從這幅圖片中識別出植株二字,但是圖片的背景或多或少會(huì)有干擾,導(dǎo)致 OCR 幾乎不會(huì)識別出結(jié)果,有人會(huì)說,直接識別白色的文字不就好了嗎?但是如果換一張驗(yàn)證碼呢?如圖 8-22 所示:
圖 8-22 驗(yàn)證碼示例
這張驗(yàn)證碼圖片的文字又變成了藍(lán)色,而且還又有白色陰影,識別的難度又會(huì)大大增加。
那么此類驗(yàn)證碼就沒法解了嗎?答案當(dāng)然是有,靠什么?靠人。
靠人解決?那還要程序做什么?不要急,這里說的人并不是我們自己去解,在互聯(lián)網(wǎng)上存在非常多的驗(yàn)證碼服務(wù)平臺(tái),平臺(tái) 7×24 小時(shí)提供驗(yàn)證碼識別服務(wù),一張圖片幾秒就會(huì)獲得識別結(jié)果,準(zhǔn)確率可達(dá) 90% 以上,但是就需要花點(diǎn)錢來購買服務(wù)了,畢竟平臺(tái)都是需要盈利的,不過不用擔(dān)心,識別一個(gè)驗(yàn)證碼只需要幾分錢。
在這里我個(gè)人比較推薦的一個(gè)平臺(tái)是超級鷹,其官網(wǎng)為:https://www.chaojiying.com,非廣告。
其提供的服務(wù)種類非常廣泛,可識別的驗(yàn)證碼類型非常多,其中就包括此類點(diǎn)觸驗(yàn)證碼。
另外超級鷹平臺(tái)同樣支持簡單的圖形驗(yàn)證碼識別,如果 OCR 識別有難度,同樣可以用本節(jié)相同的方法借助此平臺(tái)來識別,下面是此平臺(tái)提供的一些服務(wù):
英文數(shù)字,提供最多20位英文數(shù)字的混合識別
中文漢字,提供最多7個(gè)漢字的識別
純英文,提供最多12位的英文的識別
純數(shù)字,提供最多11位的數(shù)字的識別
任意特殊字符,提供不定長漢字英文數(shù)字、拼音首字母、計(jì)算題、成語混合、 集裝箱號等字符的識別
坐標(biāo)選擇識別,如復(fù)雜計(jì)算題、選擇題四選一、問答題、點(diǎn)擊相同的字、物品、動(dòng)物等返回多個(gè)坐標(biāo)的識別
具體如有變動(dòng)以官網(wǎng)為準(zhǔn):https://www.chaojiying.com/price.html。
而本節(jié)我們需要解決的就是屬于最后一類,坐標(biāo)多選識別的情況,我們需要做的就是將驗(yàn)證碼圖片提交給平臺(tái),然后平臺(tái)會(huì)返回識別結(jié)果在圖片中的坐標(biāo)位置,接下來我們再解析坐標(biāo)模擬點(diǎn)擊就好了。
原理非常簡單,下面我們就來實(shí)際用程序來實(shí)驗(yàn)一下。
5. 注冊賬號
在開始之前,我們需要先注冊一個(gè)超級鷹賬號并申請一個(gè)軟件ID,注冊頁面鏈接為:https://www.chaojiying.com/user/reg/,注冊完成之后還需要在后臺(tái)開發(fā)商中心添加一個(gè)軟件ID,最后一件事就是充值一些題分,充值多少可以根據(jù)價(jià)格和識別量自行決定。
6. 獲取API
做好上面的準(zhǔn)備工作之后我們就可以開始用程序來對接驗(yàn)證碼的識別了。
首先我們可以到官方網(wǎng)站下載對應(yīng)的 Python API,鏈接為:https://www.chaojiying.com/api-14.html,但是此 API 是Python2 版本的,是用 Requests 庫來實(shí)現(xiàn)的,我們可以簡單更改幾個(gè)地方即可將其修改為 Python3 版本。
修改之后的API如下:
import requests from hashlib import md5 class Chaojiying(object): def __init__(self, username, password, soft_id): self.username = username self.password = md5(password.encode('utf-8')).hexdigest() self.soft_id = soft_id self.base_params = { 'user': self.username, 'pass2': self.password, 'softid': self.soft_id, } self.headers = { 'Connection': 'Keep-Alive', 'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)', } def post_pic(self, im, codetype): """ im: 圖片字節(jié) codetype: 題目類型 參考 http://www.chaojiying.com/price.html """ params = { 'codetype': codetype, } params.update(self.base_params) files = {'userfile': ('ccc.jpg', im)} r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files, headers=self.headers) return r.json() def report_error(self, im_id): """ im_id:報(bào)錯(cuò)題目的圖片ID """ params = { 'id': im_id, } params.update(self.base_params) r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers) return r.json()
這里定義了一個(gè) Chaojiying 類,其構(gòu)造函數(shù)接收三個(gè)參數(shù),分別是超級鷹的用戶名、密碼以及軟件ID,保存好以備使用。
接下來是最重要的一個(gè)方法叫做 post_pic(),這里需要傳入圖片對象和驗(yàn)證碼的代號,該方法會(huì)將圖片對象和相關(guān)信息發(fā)給超級鷹的后臺(tái)進(jìn)行識別,然后將識別成功的 Json 返回回來。
另一個(gè)方法叫做 report_error(),這個(gè)是發(fā)生錯(cuò)誤的時(shí)候的回調(diào),如果驗(yàn)證碼識別錯(cuò)誤,調(diào)用此方法會(huì)返還相應(yīng)的題分。
接下來我們以 TouClick 的官網(wǎng)為例來進(jìn)行演示點(diǎn)觸驗(yàn)證碼的識別過程,鏈接為:http://admin.touclick.com/,如果沒有注冊賬號可以先注冊一個(gè)。
7. 初始化
首先我們需要初始化一些變量,如 WebDriver、Chaojiying對象等等,代碼實(shí)現(xiàn)如下:
EMAIL = 'cqc@cuiqingcai.com' PASSWORD = '' # 超級鷹用戶名、密碼、軟件ID、驗(yàn)證碼類型 CHAOJIYING_USERNAME = 'Germey' CHAOJIYING_PASSWORD = '' CHAOJIYING_SOFT_ID = 893590 CHAOJIYING_KIND = 9102 class CrackTouClick(): def __init__(self): self.url = 'http://admin.touclick.com/login.html' self.browser = webdriver.Chrome() self.wait = WebDriverWait(self.browser, 20) self.email = EMAIL self.password = PASSWORD self.chaojiying = Chaojiying(CHAOJIYING_USERNAME, CHAOJIYING_PASSWORD, CHAOJIYING_SOFT_ID)
這里的賬號和密碼請自行修改。
8. 獲取驗(yàn)證碼
接下來的第一步就是完善相關(guān)表單,然后模擬點(diǎn)擊呼出驗(yàn)證碼,此步非常簡單,代碼實(shí)現(xiàn)如下:
def open(self): """ 打開網(wǎng)頁輸入用戶名密碼 :return: None """ self.browser.get(self.url) email = self.wait.until(EC.presence_of_element_located((By.ID, 'email'))) password = self.wait.until(EC.presence_of_element_located((By.ID, 'password'))) email.send_keys(self.email) password.send_keys(self.password) def get_touclick_button(self): """ 獲取初始驗(yàn)證按鈕 :return: """ button = self.wait.until(EC.element_to_be_clickable((By.CLASS_NAME, 'touclick-hod-wrap'))) return button
在這里 open() 方法負(fù)責(zé)填寫表單,get_touclick_button() 方法則是獲取驗(yàn)證碼按鈕,隨后觸發(fā)點(diǎn)擊即可。
接下來我們需要類似上一節(jié)極驗(yàn)驗(yàn)證碼圖像獲取一樣,首先獲取驗(yàn)證碼圖片的位置和大小,隨后從網(wǎng)頁截圖里面截取相應(yīng)的驗(yàn)證碼圖片就好了。代碼實(shí)現(xiàn)如下:
def get_touclick_element(self): """ 獲取驗(yàn)證圖片對象 :return: 圖片對象 """ element = self.wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'touclick-pub-content'))) return element def get_position(self): """ 獲取驗(yàn)證碼位置 :return: 驗(yàn)證碼位置元組 """ element = self.get_touclick_element() time.sleep(2) location = element.location size = element.size top, bottom, left, right = location['y'], location['y'] + size['height'], location['x'], location['x'] + size[ 'width'] return (top, bottom, left, right) def get_screenshot(self): """ 獲取網(wǎng)頁截圖 :return: 截圖對象 """ screenshot = self.browser.get_screenshot_as_png() screenshot = Image.open(BytesIO(screenshot)) return screenshot def get_touclick_image(self, name='captcha.png'): """ 獲取驗(yàn)證碼圖片 :return: 圖片對象 """ top, bottom, left, right = self.get_position() print('驗(yàn)證碼位置', top, bottom, left, right) screenshot = self.get_screenshot() captcha = screenshot.crop((left, top, right, bottom)) return captcha
在這里 get_touclick_image() 方法即為從網(wǎng)頁截圖中截取對應(yīng)的驗(yàn)證碼圖片,其中驗(yàn)證碼圖片的相對位置坐標(biāo)由 get_position() 方法返回得到,最后我們得到的是一個(gè) Image 對象。
9. 識別驗(yàn)證碼
隨后我們調(diào)用 Chaojiying 對象的 post_pic() 方法即可把圖片發(fā)送給超級鷹后臺(tái),在這里發(fā)送的圖像是字節(jié)流格式,代碼實(shí)現(xiàn)如下:
image = self.get_touclick_image() bytes_array = BytesIO() image.save(bytes_array, format='PNG') # 識別驗(yàn)證碼 result = self.chaojiying.post_pic(bytes_array.getvalue(), CHAOJIYING_KIND) print(result)
這樣運(yùn)行之后 result 變量就是超級鷹后臺(tái)的識別結(jié)果,可能運(yùn)行需要等待幾秒,畢竟后臺(tái)還有人工來完成識別。
返回的結(jié)果是一個(gè) Json,如果識別成功后一個(gè)典型的返回結(jié)果類似如下:
{'err_no': 0, 'err_str': 'OK', 'pic_id': '6002001380949200001', 'pic_str': '132,127|56,77', 'md5': '1f8e1d4bef8b 11484cb1f1f34299865b'}
其中 pic_str 就是識別的文字的坐標(biāo),是以字符串形式返回的,每個(gè)坐標(biāo)都以 | 分隔,所以接下來我們只需要將其解析之后再模擬點(diǎn)擊即可,代碼實(shí)現(xiàn)如下:
def get_points(self, captcha_result): """ 解析識別結(jié)果 :param captcha_result: 識別結(jié)果 :return: 轉(zhuǎn)化后的結(jié)果 """ groups = captcha_result.get('pic_str').split('|') locations = [[int(number) for number in group.split(',')] for group in groups] return locations def touch_click_words(self, locations): """ 點(diǎn)擊驗(yàn)證圖片 :param locations: 點(diǎn)擊位置 :return: None """ for location in locations: print(location) ActionChains(self.browser).move_to_element_with_offset(self.get_touclick_element(), location[0], location[1]).click().perform() time.sleep(1)
在這里我們用 get_points() 方法將識別結(jié)果變成了列表的形式,最后 touch_click_words() 方法則通過調(diào)用 move_to_element_with_offset() 方法依次傳入解析后的坐標(biāo),然后點(diǎn)擊即可。
這樣我們就可以模擬完成坐標(biāo)的點(diǎn)選了,運(yùn)行效果如圖 8-23 所示:
圖 8-23 點(diǎn)選效果
最后我們需要做的就是點(diǎn)擊提交驗(yàn)證的按鈕等待驗(yàn)證通過,再點(diǎn)擊登錄按鈕即可成功登錄,后續(xù)實(shí)現(xiàn)在此不再贅述。
這樣我們就借助于在線驗(yàn)證碼平臺(tái)完成了點(diǎn)觸驗(yàn)證碼的識別,此種方法也是一種通用方法,用此方法來識別 12306 等驗(yàn)證碼也是完全相同的原理。
以上是Python3如何實(shí)現(xiàn)識別點(diǎn)觸點(diǎn)選驗(yàn)證碼的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對大家有幫助,更多相關(guān)知識,歡迎關(guān)注億速云行業(yè)資訊頻道!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。