您好,登錄后才能下訂單哦!
怎么在Python中利用Selenium破解滑塊驗證碼?針對這個問題,這篇文章詳細(xì)介紹了相對應(yīng)的分析和解答,希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。
selenium 支持 python2.7 以及 python3.5 等主流 python 版本,其安裝較為簡單,有網(wǎng)的環(huán)境下,打開cmd輸入即可自動安裝:
pip install selenium
selenium 安裝完成后,下載所選瀏覽器的 webdriver,本文以 ChromeDriver為例,下載解壓后切記將.exe文件放入對應(yīng)Python應(yīng)用程序的同級目錄下,以確保將 webdriver 的路徑添加至系統(tǒng) PATH 變量中。同時還需將.exe文件放入Chrome應(yīng)用程序的同級目錄下,注意下載的ChromeDriver版本需與Chrome瀏覽器版本對應(yīng)才可使用。ChromeDriver下載地址
#圖像處理標(biāo)準(zhǔn)庫 from PIL import Image #web測試 from selenium import webdriver #鼠標(biāo)操作 from selenium.webdriver.common.action_chains import ActionChains #等待時間 產(chǎn)生隨機(jī)數(shù) import time,random
本文以春秋官網(wǎng)為例:
保存滑塊驗證碼原圖到本地。
利用selenium進(jìn)入滑塊驗證碼頁面,截取所需頁面圖片。
通過圖片像素對比分析獲取缺口位置與滑塊移動距離。
機(jī)器模擬人工滑動軌跡。
首先通過selenium對網(wǎng)頁元素爬取進(jìn)入滑塊驗證碼頁面
#打開頁面至屏幕最大尺寸 driver = webdriver.Chrome() driver.get('https://account.ch.com/NonRegistrations-Regist') driver.maximize_window() #獲取輸入手機(jī)號碼的表單 input1 = driver.find_element_by_name('phoneNumberInput') # 輸入注冊號碼 input1.send_keys(phoneNumber) time.sleep(0.2) #獲取打開滑塊驗證碼頁面的元素 getcheck=driver.find_element_by_id('getDynamicPwd') #點擊進(jìn)入滑塊驗證碼頁面 getcheck.click()
上周國內(nèi)最大的驗證碼平臺極驗(GEETEST)進(jìn)行了滑塊驗證碼更新,向反爬蟲又邁進(jìn)了一步,新浪、斗魚等使用極驗驗證碼的各大網(wǎng)站頁也隨之更新,當(dāng)然春秋也不例外,此次更新顯然是針對了破解滑塊驗證碼的關(guān)鍵痛點,在此之前點擊獲取驗證碼,出現(xiàn)滑塊驗證碼界面之后并不會直接出現(xiàn)滑塊,此時可對屏幕進(jìn)行截圖,當(dāng)點擊滑動圓球之后才會出現(xiàn)滑塊與缺口,此時再次進(jìn)行截圖,即可根據(jù)兩次截圖的像素RGB值逐一遍歷,找到缺口位置。但更新之后點擊獲取驗證碼,直接會出現(xiàn)滑塊與缺口,如圖1所見。問題來了,現(xiàn)在沒有原圖作為參照,怎么找到缺口位置呢???仔細(xì)一想,其實這個問題并不難,無非就是需要一張原圖作為參照,經(jīng)過觀察發(fā)現(xiàn)每個網(wǎng)站的驗證碼背景圖片不過區(qū)區(qū)幾張,那么我們可以考慮通過人工滑動滑塊,在成功拼圖后出現(xiàn)完整原圖的那一瞬間進(jìn)行屏幕截圖,將原圖逐一截圖保存至本地,再通過缺口圖片與本地保存的原圖進(jìn)行像素RGB值匹配,原圖豈不速速現(xiàn)出原形,缺口圖圓球需滑至最右再進(jìn)行截圖,下文詳細(xì)解釋。
# 獲取拖拽的圓球 slideblock = driver.find_element_by_class_name('geetest_slider_button') # 鼠標(biāo)點擊圓球不松開 ActionChains(driver).click_and_hold(slideblock).perform() # 將圓球滑至相對起點位置的最右邊 ActionChains(driver).move_by_offset(xoffset=250, yoffset=0).perform() time.sleep(0.4) # 保存包含滑塊及缺口的頁面截圖 driver.save_screenshot('D:\quekou.png') # 放開圓球 ActionChains(driver).release(slideblock).perform() #打開保存至本地的缺口頁面截圖 quekouimg=Image.open('d://quekou.png') # 匹配本地對應(yīng)原圖 sourceimg=match_source(quekouimg) def match_source(image): imagea=Image.open('d://source1.png') imageb=Image.open('d://source2.png') imagec=Image.open('d://source3.png') imaged=Image.open('d://source4.png') list=[imagea,imageb,imagec,imaged] #通過像素差遍歷匹配本地原圖 for i in list: #本人電腦原圖與缺口圖對應(yīng)滑塊圖片橫坐標(biāo)相同,縱坐標(biāo)原圖比缺口圖大88px,可根據(jù)實際情況修改 pixel1=image.getpixel((868,340)) pixel2=i.getpixel((868,428)) #pixel[0]代表R值,pixel[1]代表G值,pixel[2]代表B值 if abs(pixel1[0]-pixel2[0])<5: return i return image
為了更快捷獲取滑塊移動距離,我們可以考慮將滑塊先滑至最右端再進(jìn)行截圖,因為采用從左往右對比遍歷的方式,采用這種方式能保證第一次獲取到的便是缺口位置,由于滑塊起點相同,此種方法可減少計算滑塊大小這一步(畢竟滑塊大小計算也是通過像素遍歷,沒必要再計算一次)。
# 獲取缺口位置 visualstack=get_diff_location(sourceimg,quekouimg) # 獲取移動距離loc,827為滑塊起點位置 loc=visualstack-827 # 計算滑塊位移距離 def get_diff_location(image1,image2): #(825,1082)(335,463)為滑塊圖片區(qū)域,可根據(jù)實際情況修改 for i in range(825,1082): for j in range(335,463): #遍歷原圖與缺口圖像素值尋找缺口位置 if is_similar(image1,image2,i,j)==False: return i return -1 # 對比RGB值得到缺口位置 def is_similar(image1,image2,x,y): pixel1=image1.getpixel((x, y+88)) pixel2=image2.getpixel((x, y)) # 截圖像素也許存在誤差,50作為容差范圍 if abs(pixel1[0]-pixel2[0])>=50 and abs(pixel1[1]-pixel2[1])>=50 and abs(pixel1[2]-pixel2[2])>=50: return False return True
接下來,破解滑塊驗證碼最關(guān)鍵也最難的一步來了,機(jī)器模擬人工滑動軌跡,或許你可以精準(zhǔn)滑動到缺口位置,但還是會被識別為機(jī)器被怪物吃掉拼圖,本人在測試的時候也是一把辛酸淚,最后經(jīng)過不斷調(diào)試學(xué)習(xí),得到一種通過率還OK的滑動軌跡算法,即采用物理加速度位移相關(guān)公式按照先快后慢的人工滑動規(guī)律進(jìn)行軌跡計算,同時還采用了模擬人滑動超過了缺口位置再滑回至缺口的情況以使軌跡更契合人工滑動軌跡。由于項目時間有限,本人就沒花過多時間研究了,如果想要99%通過率可以嘗試機(jī)器學(xué)習(xí),采集人工滑動軌跡進(jìn)行曲線擬合的方法獲取軌跡。
#滑塊移動軌跡 def get_track(self,distance): track=[] current=0 mid=distance*3/4 t=random.randint(2,3)/10 v=0 while current<distance: if current<mid: a=2 else: a=-3 v0=v v=v0+a*t move=v0*t+1/2*a*t*t current+=move track.append(round(move)) return track # 生成拖拽移動軌跡,加3是為了模擬滑過缺口位置后返回缺口的情況 track_list=get_track(loc+3) time.sleep(2) ActionChains(driver).click_and_hold(slideblock).perform() time.sleep(0.2) # 根據(jù)軌跡拖拽圓球 for track in track_list: ActionChains(driver).move_by_offset(xoffset=track,yoffset=0).perform() # 模擬人工滑動超過缺口位置返回至缺口的情況,數(shù)據(jù)來源于人工滑動軌跡,同時還加入了隨機(jī)數(shù),都是為了更貼近人工滑動軌跡 imitate=ActionChains(driver).move_by_offset(xoffset=-1, yoffset=0) time.sleep(0.015) imitate.perform() time.sleep(random.randint(6,10)/10) imitate.perform() time.sleep(0.04) imitate.perform() time.sleep(0.012) imitate.perform() time.sleep(0.019) imitate.perform() time.sleep(0.033) ActionChains(driver).move_by_offset(xoffset=1, yoffset=0).perform() # 放開圓球 ActionChains(driver).pause(random.randint(6,14)/10).release(slideblock).perform() time.sleep(2) #務(wù)必記得加入quit()或close()結(jié)束進(jìn)程,不斷測試電腦只會卡卡西 driver.close()
關(guān)于怎么在Python中利用Selenium破解滑塊驗證碼問題的解答就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關(guān)注億速云行業(yè)資訊頻道了解更多相關(guān)知識。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。