您好,登錄后才能下訂單哦!
這篇文章給大家分享的是有關(guān)python中requests和selenium爬取excel vba的案例分析的內(nèi)容。小編覺(jué)得挺實(shí)用的,因此分享給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧。
目的:基于辦公與互聯(lián)網(wǎng)隔離,自帶的office軟件沒(méi)有帶本地幫助工具,因此在寫(xiě)vba程序時(shí)比較不方便(后來(lái)發(fā)現(xiàn)07有自帶,心中吐血,瞎折騰些什么)。所以想到通過(guò)爬蟲(chóng)在官方摘錄下來(lái)作為參考。
目標(biāo)網(wǎng)站:https://docs.microsoft.com/zh-cn/office/vba/api/overview/
所使工具:
python3.7,requests、selenium庫(kù)
前端方面:使用了jquery、jstree(用于方便的制作無(wú)限層級(jí)菜單
設(shè)計(jì)思路:
1、分析目標(biāo)頁(yè)面,可分出兩部分,左邊時(shí)導(dǎo)航,右邊是內(nèi)容顯示。
2、通過(guò)selenium對(duì)導(dǎo)航條進(jìn)行深度遍歷,取得導(dǎo)航條所有節(jié)點(diǎn)以及對(duì)應(yīng)的鏈接,并以jstree的數(shù)據(jù)格式存儲(chǔ)。
# 導(dǎo)航層級(jí)為 <ul> <li> <a>... <span>....
3、使用requests遍歷所有鏈接取得相應(yīng)主體頁(yè)面。
實(shí)現(xiàn):
# # parent 上級(jí)節(jié)點(diǎn) # wait_text 上級(jí)節(jié)點(diǎn)對(duì)應(yīng)的xpath路徑的文本項(xiàng) # level,limit 僅方便測(cè)試使用 # def GetMenuDick_jstree(parent,level,wait_text,limit=2): if level >= limit: return [] parent.click() l = [] num = 1 new_wati_text = wait_text + '/following-sibling::ul' # 只需要等待ul出來(lái)就可以了/li[' + str(ele_num) + ']' try: wait.until(EC.presence_of_element_located((By.XPATH,new_wati_text))) # 查詢子節(jié)點(diǎn)所有的 a節(jié)點(diǎn)和span節(jié)點(diǎn)(子菜單) childs = parent.find_elements_by_xpath('following-sibling::ul/li/span | following-sibling::ul/li/a') for i in childs: k = {} if i.get_attribute('role') == None: k['text'] = i.text # 如果是子菜單,進(jìn)行深度遍歷 k['children'] = GetMenuDick_jstree(i,level+1,new_wati_text + '/li[' + str(num) + ']/span',limit) else: # 網(wǎng)頁(yè)訪問(wèn)的Url無(wú)Html后綴,需要加上。去除無(wú)相關(guān)地址,形成相對(duì)路徑。 url_text = str(i.get_attribute('href')).replace('https://docs.microsoft.com/zh-cn/office/', '',1) + '.html' k['text'] = i.text k['a_attr'] = {"href":url_text,"target":"showframe"} lhref.append(str(i.get_attribute('href'))) num = num + 1 l.append(k) parent.click() # 最后收起來(lái) except Exception as e: print('error message:',str(e),'error parent:' ,parent.text,' new_wati_text:',new_wati_text,'num:',str(num)) lerror.append(parent.text) finally: return l
# data菜單,lhref為后續(xù)需要訪問(wèn)的地址。 # 找到第一個(gè)excel節(jié)點(diǎn),從excel開(kāi)始 data = [] lhref = [] lerror = [] k = {} browser.get(start_url) browser.set_page_load_timeout(10) #超時(shí)設(shè)置 xpath_text = '//li[contains(@class,"tree")]/span[text()="Excel"][1]' cl = browser.find_element_by_xpath(xpath_text) k = {'text':'Excel'} k['children'] = GetMenuDick_jstree(cl,1,xpath_text,20) data.append(k) # Writing JSON data with open(r'templete\data.json', 'w', encoding='utf-8') as f: json.dump(data, f)
進(jìn)行到這里,已經(jīng)擁有了excel vba下所有的菜單信息以及對(duì)應(yīng)的url。下來(lái)需要得到頁(yè)面主體。
實(shí)現(xiàn)思路:
1、遍歷所有url
2、通過(guò)url得到相應(yīng)的文件名
# # 根據(jù)網(wǎng)頁(yè)地址,得到文件名,并創(chuàng)建相應(yīng)文件夾 # def create_file(url): t = 'https://docs.microsoft.com/zh-cn/office/' # 替換掉字眼,然后根據(jù)路徑生成相應(yīng)文件夾 url = url.replace(t,"",1) lname = url.split('/') # 先判斷有沒(méi)有第一個(gè)文件夾 path = lname[0] if not os.path.isdir(path): os.mkdir(path) for l in lname[1:-1]: path = path + '\\' + str(l) if not os.path.isdir(path): os.mkdir(path) if len(lname) > 1: path = path + '\\' + lname[-1] + '.html' return path
3、訪問(wèn)url得到主體信息儲(chǔ)存。
# requests模式 # 循環(huán)遍歷,如果錯(cuò)誤,記錄下來(lái),以后再執(zhí)行 had_lhref = [] error_lhref = [] num = 1 for url in lhref: try: had_lhref.append(url) path = create_file(url) resp = requests.get(url,timeout=5,headers = headers) # 設(shè)置訪問(wèn)超時(shí),以及http頭 resp.encoding = 'utf-8' html = etree.HTML(resp.text) c = html.xpath('//main[@id="main"]') # tostring獲取標(biāo)簽所有html內(nèi)容,是字節(jié)類(lèi)型,要decode為字符串 content = html_head + etree.tostring(c[0], method='html').decode('utf-8') with open(path,'w', encoding='utf-8') as f: f.write(content) except Exception as e: print('error message:',str(e),'error url:',url) error_lhref.append(url) if num % 10 == 0 : print('done:',str(num) + '/' + str(len(lhref)),'error num:' + str(len(error_lhref))) #time.sleep(1) # 睡眠一下,防止被反 num = num + 1
現(xiàn)在,菜單信息與內(nèi)容都有了,需要構(gòu)建自己的主頁(yè),這里使用了jstree;2個(gè)html,index.html,menu.html。
index.html:使用frame頁(yè)面框架,相對(duì)隔離。
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=1, user-scalable=no"> <title>參考文檔</title> <script src="js/jquery.min.js"> </script> </head> <frameset rows="93%,7%"> <frameset cols="20%,80%" frameborder="yes" framespacing="1"> <frame src="menu.html" name="menuframe"/> <frame id="showframe" name="showframe" /> </frameset> <frameset frameborder="no" framespacing="1"> <frame src="a.html" /> </frameset> </frameset> </html>
menu.html:
1、引入了data.json,這樣在可以進(jìn)行離線調(diào)用,使用ajax.get讀取json的話,會(huì)提示跨域失??;
2、jstree會(huì)禁止<a>跳轉(zhuǎn)事件,所有需要通過(guò)監(jiān)聽(tīng)"change.tree"事件來(lái)進(jìn)行跳轉(zhuǎn)。
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>Title</title> <script src="js/jquery.min.js"></script> <link rel="stylesheet" href="themes/default/style.min.css" rel="external nofollow" /> <script src="js/jstree.min.js"></script> <script type="text/javascript" src="data.json"></script> </head> <body> <div> <form id="s"> <input type="search" id="q" /> <button type="submit">Search</button> </form> <div id="container"> </div> <div id="container"></div> <script> $(function () { $('#container').jstree({ "plugins": ["search", "changed"], 'core': { 'data': data, } }); }); $('#container').on("changed.jstree", function (e, data) { //console.log(data.changed.selected.length); // newly selected //console.log(data.changed.deselected); // newly deselected if (data.changed.selected.length > 0){ // 說(shuō)明轉(zhuǎn)換了,獲取url var url = data.node.a_attr.href // console.log(url) if (url == "#"){ }else{ parent[data.node.a_attr.target].location.href = url } }else{ } }) $("#s").submit(function (e) { e.preventDefault(); $("#container").jstree(true).search($("#q").val()); }); </script> </div> </body> </html>
感謝各位的閱讀!關(guān)于python中requests和selenium爬取excel vba的案例分析就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,讓大家可以學(xué)到更多知識(shí)。如果覺(jué)得文章不錯(cuò),可以把它分享出去讓更多的人看到吧!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。