您好,登錄后才能下訂單哦!
今天教大家用元件組合,做一個網(wǎng)頁圖片爬蟲。
需要用到的元件:循環(huán)控制器+計數(shù)器+xpath提前器+函數(shù)嵌套+beanshell代碼
首先我們確定一下要爬取的圖片網(wǎng)站:https://dp.pconline.com.cn/list/all_t5.html
通過F12觀察一下他的html代碼,發(fā)現(xiàn)這些圖片都是通過href鏈接跳轉(zhuǎn)之后,訪問的src圖片
那么我們可以考慮先對網(wǎng)站發(fā)起請求,通過xpath表達式提取到圖片的src,也就是圖片的訪問鏈接
然后再通過xpath提取出這些圖片的標(biāo)題
因為考慮到每一組圖片和標(biāo)題都是一一對應(yīng)的,因此這里提取出來的匹配數(shù)字也可以認為是一一對應(yīng)。
在dubug中我們可以看到,url和標(biāo)題都提取了50個,且一一對應(yīng)。
?
在循環(huán)控制器中添加一個計數(shù)器,用來計算需要執(zhí)行爬取的次數(shù)
?
添加一個http請求,在循環(huán)控制器下,循環(huán)對debug中獲取到的url發(fā)起請求,同時遍歷寫入圖片標(biāo)題
每一次發(fā)起請求之后,都把請求獲取的圖片通過代碼寫入本地,同時遍歷寫入圖片名稱
執(zhí)行腳本觀察響應(yīng)結(jié)果,觀察本地文件寫入結(jié)果
?
?
友情提示:這一套爬蟲腳本,摒棄了以往通過foreach控制器遍歷進行爬蟲的方法。轉(zhuǎn)而通過函數(shù)嵌套的方式,同步遍歷多個參數(shù)進行文件寫入。難點就在于函數(shù)嵌套遍歷的理解和xpath元素定位,希望大家好好研究,有問題可以和我進行探討!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。