您好,登錄后才能下訂單哦!
首先打開這個鏈接https://www.dingtalk.com/qiye/1.html
,可以網(wǎng)頁列出了很多企業(yè),點擊企業(yè),就看到了企業(yè)的信息。
所以,我們的思路就很明確了,通過https://www.dingtalk.com/qiye/1.html
這個入口鏈接獲取企業(yè)的URL,然后通過訪問企業(yè)的URL獲取企業(yè)的信息。在jupyter notebook中試一下。
企業(yè)的URL已經(jīng)獲取到了,然后再訪問企業(yè)的URL,看看能否獲取到企業(yè)的信息。
沒有。
寫請求頭,請求頭包含兩項,一個是cookie,一個user-agent。加上請求頭再試試看,有了。
發(fā)現(xiàn)企業(yè)信息在js代碼里,寫正則表達式
patterns = r'"businessInfoData":{"enterpriseName":"(.*?)","frName":"(.*?)","enterpriseType":"(.*?)","enterpriseStatus":"(.*?)","regCap":"(.*?)","regCapCur":"(.*?)","esDate":"(.*?)","regOrg":"(.*?)","operateScope":"(.*?)","address":"(.*?)","regNo":"(.*?)","creditCode":"(.*?)","region":"(.*?)"}'
results = re.findall(patterns, html)
ok,成功匹配出來
到此,發(fā)現(xiàn)很簡單了,立馬就把代碼給寫了出來,但發(fā)現(xiàn)一些問題,只有一部分企業(yè)的信息爬取了出來,大部分企業(yè)信息都獲取失敗了。這是咋回事呢,原來啊,有的企業(yè)URL源碼里有企業(yè)信息,而有的沒有。
然后,我查看完整企業(yè)信息,發(fā)現(xiàn)這個
但是,我無法構(gòu)造這個鏈接,憂傷。
所以,整個爬蟲到此為止。寫代碼的時候,原本想用入口鏈接不斷下一頁獲取所有企業(yè)URL,但一想,算了吧,直接簡單粗暴一點。然后呢,爬取的時候,爬取速度好慢。
最后,附上垃圾的源碼github。
免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權內(nèi)容。