溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

記一次不太成功的爬取dingtalk上的企業(yè)的信息

發(fā)布時間：2020-08-10 18:34:32 來源：網(wǎng)絡閱讀：724 作者：luckky 欄目：編程語言

首先打開這個鏈接https://www.dingtalk.com/qiye/1.html，可以網(wǎng)頁列出了很多企業(yè)，點擊企業(yè)，就看到了企業(yè)的信息。
記一次不太成功的爬取dingtalk上的企業(yè)的信息
所以，我們的思路就很明確了，通過https://www.dingtalk.com/qiye/1.html這個入口鏈接獲取企業(yè)的URL，然后通過訪問企業(yè)的URL獲取企業(yè)的信息。在jupyter notebook中試一下。
記一次不太成功的爬取dingtalk上的企業(yè)的信息
企業(yè)的URL已經(jīng)獲取到了，然后再訪問企業(yè)的URL，看看能否獲取到企業(yè)的信息。
沒有。
寫請求頭，請求頭包含兩項，一個是cookie，一個user-agent。加上請求頭再試試看，有了。
記一次不太成功的爬取dingtalk上的企業(yè)的信息
發(fā)現(xiàn)企業(yè)信息在js代碼里，寫正則表達式

patterns = r'"businessInfoData":{"enterpriseName":"(.*?)","frName":"(.*?)","enterpriseType":"(.*?)","enterpriseStatus":"(.*?)","regCap":"(.*?)","regCapCur":"(.*?)","esDate":"(.*?)","regOrg":"(.*?)","operateScope":"(.*?)","address":"(.*?)","regNo":"(.*?)","creditCode":"(.*?)","region":"(.*?)"}'
results = re.findall(patterns, html)

ok，成功匹配出來
記一次不太成功的爬取dingtalk上的企業(yè)的信息
到此，發(fā)現(xiàn)很簡單了，立馬就把代碼給寫了出來，但發(fā)現(xiàn)一些問題，只有一部分企業(yè)的信息爬取了出來，大部分企業(yè)信息都獲取失敗了。這是咋回事呢，原來啊，有的企業(yè)URL源碼里有企業(yè)信息，而有的沒有。
記一次不太成功的爬取dingtalk上的企業(yè)的信息

然后，我查看完整企業(yè)信息，發(fā)現(xiàn)這個

但是，我無法構(gòu)造這個鏈接，憂傷。
所以，整個爬蟲到此為止。寫代碼的時候，原本想用入口鏈接不斷下一頁獲取所有企業(yè)URL，但一想，算了吧，直接簡單粗暴一點。然后呢，爬取的時候，爬取速度好慢。
最后，附上垃圾的源碼github。

向AI問一下細節(jié)

推薦閱讀：

免責聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權內(nèi)容。

上一篇新聞：
本地用戶、組的管理
下一篇新聞：
windows7桌面問題怎么解決_win7桌面圖標異常怎么辦

猜你喜歡

AI
助
手

產(chǎn)品服務

地區(qū)劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網(wǎng)站二維碼