<ol id="hsxqs"><nav id="hsxqs"><input id="hsxqs"></input></nav></ol>

<div id="hsxqs"><legend id="hsxqs"><menuitem id="hsxqs"></menuitem></legend></div>

<u id="hsxqs"><del id="hsxqs"></del></u>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

怎么用Python實(shí)現(xiàn)崗位分析報(bào)告

發(fā)布時(shí)間：2023-03-22 09:26:04 來(lái)源：億速云閱讀：102 作者：iii 欄目：開發(fā)技術(shù)

本篇內(nèi)容介紹了“怎么用Python實(shí)現(xiàn)崗位分析報(bào)告”的有關(guān)知識(shí)，在實(shí)際案例的操作過程中，不少人都會(huì)遇到這樣的困境，接下來(lái)就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧！希望大家仔細(xì)閱讀，能夠?qū)W有所成！

一、本文目標(biāo)

獲取 Ajax 請(qǐng)求,解析 JSON 中所需字段

數(shù)據(jù)保存到 Excel 中

數(shù)據(jù)保存到 MySQL, 方便分析

二、分析結(jié)果

1.引入庫(kù)

五個(gè)城市 Python 崗位平均薪資水平

2.頁(yè)面結(jié)構(gòu)

我們輸入查詢條件以 Python 為例，其他條件默認(rèn)不選，點(diǎn)擊查詢，就能看到所有 Python 的崗位了，然后我們打開控制臺(tái)，點(diǎn)擊網(wǎng)絡(luò)標(biāo)簽可以看到如下請(qǐng)求：

怎么用Python實(shí)現(xiàn)崗位分析報(bào)告

從響應(yīng)結(jié)果來(lái)看，這個(gè)請(qǐng)求正是我們需要的內(nèi)容。后面我們直接請(qǐng)求這個(gè)地址就好了。從圖中可以看出 result 下面就是各個(gè)崗位信息。

到這里我們知道了從哪里請(qǐng)求數(shù)據(jù)，從哪里獲取結(jié)果。但是 result 列表中只有第一頁(yè) 15 條數(shù)據(jù)，其他頁(yè)面數(shù)據(jù)怎么獲取呢？

3.請(qǐng)求參數(shù)

我們點(diǎn)擊參數(shù)選項(xiàng)卡，如下：

發(fā)現(xiàn)提交了三個(gè)表單數(shù)據(jù)，很明顯看出來(lái) kd 就是我們搜索的關(guān)鍵詞，pn 就是當(dāng)前頁(yè)碼。first 默認(rèn)就行了，不用管它。剩下的事情就是構(gòu)造請(qǐng)求，來(lái)下載 30 個(gè)頁(yè)面的數(shù)據(jù)了。

4.構(gòu)造請(qǐng)求解析數(shù)據(jù)

構(gòu)造請(qǐng)求很簡(jiǎn)單，我們還是用 requests 庫(kù)來(lái)搞定。首先我們構(gòu)造出表單數(shù)據(jù)

data = {'first': 'true', 'pn': page, 'kd': lang_name}

之后用 requests 來(lái)請(qǐng)求url地址，解析得到的 JSON 數(shù)據(jù)就算大功告成了。由于拉勾對(duì)爬蟲限制比較嚴(yán)格，我們需要把瀏覽器中 headers 字段全部加上，而且把爬蟲間隔調(diào)大一點(diǎn)，我后面設(shè)置的為 10-20s，然后就能正常獲取數(shù)據(jù)了。

import requests

def get_json(url, page, lang_name):
   headers = {
       'Host': 'www.lagou.com',
       'Connection': 'keep-alive',
       'Content-Length': '23',
       'Origin': 'https://www.lagou.com',
       'X-Anit-Forge-Code': '0',
       'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0',
       'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
       'Accept': 'application/json, text/javascript, */*; q=0.01',
       'X-Requested-With': 'XMLHttpRequest',
       'X-Anit-Forge-Token': 'None',
       'Referer': 'https://www.lagou.com/jobs/list_python?city=%E5%85%A8%E5%9B%BD&cl=false&fromSearch=true&labelWords=&suginput=',
       'Accept-Encoding': 'gzip, deflate, br',
       'Accept-Language': 'en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7'
   }
   data = {'first': 'false', 'pn': page, 'kd': lang_name}
   json = requests.post(url, data, headers=headers).json()
   list_con = json['content']['positionResult']['result']
   info_list = []
   for i in list_con:
       info = []
       info.append(i.get('companyShortName', '無(wú)'))
       info.append(i.get('companyFullName', '無(wú)'))
       info.append(i.get('industryField', '無(wú)'))
       info.append(i.get('companySize', '無(wú)'))
       info.append(i.get('salary', '無(wú)'))
       info.append(i.get('city', '無(wú)'))
       info.append(i.get('education', '無(wú)'))
       info_list.append(info)
   return info_list

4.獲取所有數(shù)據(jù)

了解了如何解析數(shù)據(jù)，剩下的就是連續(xù)請(qǐng)求所有頁(yè)面了，我們構(gòu)造一個(gè)函數(shù)來(lái)請(qǐng)求所有 30 頁(yè)的數(shù)據(jù)。

def main():
   lang_name = 'python'
   wb = Workbook()
   conn = get_conn()
   for i in ['北京', '上海', '廣州', '深圳', '杭州']:
       page = 1
       ws1 = wb.active
       ws1.title = lang_name
       url = 'https://www.lagou.com/jobs/positionAjax.json?city={}&needAddtionalResult=false'.format(i)
       while page < 31:
           info = get_json(url, page, lang_name)
           page += 1
           import time
           a = random.randint(10, 20)
           time.sleep(a)
           for row in info:
               insert(conn, tuple(row))
               ws1.append(row)
   conn.close()
   wb.save('{}職位信息.xlsx'.format(lang_name))

if __name__ == '__main__':
   main()

“怎么用Python實(shí)現(xiàn)崗位分析報(bào)告”的內(nèi)容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注億速云網(wǎng)站，小編將為大家輸出更多高質(zhì)量的實(shí)用文章！

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
Spring中ApplicationContextAware如何使用
下一篇新聞：
java.util.HashMap$Values?cannot?be?cast?to?java.ut問題怎么解決

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼