<blockquote id="up6d6"><optgroup id="up6d6"></optgroup></blockquote>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

Python中怎么爬取金融市場(chǎng)數(shù)據(jù)

發(fā)布時(shí)間：2021-07-05 17:27:45 來(lái)源：億速云閱讀：571 作者：Leah 欄目：編程語(yǔ)言

這期內(nèi)容當(dāng)中小編將會(huì)給大家?guī)?lái)有關(guān)Python中怎么爬取金融市場(chǎng)數(shù)據(jù)，文章內(nèi)容豐富且以專業(yè)的角度為大家分析和敘述，閱讀完這篇文章希望大家可以有所收獲。

1、正則表達(dá)式

具體的詳細(xì)介紹可自行去網(wǎng)上補(bǔ)知識(shí)，這里只介紹一些規(guī)則和常用的用法。

# 正則表達(dá)式 規(guī)則：     單字符：             .  ： 除換行以外所有字符             [] ： 匹配集合中任意一個(gè)字符             \d ： 數(shù)字             \D ： 非數(shù)字             \w ： 數(shù)字、字母、下劃線、中文             \W ： 非數(shù)字、字母、下劃線、中文             \s ： 空格             \S ： 非空格     數(shù)量修飾：              * ： 任意多次              + ： 至少1次              ？： 非貪婪方式，可有可無(wú)            {m} ： 固定m次           {m+} ： 至少m次          {m,n} ： m到n次     起始：              ^ : 以啥啥開(kāi)頭              $ : 以啥啥結(jié)尾     常用組合和函數(shù)：             .* : 貪婪方式任意字符任意次數(shù)            .*? : 非貪婪方式任意字符任意次數(shù)            r = re.compile(r'正則表達(dá)式',re.S) :                                最常用：將規(guī)則傳遞給某個(gè)參數(shù)以便反復(fù)使用            re.match\re.search\（字符串）            re.findall（字符串）            re.sub(正則表達(dá)式，替換內(nèi)容，字符串)

2、bs4

同樣，詳細(xì)知識(shí)自行補(bǔ)，這里只介紹常用的用法：select結(jié)合選擇器的用法。

# bs4用法 首先加載里面的BeautifulSoup： from bs4 import BeautifulSoup soup = BeautifulSoup('網(wǎng)頁(yè)響應(yīng)回來(lái)的東西')

主要有以下幾種提取規(guī)則：

1、獲取標(biāo)簽     soup.a   獲取a標(biāo)簽（***個(gè)） 2、獲取屬性     soup.a.attrs   獲取a標(biāo)簽下所有的屬性和值，返回的是字典     soup.a['name'] 獲取a標(biāo)簽下的name屬性 3、獲取內(nèi)容     soup.a.string()     soup.a.text()   建議使用這個(gè) 4、find用法     soup.find('a')  找到***個(gè)a     soup.find('a',title='')  附加條件的查找 5、find_all用法     soup.find_all('a')  找到所有a     soup.find_all(['a','b']) 找到所有a和b     soup.find_all('a',limit=5) 找到前5個(gè)a 6、select用法&mdash;&mdash;重點(diǎn)     結(jié)合選擇器使用，常用的選擇器如下：     標(biāo)簽選擇器：如div表示為div     類選擇器：.表示，如class = 'you'表示為.you     id選擇器：#表示，如id = 'me'表示為#me     組合選擇器：如div,.you,#me       層級(jí)選擇器：如div .you #me表示選取div標(biāo)簽下的you類下的id為me的內(nèi)容               再如div > .you > #me，> 則表示只能是下面一級(jí)

三、開(kāi)始實(shí)戰(zhàn)——爬取某信托網(wǎng)的信托在售數(shù)據(jù)

1、爬取前的準(zhǔn)備工作——梳理好代碼的邏輯

正如前面所說(shuō)，寫代碼之前，首先要清楚你想要干什么，如果是你，你是什么樣的動(dòng)作來(lái)達(dá)到你的這個(gè)目的或意圖。

***，你的目的或意圖是什么，對(duì)于本例而言，我需要獲取任意某頁(yè)至某頁(yè)信托在售產(chǎn)品的下面數(shù)據(jù)：產(chǎn)品名稱、發(fā)行機(jī)構(gòu)、發(fā)行時(shí)間、***收益、產(chǎn)品期限、投資行業(yè)、發(fā)行地、收益分配方式、發(fā)行規(guī)模、***收益、***收益和利率等級(jí)劃分情況這12個(gè)數(shù)據(jù)。

第二，如果是人，需要哪些動(dòng)作來(lái)達(dá)到這個(gè)目的。我們來(lái)看下網(wǎng)頁(yè)。動(dòng)作就清晰了：

輸入網(wǎng)址/搜索關(guān)鍵字 > 進(jìn)入網(wǎng)站 > 點(diǎn)擊紅色框框里的信托產(chǎn)品和在售 > 錄入下面綠色框框里的相關(guān)信息 > 發(fā)現(xiàn)信息不全，再點(diǎn)擊這個(gè)產(chǎn)品，在詳情頁(yè)(再下一張圖)繼續(xù)錄入。

Python中怎么爬取金融市場(chǎng)數(shù)據(jù)

Python中怎么爬取金融市場(chǎng)數(shù)據(jù)

2、開(kāi)始爬取

既然動(dòng)作清晰了，那就可以讓計(jì)算機(jī)來(lái)模擬人的這個(gè)動(dòng)作進(jìn)行爬取了。

然后就是寫代碼的邏輯了。我們用做數(shù)學(xué)題常用的倒推法來(lái)梳理這個(gè)過(guò)程。

要想獲取數(shù)據(jù) < 你得解析網(wǎng)頁(yè)給你的響應(yīng) < 你得有個(gè)響應(yīng) < 你得發(fā)送請(qǐng)求 < 你得有個(gè)請(qǐng)求request < 你得有個(gè)url。

然后我們?cè)僬^(guò)來(lái)解題：獲取url > 構(gòu)建request > 發(fā)送請(qǐng)求 > 獲取響應(yīng) > 解析響應(yīng) > 獲取所需數(shù)據(jù) > 保存數(shù)據(jù)。

所以按照這個(gè)步驟，我們可以先做出一個(gè)大框架，然后在框架的基礎(chǔ)上補(bǔ)充血肉。大框架，就是定義個(gè)主函數(shù)。

值得注意的是，本例中，每個(gè)產(chǎn)品的信息獲取，我們都有二次點(diǎn)擊的動(dòng)作，即***頁(yè)數(shù)據(jù)不全，我們?cè)冱c(diǎn)擊進(jìn)入詳情頁(yè)進(jìn)行剩余數(shù)據(jù)的獲取，因此，本例是有兩層的數(shù)據(jù)獲取過(guò)程的。***層使用正則表達(dá)式，第二層使用bs4。

① 定義主函數(shù)

如下是這個(gè)主函數(shù)，前面的寫入相關(guān)數(shù)據(jù)你可以先不管，這都是在***步的獲取url時(shí)，后補(bǔ)過(guò)來(lái)的。

回到前面的目的：提取任意某頁(yè)至任意某頁(yè)的數(shù)據(jù)，所以寫個(gè)循環(huán)是必須的，然后在循環(huán)下方，兩層網(wǎng)頁(yè)的數(shù)據(jù)獲取框架就出來(lái)了。(由于第二層網(wǎng)頁(yè)的url是根據(jù)***層網(wǎng)頁(yè)的某個(gè)數(shù)據(jù)拼接出來(lái)的，而***層網(wǎng)頁(yè)是一下子提取整個(gè)頁(yè)面所有產(chǎn)品的信息，所以第二層網(wǎng)頁(yè)的提取也設(shè)置了個(gè)循環(huán)，對(duì)***層網(wǎng)頁(yè)的所有產(chǎn)品，一個(gè)一個(gè)點(diǎn)進(jìn)去進(jìn)行提取)

# 定義一個(gè)主函數(shù) def main():      # 寫入相關(guān)數(shù)據(jù)     url_1 = 'http://www.某信托網(wǎng).com/Action/ProductAJAX.ashx?'     url_2 = 'http://www.某信托網(wǎng)/Product/Detail.aspx?'     size = input('請(qǐng)輸入每頁(yè)顯示數(shù)量:')     start_page = int(input('請(qǐng)輸入起始頁(yè)碼:'))     end_page = int(input('請(qǐng)輸入結(jié)束頁(yè)碼'))     type = input('請(qǐng)輸入產(chǎn)品類型（1代表信托，2代表資管）:')       items = []                # 定義一個(gè)空列表用來(lái)存儲(chǔ)數(shù)據(jù)      # 寫循環(huán)爬取每一頁(yè)     for page in range(start_page, end_page + 1):      # ***層網(wǎng)頁(yè)的爬取流程         print('第{}頁(yè)開(kāi)始爬取'.format(page))          # 1、拼接url&mdash;&mdash;可定義一個(gè)分函數(shù)1：joint         url_new = joint(url_1 ,size=size ,page=page ,type=type)          # 2、發(fā)起請(qǐng)求，獲取響應(yīng)&mdash;&mdash;可定義一個(gè)分函數(shù)2：que_res         response = que_res(url_new)          # 3、解析內(nèi)容，獲取所需數(shù)據(jù)&mdash;&mdash;可定義一個(gè)分函數(shù)3：parse_content_1         contents = parse_content_1(response)          # 4、休眠2秒         time.sleep(2)      # 第二層網(wǎng)頁(yè)的爬取流程          for content in contents:             print('    第{}頁(yè){}開(kāi)始下載'.format(page ,content[0]))              # 1、拼接url             id = content[0]             url_2_new = joint(url_2 ,id=id)      # joint為前面定義的第1個(gè)函數(shù)              # 2、發(fā)起請(qǐng)求，獲取響應(yīng)             response_2 = que_res(url_2_new)     # que_res為前面定義的第2個(gè)函數(shù)              # 3、解析內(nèi)容，獲取所需數(shù)據(jù)&mdash;&mdash;可定義一個(gè)分函數(shù)4：parse_content_2，直接返回字典格式的數(shù)據(jù)             item = parse_content_2(response_2 ,content)              # 存儲(chǔ)數(shù)據(jù)             items.append(item)             print('    第{}頁(yè){}結(jié)束下載'.format(page ,content[0]))              # 休眠5秒             time.sleep(5)          print('第{}頁(yè)結(jié)束爬取'.format(page))      # 保存數(shù)據(jù)為dataframe格式CSV文件     df = pd.DataFrame(items)     df.to_csv('data.csv' ,index=False ,sep=',' ,encoding='utf-8-sig')     print('*'*30)    print('全部爬取結(jié)束')  if __name__ == '__main__':     main()

② 獲取url —— ***層和第二層通用

由于我們需要訪問(wèn)兩層的數(shù)據(jù)，所以希望定義一個(gè)函數(shù)，能對(duì)兩層的URL都可以進(jìn)行拼接。

如下圖為***層頁(yè)面的內(nèi)容和源碼，由第二個(gè)紅框中的內(nèi)容(X-Requested-With:XMLHttpRequest)，可知這是一個(gè)AJAX get請(qǐng)求，且攜帶者第三個(gè)紅框中的數(shù)據(jù)，而第三個(gè)紅框中的數(shù)據(jù)，又恰好是***個(gè)紅框中的url的一部分，即為：

http://www.某信托網(wǎng).com/Action/ProductAJAX.ashx?加上第三個(gè)紅框中的數(shù)據(jù)。

第三個(gè)框框中包括幾個(gè)可變的數(shù)據(jù)：pageSize(表示一頁(yè)顯示多少產(chǎn)品);pageIndex(表示第幾頁(yè));conditionStr(定義產(chǎn)品類型，1表示信托，2表示資管)，其余的數(shù)據(jù)都是固定的(這其中有個(gè)_:1544925791285這種下劃線帶一串?dāng)?shù)字的東西，像是個(gè)隨機(jī)數(shù)，去掉也沒(méi)影響，我就給去掉了)。

Python中怎么爬取金融市場(chǎng)數(shù)據(jù)

下圖為第二層頁(yè)面的內(nèi)容和源碼，可見(jiàn)只是一個(gè)簡(jiǎn)單的get請(qǐng)求，且網(wǎng)址很簡(jiǎn)單，就是一個(gè)http://www.某信托網(wǎng).com/Product/Detail.aspx?加上一個(gè)id，而這個(gè)id又來(lái)自哪里呢，答案就在***層網(wǎng)頁(yè)的響應(yīng)數(shù)據(jù)中(見(jiàn)再下面一幅圖的紅色框)。

Python中怎么爬取金融市場(chǎng)數(shù)據(jù)

Python中怎么爬取金融市場(chǎng)數(shù)據(jù)

通過(guò)上面的分析，***層網(wǎng)頁(yè)的請(qǐng)求url由一個(gè)固定的部分加上一些數(shù)據(jù)，第二層網(wǎng)頁(yè)的url依賴于***層的數(shù)據(jù)，我們先在主函數(shù)中將url_1、url_2和一些可變的數(shù)據(jù)寫入(見(jiàn)上面的主函數(shù))，然后定義一個(gè)函數(shù)用來(lái)拼接兩層的url即可，因?yàn)?**層網(wǎng)頁(yè)url的固定部分長(zhǎng)度為47，第二層的為43，這里使用一個(gè)長(zhǎng)度條件來(lái)判斷是拼接***層還是拼接第二層。

# 定義第1個(gè)分函數(shù)joint，用來(lái)拼接url def joint(url,size=None,page=None,type=None,id=None):     if len(url) > 45:         condition = 'producttype:' + type + '|status:在售'         data = {         'mode': 'statistics',         'pageSize': size,         'pageIndex': str(page),         'conditionStr': condition,         'start_released': '',         'end_released': '',         'orderStr': '1',         'ascStr': 'ulup'         }         joint_str = urllib.parse.urlencode(data)         url_new = url + joint_str     else:         data = {             'id':id             }         joint_str = urllib.parse.urlencode(data)         url_new = url + joint_str     return url_new

③ 構(gòu)建request + 獲取response一條龍 —— ***層和第二層通用

獲取url后，接下來(lái)就是構(gòu)建request用來(lái)發(fā)送請(qǐng)求獲取響應(yīng)了，此處定義一個(gè)函數(shù)實(shí)現(xiàn)一條龍服務(wù)。

這里為了提防反爬，user_agent在多個(gè)里隨機(jī)選，并使用了代理池(雖然不多)，并且我電腦端也進(jìn)行了局域網(wǎng)ip代理。

# 定義第2個(gè)函數(shù)que_res，用來(lái)構(gòu)建request發(fā)送請(qǐng)求，并返回響應(yīng)response def que_res(url):      # 構(gòu)建request的***步&mdash;&mdash;構(gòu)建頭部：headers     USER_AGENTS = [          "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)",         "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)",         "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)",         "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)",         "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)",         "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; TencentTraveler 4.0)",         "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)",         "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; The World)",         "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Avant Browser)",         "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)",         ]     user_agent = random.choice(USER_AGENTS)     headers = {         'Accept-Language': 'zh-CN,zh;q=0.8',         'Connection': 'keep-alive',          'Host': 'www.某信托網(wǎng).com',         'Referer': 'http://www.某信托網(wǎng).com/Product/Index.aspx',         'User-Agent': user_agent,         'X-Requested-With': 'XMLHttpRequest'         }      # 構(gòu)建request的第二步&mdash;&mdash;構(gòu)建request     request = urllib.request.Request(url=url, headers=headers)       # 發(fā)起請(qǐng)求的***步&mdash;&mdash;構(gòu)建代理池     proxy_list = [               {'http':'125.40.29.100:8118'},         {'http':'14.118.135.10:808'}         ]     proxy = random.choice(proxy_list)      # 發(fā)起請(qǐng)求的第二步&mdash;&mdash;創(chuàng)建handler和opener     handler = urllib.request.ProxyHandler(proxy)     opener = urllib.request.build_opener(handler)      # 發(fā)起請(qǐng)求的第三步&mdash;&mdash;發(fā)起請(qǐng)求，獲取響應(yīng)內(nèi)容并解碼     response = opener.open(request).read().decode()      # 返回值     return response

④ 解析***層網(wǎng)頁(yè)的內(nèi)容

獲取響應(yīng)之后就是解析并提取數(shù)據(jù)了，***層使用正則表達(dá)式的方法來(lái)進(jìn)行。

獲取的response如下如：

Python中怎么爬取金融市場(chǎng)數(shù)據(jù)

因此可寫出如下正則，從左到右分配匹配出ID、產(chǎn)品名稱、發(fā)行機(jī)構(gòu)、發(fā)行時(shí)間、產(chǎn)品期限、投資行業(yè)、首頁(yè)收益。

# 定義第3個(gè)函數(shù)parse_content_1，用來(lái)解析并匹配***層網(wǎng)頁(yè)內(nèi)容，此處使用正則表達(dá)式方法 def parse_content_1(response):      # 寫正則進(jìn)行所需數(shù)據(jù)的匹配     re_1 = re.compile(     r'{"ROWID".*?"ID":"(.*?)","Title":"(.*?)","producttype".*?"issuers":"(.*?)","released":"(.*?) 0:00:00","PeriodTo":(.*?),"StartPrice".*?"moneyinto":"(.*?)","EstimatedRatio1":(.*?),"status":.*?"}')     contents = re_1.findall(response)     return contents

⑤ 解析第二層網(wǎng)頁(yè)的內(nèi)容并輸出數(shù)據(jù)

第二層使用bs4中的select+選擇器的方法來(lái)進(jìn)行。除了***層所提取的數(shù)據(jù)外，還需要發(fā)行地、收益分配方式、發(fā)行規(guī)模、***收益、***收益和利率等級(jí)分布情況。

網(wǎng)頁(yè)如下，可見(jiàn)，我們所需要的信息隱藏在一個(gè)又一個(gè)tr標(biāo)簽里，而這個(gè)tr標(biāo)簽處于id=“procon1”下的一個(gè)table標(biāo)簽里(此處有個(gè)坑，就是從網(wǎng)頁(yè)來(lái)看，table下還有個(gè)tbody標(biāo)簽，而實(shí)際得到的響應(yīng)里并沒(méi)有)。

Python中怎么爬取金融市場(chǎng)數(shù)據(jù)

由于我們不是所有的信息都要，所以我們可以一個(gè)一個(gè)的提取，最終輸出個(gè)數(shù)據(jù)。代碼如下(這中間用到了前面提到的選擇器知識(shí)和一些字符串處理方法)：

# 定義第4個(gè)函數(shù)parse_content_2，用來(lái)解析并匹配第二層網(wǎng)頁(yè)內(nèi)容，并輸出數(shù)據(jù)，此處使用BeautifulSoup方法 def parse_content_2(response,content):      # 使用bs4進(jìn)行爬取第二層信息     soup = BeautifulSoup(response)      # 爬取發(fā)行地和收益分配方式，該信息位于id為procon1下的table下的第4個(gè)tr里     tr_3 = soup.select('#procon1 > table > tr')[3] address = tr_3.select('.pro-textcolor')[0].text r_style = tr_3.select('.pro-textcolor')[1].text       # 爬取發(fā)行規(guī)模，該信息位于id為procon1下的table下的第5個(gè)tr里     tr_4 = soup.select('#procon1 > table > tr')[4] guimo = tr_4.select('.pro-textcolor')[1].text re_2 = re.compile(r'.*?(\d+).*?', re.S)      scale = re_2.findall(guimo)[0]    # 爬取收益率，該信息位于id為procon1下的table下的第8個(gè)tr里     tr_7 = soup.select('#procon1 > table > tr')[7] rate = tr_7.select('.pro-textcolor')[0].text[:(-1)] r = rate.split('至')   r_min = r[0]     r_max = r[1]      # 提取利率等級(jí)     tr_11 = soup.select('#procon1 > table > tr')[11] r_grade = tr_11.select('p')[0].text      # 保存數(shù)據(jù)到一個(gè)字典中     item = {     '產(chǎn)品名稱':content[1],     '發(fā)行機(jī)構(gòu)':content[2],     '發(fā)行時(shí)間':content[3],     '產(chǎn)品期限':content[4],     '投資行業(yè)':content[5],     '首頁(yè)收益':content[6],     '發(fā)行地': address,     '收益分配方式': r_style,     '發(fā)行規(guī)模': scale,     '***收益': r_min,     '***收益': r_max,     '利率等級(jí)': r_grade     }      # 返回?cái)?shù)據(jù)     return item

⑥ 保存數(shù)據(jù)到本地(以dataframe格式保存到本地CSV格式)

# 保存數(shù)據(jù)為dataframe格式CSV文件     df = pd.DataFrame(items)     df.to_csv('data.csv',index=False,sep=',',encoding='utf-8-sig')  好了，現(xiàn)在就大功告成了，***不要只讓自己爽，也要讓對(duì)方的服務(wù)器別太難過(guò)，在一些地方休眠幾秒，完整代碼如下。  import urllib.request import urllib.parse import re import random from bs4 import BeautifulSoup import pandas as pd import time  # 定義第1個(gè)分函數(shù)joint，用來(lái)拼接url def joint(url,size=None,page=None,type=None,id=None):     if len(url) > 45:         condition = 'producttype:' + type + '|status:在售'         data = {         'mode': 'statistics',         'pageSize': size,         'pageIndex': str(page),         'conditionStr': condition,         'start_released': '',         'end_released': '',         'orderStr': '1',         'ascStr': 'ulup'         }         joint_str = urllib.parse.urlencode(data)         url_new = url + joint_str     else:         data = {             'id':id             }         joint_str = urllib.parse.urlencode(data)         url_new = url + joint_str     return url_new  # 定義第2個(gè)函數(shù)que_res，用來(lái)構(gòu)建request發(fā)送請(qǐng)求，并返回響應(yīng)response def que_res(url):      # 構(gòu)建request的***步&mdash;&mdash;構(gòu)建頭部：headers     USER_AGENTS = [          "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)",         "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)",         "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)",         "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)",         "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)",         "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; TencentTraveler 4.0)",         "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)",         "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; The World)",         "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Avant Browser)",         "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)",         ]     user_agent = random.choice(USER_AGENTS)     headers = {         'Accept-Language': 'zh-CN,zh;q=0.8',         'Connection': 'keep-alive',          'Host': 'www.某信托網(wǎng).com',         'Referer': 'http://www.某信托網(wǎng).com/Product/Index.aspx',         'User-Agent': user_agent,         'X-Requested-With': 'XMLHttpRequest'         }      # 構(gòu)建request的第二步&mdash;&mdash;構(gòu)建request     request = urllib.request.Request(url=url, headers=headers)       # 發(fā)起請(qǐng)求的***步&mdash;&mdash;構(gòu)建代理池     proxy_list = [               {'http':'125.40.29.100:8118'},         {'http':'14.118.135.10:808'}         ]     proxy = random.choice(proxy_list)      # 發(fā)起請(qǐng)求的第二步&mdash;&mdash;創(chuàng)建handler和opener     handler = urllib.request.ProxyHandler(proxy)     opener = urllib.request.build_opener(handler)      # 發(fā)起請(qǐng)求的第三步&mdash;&mdash;發(fā)起請(qǐng)求，獲取響應(yīng)內(nèi)容并解碼     response = opener.open(request).read().decode()      # 返回值     return response  # 定義第3個(gè)函數(shù)parse_content_1，用來(lái)解析并匹配***層網(wǎng)頁(yè)內(nèi)容，此處使用正則表達(dá)式方法 def parse_content_1(response):      # 寫正則進(jìn)行所需數(shù)據(jù)的匹配     re_1 = re.compile(     r'{"ROWID".*?"ID":"(.*?)","Title":"(.*?)","producttype".*?"issuers":"(.*?)","released":"(.*?) 0:00:00","PeriodTo":(.*?),"StartPrice".*?"moneyinto":"(.*?)","EstimatedRatio1":(.*?),"status":.*?"}')     contents = re_1.findall(response)     return contents  # 定義第4個(gè)函數(shù)parse_content_2，用來(lái)解析并匹配第二層網(wǎng)頁(yè)內(nèi)容，并輸出數(shù)據(jù)，此處使用BeautifulSoup方法 def parse_content_2(response,content):      # 使用bs4進(jìn)行爬取第二層信息     soup = BeautifulSoup(response)      # 爬取發(fā)行地和收益分配方式，該信息位于id為procon1下的table下的第4個(gè)tr里     tr_3 = soup.select('#procon1 > table > tr')[3]         #select到第四個(gè)目標(biāo)tr     address = tr_3.select('.pro-textcolor')[0].text        #select到該tr下的class為pro-textcolor的***個(gè)內(nèi)容（發(fā)行地）     r_style = tr_3.select('.pro-textcolor')[1].text        #select到該tr下的class為pro-textcolor的第二個(gè)內(nèi)容（收益分配方式）      # 爬取發(fā)行規(guī)模，該信息位于id為procon1下的table下的第5個(gè)tr里     tr_4 = soup.select('#procon1 > table > tr')[4]         #select到第五個(gè)目標(biāo)tr         guimo = tr_4.select('.pro-textcolor')[1].text          #select到該tr下的class為pro-textcolor的第二個(gè)內(nèi)容（發(fā)行規(guī)模：至***萬(wàn)）     re_2 = re.compile(r'.*?(\d+).*?', re.S)                #設(shè)立一個(gè)正則表達(dá)式，將純數(shù)字提取出來(lái)     scale = re_2.findall(guimo)[0]                         #提取出純數(shù)字的發(fā)行規(guī)模      # 爬取收益率，該信息位于id為procon1下的table下的第8個(gè)tr里     tr_7 = soup.select('#procon1 > table > tr')[7]         #select到第八個(gè)目標(biāo)tr     rate = tr_7.select('.pro-textcolor')[0].text[:(-1)]    #select到該tr下的class為pro-textcolor的***個(gè)內(nèi)容（且通過(guò)下標(biāo)[-1]將末尾的 % 去除）     r = rate.split('至')                                   #此處用來(lái)提取***收益和***收益     r_min = r[0]     r_max = r[1]      # 提取利率等級(jí)     tr_11 = soup.select('#procon1 > table > tr')[11]       #select到第十二個(gè)目標(biāo)tr     r_grade = tr_11.select('p')[0].text                    #select到該tr下的p下的***個(gè)內(nèi)容（即利率等級(jí)）      # 保存數(shù)據(jù)到一個(gè)字典中     item = {     '產(chǎn)品名稱':content[1],     '發(fā)行機(jī)構(gòu)':content[2],     '發(fā)行時(shí)間':content[3],     '產(chǎn)品期限':content[4],     '投資行業(yè)':content[5],     '首頁(yè)收益':content[6],     '發(fā)行地': address,     '收益分配方式': r_style,     '發(fā)行規(guī)模': scale,     '***收益': r_min,     '***收益': r_max,     '利率等級(jí)': r_grade     }      # 返回?cái)?shù)據(jù)     return item  # 定義一個(gè)主函數(shù) def main():      # 寫入相關(guān)數(shù)據(jù)     url_1 = 'http://www.某信托網(wǎng).com/Action/ProductAJAX.ashx?'     url_2 = 'http://www.某信托網(wǎng).com/Product/Detail.aspx?'     size = input('請(qǐng)輸入每頁(yè)顯示數(shù)量:')     start_page = int(input('請(qǐng)輸入起始頁(yè)碼:'))     end_page = int(input('請(qǐng)輸入結(jié)束頁(yè)碼'))     type = input('請(qǐng)輸入產(chǎn)品類型(1代表信托，2代表資管):')      items = []                       # 定義一個(gè)空列表用來(lái)存儲(chǔ)數(shù)據(jù)      # 寫循環(huán)爬取每一頁(yè)     for page in range(start_page, end_page + 1):          # ***層網(wǎng)頁(yè)的爬取流程         print('第{}頁(yè)開(kāi)始爬取'.format(page))         # 1、拼接url&mdash;&mdash;可定義一個(gè)分函數(shù)1：joint         url_new = joint(url_1,size=size,page=page,type=type)          # 2、發(fā)起請(qǐng)求，獲取響應(yīng)&mdash;&mdash;可定義一個(gè)分函數(shù)2：que_res         response = que_res(url_new)          # 3、解析內(nèi)容，獲取所需數(shù)據(jù)&mdash;&mdash;可定義一個(gè)分函數(shù)3：parse_content_1         contents = parse_content_1(response)          # 4、休眠2秒         time.sleep(2)          # 第二層網(wǎng)頁(yè)的爬取流程          for content in contents:             print('    第{}頁(yè){}開(kāi)始下載'.format(page,content[0]))             # 1、拼接url             id = content[0]             url_2_new = joint(url_2,id=id)      # joint為前面定義的第1個(gè)函數(shù)              # 2、發(fā)起請(qǐng)求，獲取響應(yīng)             response_2 = que_res(url_2_new)     # que_res為前面定義的第2個(gè)函數(shù)              # 3、解析內(nèi)容，獲取所需數(shù)據(jù)&mdash;&mdash;可定義一個(gè)分函數(shù)4：parse_content_2，直接返回字典格式的數(shù)據(jù)             item = parse_content_2(response_2,content)              # 存儲(chǔ)數(shù)據(jù)             items.append(item)             print('    第{}頁(yè){}結(jié)束下載'.format(page,content[0]))             # 休眠5秒             time.sleep(5)          print('第{}頁(yè)結(jié)束爬取'.format(page))       # 保存數(shù)據(jù)為dataframe格式CSV文件     df = pd.DataFrame(items)     df.to_csv('data.csv',index=False,sep=',',encoding='utf-8-sig')      print('*'*30)     print('全部爬取結(jié)束')  if __name__ == '__main__':     main()

3、爬取結(jié)果

運(yùn)行代碼，這里以每頁(yè)顯示4個(gè)產(chǎn)品，爬取前3頁(yè)的信托在售為例，運(yùn)行結(jié)果如下：

Python中怎么爬取金融市場(chǎng)數(shù)據(jù)

然后打開(kāi)存到本地的CSV文件如下：結(jié)果是美好的。

Python中怎么爬取金融市場(chǎng)數(shù)據(jù)

上述就是小編為大家分享的Python中怎么爬取金融市場(chǎng)數(shù)據(jù)了，如果剛好有類似的疑惑，不妨參照上述分析進(jìn)行理解。如果想知道更多相關(guān)知識(shí)，歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問(wèn)一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
composer如何拋出Killed給服務(wù)器添加虛擬內(nèi)存
下一篇新聞：
Python中怎么實(shí)現(xiàn)一個(gè)微信提醒備忘錄

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼