您好,登錄后才能下訂單哦!
今天就跟大家聊聊有關(guān)Python怎么爬取csnd文章并轉(zhuǎn)為PDF文件,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結(jié)了以下內(nèi)容,希望大家根據(jù)這篇文章可以有所收獲。
import requests # 數(shù)據(jù)請求 發(fā)送請求 第三方模塊 pip install requests import parsel # 數(shù)據(jù)解析模塊 第三方模塊 pip install parsel import os # 文件操作模塊 import re # 正則表達(dá)式模塊 import pdfkit # pip install pdfkit
filename = 'pdf\\' # 文件名字 filename_1 = 'html\\' if not os.path.exists(filename): #如果沒有這個(gè)文件夾的話 os.mkdir(filename) # 自動(dòng)創(chuàng)建一下這個(gè)文件夾 if not os.path.exists(filename_1): #如果沒有這個(gè)文件夾的話 os.mkdir(filename_1) # 自動(dòng)創(chuàng)建一下這個(gè)文件夾
for page in range(1, 11): print(f'=================正在爬取第{page}頁數(shù)據(jù)內(nèi)容=================') url = f'https://blog.csdn.net/qdPython/article/list/{page}' # python代碼對(duì)于服務(wù)器發(fā)送請求 >>> 服務(wù)器接收之后(如果沒有偽裝)被識(shí)別出來, 是爬蟲程序, >>> 不會(huì)給你返回?cái)?shù)據(jù) # 客戶端(瀏覽器) 對(duì)于 服務(wù)器發(fā)送請求 >>> 服務(wù)器接收到請求之后 >>> 瀏覽器返回一個(gè)response響應(yīng)數(shù)據(jù) # headers 請求頭 就是把python代碼偽裝成瀏覽器進(jìn)行請求 # headers參數(shù)字段 是可以在開發(fā)者工具里面進(jìn)行查詢 復(fù)制 # 并不是所有的參數(shù)字段都是需要的 # user-agent: 瀏覽器的基本信息 (相當(dāng)于披著羊皮的狼, 這樣可以混進(jìn)羊群里面) # cookie: 用戶信息 檢測是否登錄賬號(hào) (某些網(wǎng)站 是需要登錄之后才能看到數(shù)據(jù), B站一些數(shù)據(jù)內(nèi)容) # referer: 防盜鏈 請求你的網(wǎng)址 是從哪里跳轉(zhuǎn)過來的 (B站視頻內(nèi)容 / 妹子圖圖片下載 / 唯品會(huì)商品數(shù)據(jù)) # 根據(jù)不同的網(wǎng)站內(nèi)容 具體情況 具體分析 headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36' } # 請求方式: get請求 post請求 通過開發(fā)者工具可以查看url請求方式是什么樣的 # 搜索 / 登錄 /查詢 這樣是post請求 response = requests.get(url=url, headers=headers)
# 需要把獲取到的html字符串?dāng)?shù)據(jù)轉(zhuǎn)成 selector 解析對(duì)象 selector = parsel.Selector(response.text) # getall 返回的是列表 href = selector.css('.article-list a::attr(href)').getall()
for index in href: # 發(fā)送請求 對(duì)于文章詳情頁url地址發(fā)送請求 response_1 = requests.get(url=index, headers=headers) selector_1 = parsel.Selector(response_1.text) title = selector_1.css('#articleContentId::text').get() new_title = change_title(title) content_views = selector_1.css('#content_views').get() html_content = html_str.format(article=content_views) html_path = filename_1 + new_title + '.html' pdf_path = filename + new_title + '.pdf' with open(html_path, mode='w', encoding='utf-8') as f: f.write(html_content) print('正在保存: ', title)
def change_title(name): mode = re.compile(r'[\\\/\:\*\?\"\<\>\|]') new_name = re.sub(mode, '_', name) return new_name
運(yùn)行代碼,即可下載HTML文件:
config = pdfkit.configuration(wkhtmltopdf=r'C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe') pdfkit.from_file(html_path, pdf_path, configuration=config)
看完上述內(nèi)容,你們對(duì)Python怎么爬取csnd文章并轉(zhuǎn)為PDF文件有進(jìn)一步的了解嗎?如果還想了解更多知識(shí)或者相關(guān)內(nèi)容,請關(guān)注億速云行業(yè)資訊頻道,感謝大家的支持。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。