溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

python對(duì)網(wǎng)頁(yè)文本的格式化的方法是什么

發(fā)布時(shí)間:2021-10-12 10:13:36 來(lái)源:億速云 閱讀:131 作者:iii 欄目:開(kāi)發(fā)技術(shù)

這篇文章主要講解了“python對(duì)網(wǎng)頁(yè)文本的格式化的方法是什么”,文中的講解內(nèi)容簡(jiǎn)單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來(lái)研究和學(xué)習(xí)“python對(duì)網(wǎng)頁(yè)文本的格式化的方法是什么”吧!

1、一個(gè)網(wǎng)頁(yè)通常包含文本信息。對(duì)于不同的文本類型,我們可以選擇合適的HTML語(yǔ)義元素進(jìn)行標(biāo)記。

2、em元素用于標(biāo)記和強(qiáng)調(diào)部分內(nèi)容,small元素用于注釋和署名文本。

實(shí)例

<body>
    <h2>論語(yǔ)學(xué)而篇第一</h2>
    <p><small>
    <b>作者:</b><abbr title="名丘,字仲尼">孔子<sup><a href="#" rel="external nofollow" >1</a></sup></abbr>(<time>前551年9月28日-前479年4月11日</time>)
    </small></p>
    <h3>本篇引語(yǔ)</h3>
    <p>《學(xué)而》是《論語(yǔ)》第一篇的篇名?!墩撜Z(yǔ)》中各篇一般都是以第一章的前二三個(gè)字作為該篇的篇名?!秾W(xué)而》一篇包括16章,內(nèi)容涉及諸多方面。其中重點(diǎn)是
     <strong>「吾日三省吾身」;「節(jié)用而愛(ài)人,使民以時(shí)」;「禮之用,和為貴」以及仁、孝、信等</strong>道德范疇。</p>
    <h3>原文</h3>
    <p>子曰:「<mark>學(xué)而時(shí)習(xí)之,不亦說(shuō)乎?</mark>有朋自遠(yuǎn)方來(lái),不亦樂(lè)乎?人不知,而不慍,不亦君子乎?」 </p>
  </body>

知識(shí)點(diǎn)擴(kuò)展:

Python int與string之間的轉(zhuǎn)化

string–>int

1、10進(jìn)制string轉(zhuǎn)化為int

int(‘12')

2、16進(jìn)制string轉(zhuǎn)化為int

int(‘12', 16)

int–>string

1、int轉(zhuǎn)化為10進(jìn)制string

str(18)

2、int轉(zhuǎn)化為16進(jìn)制string

hex(18)


2 . 由于鏈家網(wǎng)上面選中第二頁(yè)的時(shí)候,只是在頁(yè)面后面多了一個(gè)“d2”, 如: http://sh.lianjia.com/ershoufang/pudong/d2 , 所以要想爬取更多的網(wǎng)頁(yè)只需要循環(huán)更新requests 的頁(yè)面URL

3 . 增加了一個(gè)循環(huán)之后,可以打印所有的爬取結(jié)果

from lxml import etree
import requests
import string
url = 'http://sh.lianjia.com/ershoufang/'
region = 'pudong'
price = 'p23'
finalURL = url+region+price

def spider_room(finallyURL):
   r= requests.get(finallyURL)
   html = requests.get(finalURL).content.decode('utf-8')
   dom_tree = etree.HTML(html)
   # all the messages
   all_message = dom_tree.xpath("//ul[@class='js_fang_list']/li")
   for index in range(len(all_message)):
      print(all_message[index].xpath('string(.)').strip())
   return
for i in range(20):
   finallyURL = finalURL + '/d'+str(i)
   spider_room(finallyURL)

4 . 爬取了20頁(yè)的內(nèi)容,可是內(nèi)容的結(jié)果輸出的形式并沒(méi)有改變

感謝各位的閱讀,以上就是“python對(duì)網(wǎng)頁(yè)文本的格式化的方法是什么”的內(nèi)容了,經(jīng)過(guò)本文的學(xué)習(xí)后,相信大家對(duì)python對(duì)網(wǎng)頁(yè)文本的格式化的方法是什么這一問(wèn)題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是億速云,小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI