python對(duì)網(wǎng)頁(yè)文本的格式化的方法是什么

發(fā)布時(shí)間：2021-10-12 10:13:36 來(lái)源：億速云閱讀：131 作者：iii 欄目：開(kāi)發(fā)技術(shù)

這篇文章主要講解了“python對(duì)網(wǎng)頁(yè)文本的格式化的方法是什么”，文中的講解內(nèi)容簡(jiǎn)單清晰，易于學(xué)習(xí)與理解，下面請(qǐng)大家跟著小編的思路慢慢深入，一起來(lái)研究和學(xué)習(xí)“python對(duì)網(wǎng)頁(yè)文本的格式化的方法是什么”吧！

1、一個(gè)網(wǎng)頁(yè)通常包含文本信息。對(duì)于不同的文本類型，我們可以選擇合適的HTML語(yǔ)義元素進(jìn)行標(biāo)記。

2、em元素用于標(biāo)記和強(qiáng)調(diào)部分內(nèi)容，small元素用于注釋和署名文本。

實(shí)例

<body>
    <h2>論語(yǔ)學(xué)而篇第一</h2>
    <p><small>
    <b>作者：</b><abbr title="名丘，字仲尼">孔子<sup><a href="#" rel="external nofollow" >1</a></sup></abbr>（<time>前551年9月28日－前479年4月11日</time>）
    </small></p>
    <h3>本篇引語(yǔ)</h3>
    <p>《學(xué)而》是《論語(yǔ)》第一篇的篇名?！墩撜Z(yǔ)》中各篇一般都是以第一章的前二三個(gè)字作為該篇的篇名?！秾W(xué)而》一篇包括16章，內(nèi)容涉及諸多方面。其中重點(diǎn)是
     <strong>「吾日三省吾身」；「節(jié)用而愛(ài)人，使民以時(shí)」；「禮之用，和為貴」以及仁、孝、信等</strong>道德范疇。</p>
    <h3>原文</h3>
    <p>子曰：「<mark>學(xué)而時(shí)習(xí)之，不亦說(shuō)乎？</mark>有朋自遠(yuǎn)方來(lái)，不亦樂(lè)乎？人不知，而不慍，不亦君子乎？」 </p>
  </body>

知識(shí)點(diǎn)擴(kuò)展：

Python int與string之間的轉(zhuǎn)化

string–>int
1、10進(jìn)制string轉(zhuǎn)化為int
int(‘12')
2、16進(jìn)制string轉(zhuǎn)化為int
int(‘12', 16)
int–>string
1、int轉(zhuǎn)化為10進(jìn)制string
str(18)
2、int轉(zhuǎn)化為16進(jìn)制string
hex(18)

2 . 由于鏈家網(wǎng)上面選中第二頁(yè)的時(shí)候，只是在頁(yè)面后面多了一個(gè)“d2”, 如： http://sh.lianjia.com/ershoufang/pudong/d2 ，所以要想爬取更多的網(wǎng)頁(yè)只需要循環(huán)更新requests 的頁(yè)面URL

3 . 增加了一個(gè)循環(huán)之后，可以打印所有的爬取結(jié)果

from lxml import etree
import requests
import string
url = 'http://sh.lianjia.com/ershoufang/'
region = 'pudong'
price = 'p23'
finalURL = url+region+price

def spider_room(finallyURL):
   r= requests.get(finallyURL)
   html = requests.get(finalURL).content.decode('utf-8')
   dom_tree = etree.HTML(html)
   # all the messages
   all_message = dom_tree.xpath("//ul[@class='js_fang_list']/li")
   for index in range(len(all_message)):
      print(all_message[index].xpath('string(.)').strip())
   return
for i in range(20):
   finallyURL = finalURL + '/d'+str(i)
   spider_room(finallyURL)

4 . 爬取了20頁(yè)的內(nèi)容，可是內(nèi)容的結(jié)果輸出的形式并沒(méi)有改變

感謝各位的閱讀，以上就是“python對(duì)網(wǎng)頁(yè)文本的格式化的方法是什么”的內(nèi)容了，經(jīng)過(guò)本文的學(xué)習(xí)后，相信大家對(duì)python對(duì)網(wǎng)頁(yè)文本的格式化的方法是什么這一問(wèn)題有了更深刻的體會(huì)，具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是億速云，小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章，歡迎關(guān)注！

向AI問(wèn)一下細(xì)節(jié)

python對(duì)網(wǎng)頁(yè)文本的格式化的方法是什么

實(shí)例

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽