溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

在xpath中text()和string(.)的區(qū)別有哪些

發(fā)布時(shí)間:2021-12-03 17:24:16 來(lái)源:億速云 閱讀:435 作者:小新 欄目:編程語(yǔ)言

這篇文章將為大家詳細(xì)講解有關(guān)在xpath中text()和string(.)的區(qū)別有哪些,小編覺(jué)得挺實(shí)用的,因此分享給大家做個(gè)參考,希望大家閱讀完這篇文章后可以有所收獲。

  我們?cè)谶M(jìn)行爬蟲(chóng)時(shí)候,經(jīng)常會(huì)遇到如下這樣的頁(yè)面:

  你好,北京

  在日常抓取的時(shí)候,遇到更多的情況是抓取中的你好,這時(shí)使用xpath("//div/em/text()")就可以提取到。

  現(xiàn)在我們考慮下面兩種抓取需求:

  需求1:我們想要提取“,北京”的時(shí)候,這個(gè)時(shí)候該用text(),還是string(.)?

  需求2:提取 “你好,北京”呢?

  我們先使用lxml庫(kù)對(duì)頁(yè)面進(jìn)行一下初始化(如果你用的是scrapy的xpath選擇器,也可以按照以下步驟運(yùn)行):

  from lxml import etree

  with open('foo.html', 'r') as f:

  content = f.read().encode('utf8')

  page = etree.HTML(content)

  這里我們先看一下需求1的解法,也就是提取“,北京”:

  re = page.xpath("//div/text()")

  這里re得到的是一個(gè)數(shù)組:

  這是因?yàn)樵陧?yè)面中標(biāo)簽

  和之間是有換行符號(hào)的,因此使用"//div/text()"后會(huì)忽略掉你好,而剩下"\n",“,北京\n”兩個(gè)元素。

  我們?nèi)e的第二個(gè)元素,然后去掉結(jié)尾的換行符"\n"(如果你使用的是scrapy的xpath,這里re得到的可能不是一個(gè)數(shù)組):

  re = re[1].strip()

  這個(gè)時(shí)候得到的re就是我們需要的",北京"了。

  現(xiàn)在看一下第二個(gè)需求:提取"你好,北京":

  這里就要求里面的文本也要提取出來(lái)了,這時(shí)候我們使用string:

  re = page.xpath("//div")[0].xpath("string(.)")

  這時(shí)來(lái)看下re的值(同樣如果你使用的是scrapy的選擇器,scrapy_selector.xpath("//div")返回的結(jié)果可能不是一個(gè)數(shù)組,不過(guò)你只要取到結(jié)果然后再使用.xpath("string(.)")即可。):

在xpath中text()和string(.)的區(qū)別有哪些

  得到的一整串文本" \n 你好,北京\n "。

  看來(lái)使用"string(.)"后,xpath會(huì)把里的內(nèi)容也直接提取出來(lái),而不像上面中"text()"那樣把都去掉后,再分割成一個(gè)數(shù)組。這里注意使用string()時(shí)候要把string(.)放在一個(gè)xpath中,而不是寫成"//div/string(.)"這樣,否則會(huì)抓取不到。

  然后,同樣的再去除一下兩邊多余的空格和換行符

  re = re.strip()

  這個(gè)時(shí)候re得到就是”你好,北京“啦。

  總結(jié):無(wú)錫人流醫(yī)院 http://www.0510bhyy.com/

  通過(guò)上述的實(shí)驗(yàn),我們發(fā)現(xiàn)xpath里面text()只會(huì)取當(dāng)層節(jié)點(diǎn)的文本并按照當(dāng)層的tag進(jìn)行分割,組成列表。而string(.)會(huì)把當(dāng)層節(jié)點(diǎn)以及當(dāng)層節(jié)點(diǎn)以下的所有文本都提取出來(lái),放在一個(gè)字符串變量中。

  實(shí)例代碼:

  test.py:

  # coding=utf-8

  from lxml import etree

  import sys

  reload(sys)

  sys.setdefaultencoding('utf-8')

  class Test(object):

  def __init__(self):

  with open('foo.html', 'r') as f:

  content = f.read().encode('utf8')

  self.page = etree.HTML(content)

  print self.page

  def xpath_text(self):

  re = self.page.xpath("//div/text()")

  print re

  re = re[1].strip()

  print re

  return re

  def xpath_string(self):

  re = self.page.xpath("//div")[0].xpath("string(.)")

  print re

  # 替換換行符等

  re = re.strip(re)

  print re

  return re

  if __name__ == "__main__":

  t = Test()

  assert t.xpath_text() == u",北京"

  assert t.xpath_string() == u"你好,北京"

  foo.html:

  你好,北京

關(guān)于“在xpath中text()和string(.)的區(qū)別有哪些”這篇文章就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,使各位可以學(xué)到更多知識(shí),如果覺(jué)得文章不錯(cuò),請(qǐng)把它分享出去讓更多的人看到。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI