溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

1分鐘快速生成用于網(wǎng)頁內(nèi)容提取的xslt

發(fā)布時間:2020-09-22 12:01:05 來源:腳本之家 閱讀:157 作者:fullerhua 欄目:開發(fā)技術

1分鐘快速生成用于網(wǎng)頁內(nèi)容提取的xslt,具體內(nèi)容如下

1、項目背景

在《Python即時網(wǎng)絡爬蟲項目說明》一文我們說過要做一個通用的網(wǎng)絡爬蟲,而且能節(jié)省程序員大半的時間,而焦點問題就是提取器使用的抓取規(guī)則需要快速生成。在python使用xslt提取網(wǎng)頁數(shù)據(jù)一文,我們已經(jīng)看到這個提取規(guī)則是xslt程序,在示例程序中,直接把一長段xslt賦值給變量,但是沒有講這一段xslt是怎么來的。

網(wǎng)友必然會質(zhì)疑:這個xslt這么長,編寫不是要花很長時間?

實際情況是,這個xslt是通過GooSeeker的MS謀數(shù)臺的直觀標注功能自動生成的,熟練的話1分鐘就搞定了。

2、MS謀數(shù)臺能做什么

MS謀數(shù)臺有個圖形化界面,把一系列html解析工具集成在一起,包括:

  • 基于直觀標注自動生成XSLT
  • 即時測試XSLT的正確性
  • 樹狀的DOM結構展示
  • 剖析某個DOM節(jié)點的屬性
  • 為DOM節(jié)點生成XPath,可選擇定位到class、或者id、或者絕對定位
  • 根據(jù)xpath搜索DOM節(jié)點

MS謀數(shù)臺界面分成三部分:DOM數(shù)窗口、內(nèi)嵌瀏覽器窗口、工作臺。在工作臺上定義xslt轉(zhuǎn)換規(guī)則。

3、用MS謀數(shù)臺生成XSLT

假設我們要抓取論壇帖子列表,下面一步步講解操作方法:
第一步,打開GooSeeker的MS謀數(shù)臺,輸入要抓取的網(wǎng)址
第二步,在MS謀數(shù)臺的瀏覽器顯示窗口里,直接選取要提取的內(nèi)容,并且起個名字,點擊確認

1分鐘快速生成用于網(wǎng)頁內(nèi)容提取的xslt

第三步,點擊工作臺的“測試”按鈕,xslt就生成了,在“數(shù)據(jù)規(guī)則”窗口顯示出來

1分鐘快速生成用于網(wǎng)頁內(nèi)容提取的xslt

通過以上的操作,不用編程,用圖形化界面直接在頁面上標注,1分鐘就可以生成xslt

4、怎樣使用XSLT

在python使用xslt提取網(wǎng)頁數(shù)據(jù)一文,我們把生成xslt作為一個字符串交給程序,給人感覺好像一下子回到了史前文明,前面講的那么好,最后用了很原始的拷貝。其實不然,那個只是一個例子。在《python即時網(wǎng)絡爬蟲項目: 內(nèi)容提取器的定義》一文已經(jīng)初見端倪了,有多種注入xslt的方式,最自動化的方式是api,將在后續(xù)文章中詳細講解。

5、文檔修改歷史

2016-05-28:V3.0,增加第二章
2016-05-26:V2.0,增補文字說明

以上就是本文的全部內(nèi)容,希望對大家的學習有所幫助,也希望大家多多支持億速云。

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權內(nèi)容。

AI