溫馨提示×

php htmlparser怎樣提取內(nèi)容

PHP
小樊
81
2024-10-17 03:08:33
欄目: 編程語言

在PHP中,可以使用HTML解析器庫,如simplehtmldomphpQuery,來提取HTML文檔中的內(nèi)容。這里以simplehtmldom為例,說明如何提取內(nèi)容:

  1. 首先,通過Composer安裝simplehtmldom庫:
composer require "simplehtmldom/simple-html-dom"
  1. 創(chuàng)建一個PHP文件,如extract_content.php,并引入Composer庫:
require_once 'vendor/autoload.php';
  1. 使用simplehtmldom解析HTML文檔并提取內(nèi)容:
<?php
// 引入Composer庫
require_once 'vendor/autoload.php';

// 引入simplehtmldom命名空間
use simplehtmldom\HtmlWeb;
use simplehtmldom\HtmlNode;

// 創(chuàng)建一個HtmlWeb對象
$web = new HtmlWeb();

// 獲取HTML文檔
$html = $web->load('https://example.com'); // 將example.com替換為要提取內(nèi)容的網(wǎng)站URL

// 獲取第一個body標簽
$body = $html->find('body', 0);

// 提取所有段落標簽(p)的內(nèi)容
$paragraphs = $body->find('p');

// 遍歷所有段落并輸出內(nèi)容
foreach ($paragraphs as $p) {
    echo $p->innertext . PHP_EOL;
}

運行extract_content.php文件,將提取指定網(wǎng)頁上的所有段落(p)標簽的內(nèi)容并輸出。根據(jù)需要,可以修改代碼以提取其他標簽或?qū)傩?。更多關于simplehtmldom庫的信息和用法,請參閱官方文檔:https://simplehtmldom.sourceforge.io/manual.htm

0