在PHP中,可以使用HTML解析器庫,如simplehtmldom
或phpQuery
,來提取HTML文檔中的內(nèi)容。這里以simplehtmldom
為例,說明如何提取內(nèi)容:
simplehtmldom
庫:composer require "simplehtmldom/simple-html-dom"
extract_content.php
,并引入Composer庫:require_once 'vendor/autoload.php';
simplehtmldom
解析HTML文檔并提取內(nèi)容:<?php
// 引入Composer庫
require_once 'vendor/autoload.php';
// 引入simplehtmldom命名空間
use simplehtmldom\HtmlWeb;
use simplehtmldom\HtmlNode;
// 創(chuàng)建一個HtmlWeb對象
$web = new HtmlWeb();
// 獲取HTML文檔
$html = $web->load('https://example.com'); // 將example.com替換為要提取內(nèi)容的網(wǎng)站URL
// 獲取第一個body標簽
$body = $html->find('body', 0);
// 提取所有段落標簽(p)的內(nèi)容
$paragraphs = $body->find('p');
// 遍歷所有段落并輸出內(nèi)容
foreach ($paragraphs as $p) {
echo $p->innertext . PHP_EOL;
}
運行extract_content.php
文件,將提取指定網(wǎng)頁上的所有段落(p)標簽的內(nèi)容并輸出。根據(jù)需要,可以修改代碼以提取其他標簽或?qū)傩?。更多關于simplehtmldom
庫的信息和用法,請參閱官方文檔:https://simplehtmldom.sourceforge.io/manual.htm