在Ubuntu下安裝Nutch 2.x,你可以按照以下步驟進(jìn)行操作:
打開終端,執(zhí)行以下命令安裝JDK:
sudo apt update
sudo apt install openjdk-8-jdk
在終端中執(zhí)行以下命令下載并解壓Nutch:
wget https://www.apache.org/dyn/closer.cgi/nutch/2.3.1/apache-nutch-2.3.1-src.tar.gz
tar -xf apache-nutch-2.3.1-src.tar.gz
打開終端,執(zhí)行以下命令編輯.bashrc
文件:
nano ~/.bashrc
在文件末尾添加以下行:
export NUTCH_HOME=/path/to/apache-nutch-2.3.1
export PATH=$PATH:$NUTCH_HOME/bin
保存并關(guān)閉文件,然后執(zhí)行以下命令使環(huán)境變量生效:
source ~/.bashrc
進(jìn)入Nutch目錄,執(zhí)行以下命令編輯nutch-site.xml
文件:
cd apache-nutch-2.3.1
cp conf/nutch-site.xml.template conf/nutch-site.xml
nano conf/nutch-site.xml
在文件中修改以下配置:
<property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>
</property>
<property>
<name>http.robots.agents</name>
<value>My Nutch Spider,*</value>
</property>
保存并關(guān)閉文件。
在終端中執(zhí)行以下命令啟動(dòng)Nutch:
nutch inject URLs
nutch generate
nutch fetch
nutch parse
nutch updatedb
nutch index
其中,URLs
為你要抓取的起始URL。
完成以上步驟后,你就成功在Ubuntu上安裝了Nutch 2.x。你可以根據(jù)需要進(jìn)一步配置Nutch,如設(shè)置抓取策略、添加插件等。