溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Nutch1.9如何安裝

發(fā)布時(shí)間:2021-11-12 14:04:21 來源:億速云 閱讀:129 作者:小新 欄目:云計(jì)算

小編給大家分享一下Nutch1.9如何安裝,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!

一、  Nutch安裝并整合到Solr

1、下載并解壓Nutch(此處使用版本1.9)      http://nutch.apache.org/

2、修改apache-nutch-1.9/conf/nutch-site.xml

<property>

<name>http.agent.name</name>

<value>My Nutch Spider</value>

</property>

3、添加需要爬取的urls種子,創(chuàng)建apache-nutch-1.9/urls/seed.txt:

此處添加一條url(如:http://www.oschina.net/)

4、Nutch與Solr整合需要替換Solr Home中的Schema.xml

首先做好備份:

mv  solr_home/solr/collection1/conf/schema.xml solr_home/solr/collection1/conf/schema.xml.org

                     將nutch中的schema-solr4.xml copy到solr_home中,如下:

cp  apache-nutch-1.9/conf/schema-solr4.xml solr_home/solr/collection1/conf/schema.xml

5、修改solr_home/solr/collection1/conf/schema.xml,

在 <field name="id"下面加上

<field name="_version_" type="long" indexed="true" stored="true"/>

                            由于覆蓋了之前配置好的IK分詞器。所以需要重新配置:

在<types>中增加如下內(nèi)容:

            <fieldType name="text_ik" class="solr.TextField">

<analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>

<analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>

                   </fieldType>

將需要用到IK分詞的字段的type值修改以上定義的name

                               <field name="content" type="text_ik" stored="true" indexed="true"/>

<field name="title" type="text_ik" stored="true" indexed="true"/>

<field name="text" type="text_ik" stored="false" indexed="true" multiValued="true"/>

<field name="anchor" type="text_ik" stored="true" indexed="true"/>

到此處配置完成。

測(cè)試爬取:

bin/crawl urls/ crawldb/ http://localhost:8080/solr/ 1

當(dāng)完成后,打開solr的管理界面,點(diǎn)擊query將會(huì)看到nutch爬取的數(shù)據(jù)

以上是“Nutch1.9如何安裝”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI