您好,登錄后才能下訂單哦!
小編給大家分享一下Nutch1.9如何安裝,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!
一、 Nutch安裝并整合到Solr
1、下載并解壓Nutch(此處使用版本1.9) http://nutch.apache.org/
2、修改apache-nutch-1.9/conf/nutch-site.xml
<property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>
</property>
3、添加需要爬取的urls種子,創(chuàng)建apache-nutch-1.9/urls/seed.txt:
此處添加一條url(如:http://www.oschina.net/)
4、Nutch與Solr整合需要替換Solr Home中的Schema.xml
首先做好備份:
mv solr_home/solr/collection1/conf/schema.xml solr_home/solr/collection1/conf/schema.xml.org
將nutch中的schema-solr4.xml copy到solr_home中,如下:
cp apache-nutch-1.9/conf/schema-solr4.xml solr_home/solr/collection1/conf/schema.xml
5、修改solr_home/solr/collection1/conf/schema.xml,
在 <field name="id"下面加上
<field name="_version_" type="long" indexed="true" stored="true"/>
由于覆蓋了之前配置好的IK分詞器。所以需要重新配置:
在<types>中增加如下內(nèi)容:
<fieldType name="text_ik" class="solr.TextField">
<analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
<analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>
將需要用到IK分詞的字段的type值修改以上定義的name
<field name="content" type="text_ik" stored="true" indexed="true"/>
<field name="title" type="text_ik" stored="true" indexed="true"/>
<field name="text" type="text_ik" stored="false" indexed="true" multiValued="true"/>
<field name="anchor" type="text_ik" stored="true" indexed="true"/>
到此處配置完成。
測(cè)試爬取:
bin/crawl urls/ crawldb/ http://localhost:8080/solr/ 1
當(dāng)完成后,打開solr的管理界面,點(diǎn)擊query將會(huì)看到nutch爬取的數(shù)據(jù)
以上是“Nutch1.9如何安裝”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。