溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

nutch中怎么配置hadoop

發(fā)布時(shí)間:2021-08-11 15:20:40 來(lái)源:億速云 閱讀:178 作者:Leah 欄目:開(kāi)發(fā)技術(shù)

這期內(nèi)容當(dāng)中小編將會(huì)給大家?guī)?lái)有關(guān)nutch中怎么配置hadoop,文章內(nèi)容豐富且以專業(yè)的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。

中文分詞:
1.對(duì)建立索引所用分詞工具的修改
將下載的中文分詞包放到lib目錄下,改名為analysis-zh.jar(當(dāng)然,你也可以不用改)。找到下面文件
src\java\org\apache\nutch\analysis\NutchDocumentAnalyzer.java
修改tokenStream方法如下
publicTokenStreamtokenStream(StringfieldName,Readerreader){
Analyzeranalyzer;
analyzer=newMMAnalyzer();
returnanalyzer.tokenStream(fieldName,reader);
}
注意:由于加入信息的分析類,你需要將該類導(dǎo)入。使用如下語(yǔ)句。
importjeasy.analysis.*;

2.對(duì)查詢所用分析部分的修改
nutch+hadoop配置使用總需要對(duì)查詢所用分析部分的修改。src\java\org\apache\nutch\analysis\中的NutchAnalysis.jj文件
將<SIGRAM:<CJK>>
改為:|<SIGRAM:(<CJK>)+>
使用javacc工具將NutchAnalysis.jj生成java文件,共會(huì)生成7個(gè)java文件,將他們拷貝到下面的文件夾中替換原有文件。
src\java\org\apache\nutch\analysis

如何安裝與使用javacc?
下載javacc并解壓,然后將javacc的主目錄添加到環(huán)境變量下。進(jìn)入命令行,輸入javacc,如果不出現(xiàn)不能識(shí)別該命令之類的說(shuō)法,證明安裝成功。
進(jìn)入NutchAnalysis.jj文件所在的目錄,輸入javaccNutchAnalysis.jj命令就會(huì)生成7個(gè)java文件了。

3.重新編譯工程文件
這里你需要用到ant工具了,那么ant工具怎么安裝呢?
ant的安裝與配置與javacc類似,下載后解壓,然后在path環(huán)境變量中加如指向ant下的bin文件夾的路徑。
使用:從命令行進(jìn)入nutch目錄中,輸入ant命令,它會(huì)自動(dòng)根據(jù)當(dāng)前目錄下的build.xml進(jìn)行重建。重建完畢后會(huì)在改目錄下產(chǎn)生一個(gè)build文件夾。

4.重建后的文件替換
一、將nutch-0.x.x.job文件拷貝出來(lái)替換nutch目錄下的同名文件。
二、將\build\classes\org\apache\nutch\analysis目錄下的所有文件拷貝替換nutch-0.x.x.jar中org\apache\nutch\analysis目錄下的文件。
三、將nutch-0.x.x.jar文件和你的分詞包(我的是analysis-zh.jar)拷貝到tomcat中WEB-INF\lib下面。

5.重新爬行與建立索引,重新啟動(dòng)tomcat即可。

nutch搜索url過(guò)濾規(guī)則:
對(duì)于每一次(由depth決定)對(duì)url進(jìn)行filter,所以要搜子頁(yè)面,首頁(yè)一定要通過(guò)filter,否則搜索不到。

上述就是小編為大家分享的nutch中怎么配置hadoop了,如果剛好有類似的疑惑,不妨參照上述分析進(jìn)行理解。如果想知道更多相關(guān)知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI