溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

菜鳥(niǎo)如何使用hanlp做分詞的過(guò)程記錄

發(fā)布時(shí)間:2020-06-12 11:52:06 來(lái)源:網(wǎng)絡(luò) 閱讀:631 作者:adnb34g 欄目:大數(shù)據(jù)

菜鳥(niǎo)如何使用hanlp做分詞的過(guò)程記錄

最近在學(xué)習(xí)hanlp的內(nèi)容,準(zhǔn)備在節(jié)后看看有沒(méi)有時(shí)間整理一波hanlp分享下,應(yīng)該還是會(huì)像之前分享DKHadoop一樣的方式吧。把整個(gè)學(xué)習(xí)的過(guò)程中截圖在配文字的方式搞一下。

這兩天也在看一些其他人分享的hanlp學(xué)習(xí)和使用分享的文章,后面看到的分享也會(huì)轉(zhuǎn)載分享給大家。今天分享的這篇也是很早前別人分享的一篇如何用hanlp做分詞的文章,新手入門(mén)級(jí)的可以看看!

菜鳥(niǎo)如何使用hanlp做分詞的過(guò)程記錄 



boss給了個(gè)做分詞的任務(wù),最開(kāi)始想用的是結(jié)巴分詞and正則表達(dá)式。后來(lái)發(fā)現(xiàn)結(jié)果并不好,需要一遍一遍篩選【第一個(gè)標(biāo)準(zhǔn)篩選出80%的數(shù)據(jù),然后制定第二個(gè)標(biāo)準(zhǔn),繼續(xù)篩選,然后制定第三個(gè)標(biāo)準(zhǔn)篩選,等等等等】

自己用了一下結(jié)巴分詞,感覺(jué)對(duì)于人名,地名,機(jī)構(gòu)名,只是泛泛地使用了一下。在實(shí)際分開(kāi)的時(shí)候,并不能很好地分開(kāi)機(jī)構(gòu)名稱。于是轉(zhuǎn)而使用hanlp分詞。

但是hanlp分詞的缺點(diǎn)是只有在java上可以用,但是java一向又是我的弱項(xiàng)。所以在這里寫(xiě)一篇博客從頭至尾敘述一下怎么樣使用hanlp。

而且,小胖胖把我的電腦鎖在北師圖書(shū)館柜子里了。我工作沒(méi)有電腦可用,于是使用小胖的電腦,也就是說(shuō),所有的基本變量都需要我自己來(lái)配來(lái)下,因此也相當(dāng)于是從一張白紙到使用hanlp的過(guò)程。

第一步:下載一個(gè)jdk,openjdk官網(wǎng)去下一個(gè),直接安裝即可。

安裝過(guò)后,要配置三個(gè)環(huán)境變量,分別是

1、JAVA_HOME:C:\Program Files\Java\jdk1.8.0_73;

2CLASSPATH: 就是這個(gè)jdk打開(kāi)之后里面的那個(gè)lib的目錄;

3、PATH:就是jdk后面的bin目錄;

配置完成之后,在Windows底下的cmd上面,輸入java -version看看有沒(méi)有反應(yīng)即可判斷是否正確安裝jdk。

【我這里出現(xiàn)了個(gè)小問(wèn)題,在胖胖的電腦里,不知道她之前安裝過(guò)什么東西,自帶了一個(gè)jre1.6 然而我安裝的是jre1.8 在cmd里面報(bào)錯(cuò),說(shuō)找不到j(luò)re1.6 后來(lái)我看了網(wǎng)上的說(shuō)法,說(shuō)是也許你別的軟件也會(huì)下載java環(huán)境,所以你可能有許多不同的包,系統(tǒng)在尋找路徑的時(shí)候,默認(rèn)會(huì)根據(jù)你上面配置的環(huán)境變量里面找。因此,需要把咱們最新下的那個(gè)環(huán)境變量放在一大堆環(huán)境變量的最前面,嘗試即可?!?/span>

載了jdk安裝成功之后,第二步,下載eclipse

到官網(wǎng)去找,記住,x86是32位,x64是64位,下載之后設(shè)定project的位置【比如我設(shè)在了D盤(pán)的根目錄,結(jié)果發(fā)現(xiàn)不太好,但是已經(jīng)改不了了。。教訓(xùn)】

安裝成功之后,第三步,去下載hanlp的各種東西

方法1.maven方法,下載一個(gè)0配置即可。【但是我不會(huì)玩兒】

方法2:先下載hanlp-1.2.8.jar這個(gè)jar包【備注,目前hanlp版本已經(jīng)發(fā)布到了portable-1.6.8

http://hanlp.com/

再下載data.zip這個(gè)數(shù)據(jù)包,可以選擇,選擇下載標(biāo)準(zhǔn)數(shù)據(jù)or迷你數(shù)據(jù)or全部數(shù)據(jù)。大小不同。我下的是標(biāo)準(zhǔn)版的。40M

再下載hanlp.properties這個(gè)是一個(gè)以properties結(jié)尾的一個(gè)文件,我之前從來(lái)沒(méi)見(jiàn)過(guò),不過(guò)可以用txt打開(kāi)。

第四步:把下載的這些東西導(dǎo)入到eclipse里面去,構(gòu)建路徑

1、jar包導(dǎo)入到eclipse的lib目錄下

http://jingyan.baidu.com/article/ca41422fc76c4a1eae99ed9f.html

2、自己在src里面創(chuàng)建一個(gè)包,在包里面創(chuàng)建一個(gè)類。包會(huì)在我設(shè)置的根目錄D:/下面,類名稱首字母必須大寫(xiě)?【貌似不大寫(xiě)的話,會(huì)被否決】

3、data包解壓,然后放在一個(gè)自己喜歡的路徑【我的路徑是D://py/】然后,在hanlp.properties這個(gè)文件里,把root修改為data存放的上一級(jí)目錄。

4、hanlp.properties拖動(dòng)到src這個(gè)目錄下

菜鳥(niǎo)如何使用hanlp做分詞的過(guò)程記錄 

 

然后試驗(yàn)了一個(gè)demo測(cè)試,發(fā)現(xiàn)報(bào)錯(cuò),后點(diǎn)擊import import com.hankcs.hanlp.HanLP;然后run了一下程序

菜鳥(niǎo)如何使用hanlp做分詞的過(guò)程記錄 

依然報(bào)錯(cuò),發(fā)現(xiàn)是沒(méi)有把properties那個(gè)文件導(dǎo)入到bin目錄下,再次打開(kāi)test0320,在那個(gè)bin目錄下復(fù)制properties文件之后運(yùn)行,成功了

菜鳥(niǎo)如何使用hanlp做分詞的過(guò)程記錄 

轉(zhuǎn)載自tianbwin2995 的博客


向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI