溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

如何進(jìn)行NLP基本工具jieba的關(guān)鍵詞提取及詞性標(biāo)注

發(fā)布時(shí)間:2021-12-08 15:17:15 來源:億速云 閱讀:362 作者:柒染 欄目:大數(shù)據(jù)

如何進(jìn)行NLP基本工具jieba的關(guān)鍵詞提取及詞性標(biāo)注,相信很多沒有經(jīng)驗(yàn)的人對(duì)此束手無策,為此本文總結(jié)了問題出現(xiàn)的原因和解決方法,通過這篇文章希望你能解決這個(gè)問題。

jieba還可以進(jìn)行關(guān)鍵詞提取以及詞性標(biāo)注。

使用:

importjieba  # 導(dǎo)入 jieba

importjieba.analyse as anls  #關(guān)鍵詞提取

importjieba.posseg as pseg  #詞性標(biāo)注

其中,關(guān)鍵詞提取有兩種算法:

第一種是TF-IDF算法(Term Frequency-Inverse Document Frequency, 詞頻-逆文件頻率),其基本思想為:一個(gè)詞語在一篇文章中出現(xiàn)次數(shù)越多,同時(shí)在所有文檔中出現(xiàn)次數(shù)越少,越說明該詞語能夠代表該文章。

第二種是TextRank算法,基本思想:

  1. 將待抽取關(guān)鍵詞的文本進(jìn)行分詞

  2. 以固定窗口大小(默認(rèn)為5,通過span屬性調(diào)整),詞之間的共現(xiàn)關(guān)系,構(gòu)建圖

  3. 計(jì)算圖中節(jié)點(diǎn)的PageRank,無向帶權(quán)圖

代碼:

TF-IDF: jieba.analyse.extract_tags(sentence,topK=20, withWeight=True, allowPOS=())

TextRank:jieba.analyse.textrank(sentence, topK=20, withWeight=True)

其中,topK是輸出多少個(gè)關(guān)鍵詞,withWeight是否輸出每個(gè)關(guān)鍵詞的權(quán)重。

輸入語句“jieba除了最重要的功能--分詞之外,還可以進(jìn)行關(guān)鍵詞提取以及詞性標(biāo)注”:

TF-IDF輸出的關(guān)鍵詞:

詞性 0.91

jieba0.85

-- 0.85

分詞 0.84

標(biāo)注 0.66

關(guān)鍵詞 0.64

提取 0.54

之外 0.42

功能 0.39

除了 0.37

重要 0.29

以及 0.29

進(jìn)行 0.27

可以 0.25

TextRank輸出的關(guān)鍵詞:

詞性 1.00

提取 0.99

關(guān)鍵詞 0.99

功能 0.90

分詞 0.90

進(jìn)行 0.76

標(biāo)注 0.75

相對(duì)而言,TextRank輸出的關(guān)鍵詞更規(guī)整一些。

詞性標(biāo)注

使用jieba.posseg進(jìn)行詞性的標(biāo)注。

代碼:

importjieba.posseg

words =jieba.posseg.cut("我來到北京清華大學(xué)")

for x, win words:

    print('%s %s' % (x, w))

輸出:

我 r

來到 v

北京 ns

清華大學(xué) nt

如何進(jìn)行NLP基本工具jieba的關(guān)鍵詞提取及詞性標(biāo)注

看完上述內(nèi)容,你們掌握如何進(jìn)行NLP基本工具jieba的關(guān)鍵詞提取及詞性標(biāo)注的方法了嗎?如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注億速云行業(yè)資訊頻道,感謝各位的閱讀!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI