您好,登錄后才能下訂單哦!
1.NLTK
NLTK是構(gòu)建Python程序以處理人類語言數(shù)據(jù)的領(lǐng)先平臺。它提供了易于使用的界面,以及用于分類、標(biāo)記化、詞干化、標(biāo)記、分析和語義推理的一套文本處理庫。用于工業(yè)強(qiáng)度NLP庫的包裝器。
項(xiàng)目地址: http://www.nltk.org/
2.Pattern
Pattern是Python編程語言的Web挖掘模塊。它多有用于數(shù)據(jù)挖掘、自然語言處理、機(jī)器學(xué)習(xí)網(wǎng)絡(luò)分析和可視化。
項(xiàng)目地址: https://pypi.org/project/pattern3/3.0.0/
3.Jieba
“結(jié)巴”中文分詞:做最好的 Python 中文分詞組件。精確模式,試圖將句子最精確地切開,適合文本分析;全模式,把句子中所有的可以成詞的詞語都掃描出來, 速度非??欤遣荒芙鉀Q歧義;搜索引擎模式,在精確模式的基礎(chǔ)上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞。
項(xiàng)目地址: https://github.com/fxsjy/jieba
4.TextBlob
TextBlob是一個用于處理文本數(shù)據(jù)的Python庫。它提供了一個簡單的API用于常見的自然語言處理(NLP)任務(wù),如詞性標(biāo)注,名詞短語提取,情感分析,分類,翻譯等。
項(xiàng)目地址: http://textblob.readthedocs.io/en/dev/
5.SnowNLP
SnowNLP是一個python寫的類庫,可以方便的處理中文文本內(nèi)容,是受到了TextBlob的啟發(fā)而寫的,由于現(xiàn)在大部分的自然語言處理庫基本都是針對英文的,于是寫了一個方便處理中文的類庫,并且和TextBlob不同的是,這里沒有用NLTK,所有的算法都是自己實(shí)現(xiàn)的,并且自帶了一些訓(xùn)練好的字典。注意本程序都是處理的unicode編碼,所以使用時請自行decode成unicode。
項(xiàng)目地址: https://github.com/isnowfy/snownlp
6.TextGrocery
TextGrocery是一個基于LibLinear和結(jié)巴分詞的短文本分類工具,特點(diǎn)是高效易用,同時支持中文和英文語料。
項(xiàng)目地址: https://github.com/2shou/TextGrocery
最后,為了更好的幫助大家學(xué)習(xí)Python,小編為大家準(zhǔn)備了Python視頻教程
獲取方式: Python學(xué)習(xí)交流群: 519489681 備注: 小白
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。