溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Python自然語(yǔ)言包有哪些

發(fā)布時(shí)間:2021-12-18 13:48:43 來(lái)源:億速云 閱讀:188 作者:iii 欄目:大數(shù)據(jù)

本篇內(nèi)容介紹了“Python自然語(yǔ)言包有哪些”的有關(guān)知識(shí),在實(shí)際案例的操作過(guò)程中,不少人都會(huì)遇到這樣的困境,接下來(lái)就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!

征服者:NLTK

談?wù)揚(yáng)ython中的nlp庫(kù),不能不提NLTK。它是最著名的Python NLP庫(kù),它在這個(gè)領(lǐng)域中取得了令人難以置信的突破。NLTK負(fù)責(zé)征服許多文本分析的問(wèn)題,NLTK也頗受教育與研究界的青睞。在自己的網(wǎng)站上,NLTK自稱是“一個(gè)令人驚嘆的自然語(yǔ)言庫(kù)?!?/p>

在我們的經(jīng)驗(yàn)中,關(guān)鍵詞是“玩”。NLTK在50個(gè)語(yǔ)料庫(kù)和詞典,9個(gè)詞干器,以及幾十種可選的算法。它是一個(gè)學(xué)術(shù)研究者的主題公園。

然而,這也是NLTK一個(gè)主要的缺點(diǎn)。它是沉重的,滑滑的,它有一個(gè)陡峭的學(xué)習(xí)曲線。第二個(gè)主要缺點(diǎn)是緩慢而不是生產(chǎn)準(zhǔn)備就緒。

王子:textblob

textblob坐在巨人肩上,與此類(lèi)似的另一個(gè)庫(kù)是Pattern。事實(shí)上,我們推薦textblob而不是Pattern。

textblob使文本處理提供一個(gè)直觀的界面,簡(jiǎn)單化的NLTK。因?yàn)樗幸粋€(gè)溫和的學(xué)習(xí)曲線,同時(shí)擁有驚人的功能,使其成為Python最受歡迎的自然語(yǔ)言庫(kù)。

例如,假設(shè)你想找到一個(gè)文本的情感分?jǐn)?shù)。你可以:

from textblob import TextBlob
opinion = TextBlob("EliteDataScience.com is dope.")opinion.sentiment

默認(rèn)情況下,情緒分析儀是從模式庫(kù)的patternanalyzer。但如果你想使用樸素貝葉斯分析?你可以很容易地轉(zhuǎn)換到一個(gè)使用nltk訓(xùn)練好的analyzer。

from textblob import TextBlobfrom textblob.sentiments import NaiveBayesAnalyzer
opinion = TextBlob("EliteDataScience.com is dope!", analyzer=NaiveBayesAnalyzer())opinion.sentiment

textblob是一種簡(jiǎn)單、有趣的庫(kù),使得文本分析是一種輕松愉快的事情。我們可以用textblob對(duì)付所有NLP的初始原型。

雇傭軍:Stanford corenlp

Stanford corenlp庫(kù)是自然語(yǔ)言分析生產(chǎn)準(zhǔn)備階段的工具套件。它包括詞性(POS)標(biāo)注,實(shí)體解析,模式識(shí)別,學(xué)習(xí)等。 “雇傭軍”實(shí)際上是用Java寫(xiě)而不是Python寫(xiě)的。

許多組織使用corenlp來(lái)實(shí)現(xiàn)其產(chǎn)品。它幾乎能夠準(zhǔn)確的支持幾個(gè)主要的語(yǔ)言。

篡位者:Spacy

Spacy是一個(gè)新生事物,它一經(jīng)推出就轟動(dòng)業(yè)界。市場(chǎng)定位于運(yùn)行效率的Python自然語(yǔ)言庫(kù)。

Spacy是很輕很小的,它的哲學(xué)是對(duì)每一個(gè)問(wèn)題只提出一種算法(最好的一種)。你不必做出選擇,你可以專注于富有成效。

內(nèi)核是Cpython,所以Spacy運(yùn)行很快。它的主要缺點(diǎn)是它目前只支持英語(yǔ)。

Spacy是很新的,所以其支持社區(qū)不象其他庫(kù)那么大。然而,它的NLP的方法是如此引人注目,似乎未來(lái)可以取代NLTK。

如果你正在建設(shè)一個(gè)新的應(yīng)用程序或改造舊的(你只需要英語(yǔ)的支持),那么我們強(qiáng)烈建議使用Spacy。

將軍:gensim

最后但并非最不重要的,我們有g(shù)ensim庫(kù)。gensim不解決所有nlp領(lǐng)域,它只做一部分,并將其做好。你不會(huì)把你的海軍上將派到陸戰(zhàn)場(chǎng)景,同理你也不會(huì)用gensim去解決nlp的所有領(lǐng)域和情景。

gensim是一個(gè)很好的主題建模和文檔相似性分析優(yōu)化庫(kù)。在這里列出的Python NLP庫(kù)中,它是最專業(yè)的。

即便如此,這還是一個(gè)有價(jià)值的工具來(lái)添加你的曲目。它的主題建模算法,如潛在的狄利克雷分配(LDA)實(shí)現(xiàn),是所有庫(kù)中最棒的。此外,它強(qiáng)健、高效、可擴(kuò)展。

另外,子字段語(yǔ)義分析(或主題建模)是現(xiàn)代自然語(yǔ)言處理中最令人興奮的領(lǐng)域之一。

“Python自然語(yǔ)言包有哪些”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注億速云網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI