Python中怎么實現(xiàn)文本分析

發(fā)布時間：2021-07-10 16:18:33 來源：億速云閱讀：855 作者：Leah 欄目：編程語言

這期內容當中小編將會給大家?guī)碛嘘PPython中怎么實現(xiàn)文本分析，文章內容豐富且以專業(yè)的角度為大家分析和敘述，閱讀完這篇文章希望大家可以有所收獲。

任務(Task)

人為判斷同義詞很簡單，但用程序來判斷就不簡單了。小愛想到了兩種方式：制作一個同義詞庫;計算所有詞語的相似度，將相似度高于閾值的詞語作為同義詞。

同義詞庫。在網上百度一番，只發(fā)現(xiàn)了一個哈工大的同義詞庫，滿心歡喜地點進去一看，發(fā)現(xiàn)頁面已經不存在了，真是欲哭無淚!小愛心想，要不自己制作一個同義詞庫?再仔細一思考其中工作量，算了，還是打消念頭吧，這種方式行不通。
相似度計算。小愛查詢到Python中的synonyms庫提供了計算兩個詞語相似度的方法，結果還較為靠譜，于是就準備采用此種方式了。

行動(Action)

在找了一篇幾百字的文章進行測試之后，小愛發(fā)現(xiàn)這種方式行得通。于是就正式開始運用于公司的文本數據了。這時，新的問題又出現(xiàn)了。

公司的客戶反饋數據有數十上百萬條，分詞后的詞語集合在去除停用詞之后也有幾萬個，小愛的代碼在計算相似度的時候卡住了。這個時候小愛才醒悟過來：樣本數據分詞的詞語量少，計算量自然少，但隨著詞語數量的增加，計算量也是呈指數增長的。

上述就是小編為大家分享的Python中怎么實現(xiàn)文本分析了，如果剛好有類似的疑惑，不妨參照上述分析進行理解。如果想知道更多相關知識，歡迎關注億速云行業(yè)資訊頻道。

向AI問一下細節(jié)

猜你喜歡