#
中文分詞(Chinese Word Segmentation),將中文語句切割成單獨的詞組。英文使用空格來分開每個單詞的,而中文單獨一個漢字跟詞有時候完全不是同個含義,因此,中文分詞相比英文分詞難度
windows下安裝SCWS的中文擴展:去官網(wǎng)下載php_scws.dll(PHP-5.2.x根據(jù)php版本選擇) 、XDB 詞典文件(簡體中文(UTF-8)可選gbk,也可以把兩個詞典文件都下載)、
背景:最近部門領(lǐng)導(dǎo)交給筆者一個任務(wù),想要從記錄用戶聊天記錄的數(shù)據(jù)表中,找出用戶對哪些問題比較關(guān)心(即:用戶咨詢過程中問到的哪些詞語出現(xiàn)的頻率最高),以便后期適當(dāng)?shù)淖鲂I(yè)務(wù)的調(diào)整,改變推廣策略等等聊天記
//正向最大匹配分詞算法 ,耗時長,這并不是一個很好的算法,我的這個輸出是逆向輸入的 using System; using System.Collections.Gen