您好,登錄后才能下訂單哦!
最大匹配分詞算法怎么在Java項(xiàng)目中實(shí)現(xiàn)?針對(duì)這個(gè)問(wèn)題,這篇文章詳細(xì)介紹了相對(duì)應(yīng)的分析和解答,希望可以幫助更多想解決這個(gè)問(wèn)題的小伙伴找到更簡(jiǎn)單易行的方法。
全文檢索有兩個(gè)重要的過(guò)程:
1分詞
2倒排索引
我們先看分詞算法
目前對(duì)中文分詞有兩個(gè)方向,其中一個(gè)是利用概率的思想對(duì)文章分詞。 也就是如果兩個(gè)字,一起出現(xiàn)的頻率很高的話,我們可以假設(shè)這兩個(gè)字是一個(gè)詞。這里可以用一個(gè)公式衡量:M(A,B)=P(AB)/P(A)P(B),其中 A表示一個(gè)字,B表示一個(gè)字,P(AB)表示AB相鄰出現(xiàn)的概率,P(A)表示A在這篇文章中的頻度,P(B)表示B在這篇文章中的頻度。用概率分詞的好 處是不需要借助詞典的幫助,壞處是算法比較麻煩,效率不高,也存在一定的出錯(cuò)率。
另外的一個(gè)方向是使用詞典分詞。就是事先為程序準(zhǔn)備一個(gè)詞典,然后通過(guò)這個(gè)詞典對(duì)文章分詞。目前較流行的方式有正向最大匹配算法和逆向最大匹配算法。逆向最大匹配算法在準(zhǔn)確性上要更好一些。
以 “我是一個(gè)壞人” 為例,并最大詞長(zhǎng)為3,詞庫(kù)包含有 我、是、一、個(gè)、一個(gè)、壞人、大壞人
正向的順序?yàn)?/strong>
我是一
我是
我 ===> 得到一個(gè)詞
是一個(gè)
是一
是 ===>得到一個(gè)詞
一個(gè)壞
一個(gè)===> 得到一個(gè)詞
壞人===>得到一個(gè)詞
結(jié)果 我、是、一個(gè)、壞人
反向算法
個(gè)壞人
壞人==> 壞人
是一個(gè)
一個(gè)==> 一個(gè)
我是
是==> 是
我==> 我
結(jié)果 我、是、一個(gè)、壞人
java代碼如下
package data; import java.util.Arrays; import java.util.HashSet; import java.util.Set; /** * 最大匹配分詞算法 * * @author JYC506 * */ public class SplitString { private Set<String> set = new HashSet<String>(); private int positiveOver = 0; private int reverseOver = 0; /** * 正向最大匹配 * * @param str 要分詞的句子 * @param num 詞的最大長(zhǎng)度 * @return */ public String[] positiveSplit(String str, int maxSize) { int tem = 0; int length = str.length(); String[] ss = new String[length]; char[] cc = str.toCharArray(); for (int i = 0; i < length; i++) { positiveOver = 0; String sb = this.toStr(cc, i, maxSize); ss[tem++] = sb; i = i + positiveOver; } String[] ss2 = new String[tem]; System.arraycopy(ss, 0, ss2, 0, tem); return ss2; } /** * 添加詞庫(kù) * * @param words */ public void addWord(String[] words) { for (String st : words) { this.set.add(st); } } /** * 逆向最大匹配 * * @param str * @param num * @return */ public String[] reverseSplit(String str, int num) { int tem = 0; int length = str.length(); String[] ss = new String[length]; char[] cc = str.toCharArray(); for (int i = str.length() - 1; i > -1; i--) { reverseOver = 0; String sb = this.toStr2(cc, i, num); tem++; ss[--length] = sb; i = i - reverseOver; } String[] ss2 = new String[tem]; System.arraycopy(ss, str.length() - tem, ss2, 0, tem); return ss2; } private String toStr(char[] cs, int start, int num) { int num2 = num; out: for (int j = 0; j < num; j++) { StringBuffer sb = new StringBuffer(); for (int i = 0; i < num2; i++) { if (start + i < cs.length) { sb.append(cs[start + i]); } else { num2--; j--; continue out; } } if (set.contains(sb.toString())) { positiveOver = num2 - 1; return sb.toString(); } num2--; } return String.valueOf(cs[start]); } private String toStr2(char[] cs, int start, int num) { int num2 = num; for (int j = 0; j < num; j++) { StringBuffer sb = new StringBuffer(); for (int i = 0; i < num2; i++) { int index = start - num2 + i + 1; if (index > -1) { sb.append(cs[index]); } else { num2--; } } if (set.contains(sb.toString())) { reverseOver = num2 - 1; return sb.toString(); } num2--; } return String.valueOf(cs[start]); } public static void main(String[] args) { String[] words = new String[] { "我們", "我們五人", "五人一組", "一組" }; SplitString ss = new SplitString(); /*添加詞到詞庫(kù)*/ ss.addWord(words); String st = "我們五人一組"; System.out.println("億速云測(cè)試結(jié)果:"); System.out.println("要分詞的句子:" + st); /*使用兩種方式分詞,下面我指定最大詞長(zhǎng)度為4*/ String[] ss2 = ss.reverseSplit(st, 4); String[] ss1 = ss.positiveSplit(st, 4); System.out.println("正向最大匹配分詞算法分詞結(jié)果:" + Arrays.toString(ss1)); System.out.println("逆向最大匹配分詞算法分詞結(jié)果:" + Arrays.toString(ss2)); } }
關(guān)于最大匹配分詞算法怎么在Java項(xiàng)目中實(shí)現(xiàn)問(wèn)題的解答就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,如果你還有很多疑惑沒(méi)有解開(kāi),可以關(guān)注億速云行業(yè)資訊頻道了解更多相關(guān)知識(shí)。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。