最大匹配分詞算法怎么在Java項(xiàng)目中實(shí)現(xiàn)

發(fā)布時(shí)間：2020-12-05 16:11:30 來(lái)源：億速云閱讀：130 作者：Leah 欄目：編程語(yǔ)言

最大匹配分詞算法怎么在Java項(xiàng)目中實(shí)現(xiàn)？針對(duì)這個(gè)問(wèn)題，這篇文章詳細(xì)介紹了相對(duì)應(yīng)的分析和解答，希望可以幫助更多想解決這個(gè)問(wèn)題的小伙伴找到更簡(jiǎn)單易行的方法。

全文檢索有兩個(gè)重要的過(guò)程：

1分詞

2倒排索引

我們先看分詞算法

目前對(duì)中文分詞有兩個(gè)方向，其中一個(gè)是利用概率的思想對(duì)文章分詞。也就是如果兩個(gè)字，一起出現(xiàn)的頻率很高的話，我們可以假設(shè)這兩個(gè)字是一個(gè)詞。這里可以用一個(gè)公式衡量：M(A,B)=P(AB)/P(A)P(B)，其中 A表示一個(gè)字，B表示一個(gè)字，P(AB)表示AB相鄰出現(xiàn)的概率，P(A)表示A在這篇文章中的頻度，P(B)表示B在這篇文章中的頻度。用概率分詞的好處是不需要借助詞典的幫助，壞處是算法比較麻煩，效率不高，也存在一定的出錯(cuò)率。

另外的一個(gè)方向是使用詞典分詞。就是事先為程序準(zhǔn)備一個(gè)詞典，然后通過(guò)這個(gè)詞典對(duì)文章分詞。目前較流行的方式有正向最大匹配算法和逆向最大匹配算法。逆向最大匹配算法在準(zhǔn)確性上要更好一些。

以 “我是一個(gè)壞人” 為例，并最大詞長(zhǎng)為３，詞庫(kù)包含有　我、是、一、個(gè)、一個(gè)、壞人、大壞人

正向的順序?yàn)?/strong>

我是一
我是
我 ===> 得到一個(gè)詞
是一個(gè)
是一
是 ===>得到一個(gè)詞
一個(gè)壞
一個(gè)===> 得到一個(gè)詞
壞人===>得到一個(gè)詞

結(jié)果我、是、一個(gè)、壞人

反向算法

個(gè)壞人
壞人==> 壞人
是一個(gè)
一個(gè)==> 一個(gè)
我是
是==> 是
我==> 我

結(jié)果我、是、一個(gè)、壞人

java代碼如下

package data;
import java.util.Arrays;
import java.util.HashSet;
import java.util.Set;
/**
 * 最大匹配分詞算法
 *
 * @author JYC506
 *
 */
public class SplitString {
 private Set<String> set = new HashSet<String>();
 private int positiveOver = 0;
 private int reverseOver = 0;
 /**
  * 正向最大匹配
  *
  * @param str 要分詞的句子
  * @param num 詞的最大長(zhǎng)度
  * @return
  */
 public String[] positiveSplit(String str, int maxSize) {
  int tem = 0;
  int length = str.length();
  String[] ss = new String[length];
  char[] cc = str.toCharArray();
  for (int i = 0; i < length; i++) {
   positiveOver = 0;
   String sb = this.toStr(cc, i, maxSize);
   ss[tem++] = sb;
   i = i + positiveOver;
  }
  String[] ss2 = new String[tem];
  System.arraycopy(ss, 0, ss2, 0, tem);
  return ss2;
 }
 /**
  * 添加詞庫(kù)
  *
  * @param words
  */
 public void addWord(String[] words) {
  for (String st : words) {
   this.set.add(st);
  }
 }
 /**
  * 逆向最大匹配
  *
  * @param str
  * @param num
  * @return
  */
 public String[] reverseSplit(String str, int num) {
  int tem = 0;
  int length = str.length();
  String[] ss = new String[length];
  char[] cc = str.toCharArray();
  for (int i = str.length() - 1; i > -1; i--) {
   reverseOver = 0;
   String sb = this.toStr2(cc, i, num);
   tem++;
   ss[--length] = sb;
   i = i - reverseOver;
  }
  String[] ss2 = new String[tem];
  System.arraycopy(ss, str.length() - tem, ss2, 0, tem);
  return ss2;
 }
 private String toStr(char[] cs, int start, int num) {
  int num2 = num;
  out: for (int j = 0; j < num; j++) {
   StringBuffer sb = new StringBuffer();
   for (int i = 0; i < num2; i++) {
    if (start + i < cs.length) {
     sb.append(cs[start + i]);
    } else {
     num2--;
     j--;
     continue out;
    }
   }
   if (set.contains(sb.toString())) {
    positiveOver = num2 - 1;
    return sb.toString();
   }
   num2--;
  }
  return String.valueOf(cs[start]);
 }
 private String toStr2(char[] cs, int start, int num) {
  int num2 = num;
  for (int j = 0; j < num; j++) {
   StringBuffer sb = new StringBuffer();
   for (int i = 0; i < num2; i++) {
    int index = start - num2 + i + 1;
    if (index > -1) {
     sb.append(cs[index]);
    } else {
     num2--;
    }
   }
   if (set.contains(sb.toString())) {
    reverseOver = num2 - 1;
    return sb.toString();
   }
   num2--;
  }
  return String.valueOf(cs[start]);
 }
 public static void main(String[] args) {
  String[] words = new String[] { "我們", "我們五人", "五人一組", "一組" };
  SplitString ss = new SplitString();
  /*添加詞到詞庫(kù)*/
  ss.addWord(words);
  String st = "我們五人一組";
  System.out.println("億速云測(cè)試結(jié)果：");
  System.out.println("要分詞的句子：" + st);
  /*使用兩種方式分詞，下面我指定最大詞長(zhǎng)度為4*/
  String[] ss2 = ss.reverseSplit(st, 4);
  String[] ss1 = ss.positiveSplit(st, 4);
  System.out.println("正向最大匹配分詞算法分詞結(jié)果：" + Arrays.toString(ss1));
  System.out.println("逆向最大匹配分詞算法分詞結(jié)果：" + Arrays.toString(ss2));
 }
}

關(guān)于最大匹配分詞算法怎么在Java項(xiàng)目中實(shí)現(xiàn)問(wèn)題的解答就分享到這里了，希望以上內(nèi)容可以對(duì)大家有一定的幫助，如果你還有很多疑惑沒(méi)有解開(kāi)，可以關(guān)注億速云行業(yè)資訊頻道了解更多相關(guān)知識(shí)。

向AI問(wèn)一下細(xì)節(jié)

推薦閱讀：

python正向最大匹配分詞和逆向最大匹配分詞的示例分析

怎么在Java中實(shí)現(xiàn)一個(gè)雙向匹配分詞算法

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

java 最大匹配分詞算法 ava

上一篇新聞：
Java中Word怎么利用com進(jìn)行操作

下一篇新聞：
Java中實(shí)現(xiàn)多態(tài)性的方法有哪些

猜你喜歡

Flutter LinearProgressIndicator使用指南分析

使用fileupload組件實(shí)現(xiàn)文件上傳功能

ASP.NET中后臺(tái)注冊(cè)js腳本使用的方法對(duì)比

基于MFC實(shí)現(xiàn)類的序列化詳解

Java 中的位運(yùn)算與移位運(yùn)算詳解

adb wireless進(jìn)行Android手機(jī)調(diào)試詳解

利用Python求解阿基米德分牛問(wèn)題

詳解git commit --amend 用法

SuperSlide標(biāo)簽切換、焦點(diǎn)圖多種組合插件

Session和Cookie之間區(qū)別與聯(lián)系

最新資訊

LAMP環(huán)境MySQL索引優(yōu)化方法

LAMP服務(wù)器資源監(jiān)控與管理技巧

LAMP環(huán)境PHP版本升級(jí)注意事項(xiàng)

Apache在LAMP中的角色與性能考量

LAMP架構(gòu)適合哪些類型網(wǎng)站

Linux中LAMP配置最佳實(shí)踐分享

LAMP與LEMP，Linux服務(wù)器如何選擇

LAMP環(huán)境如何保障網(wǎng)站安全

Linux下LAMP環(huán)境搭建難點(diǎn)解析

LAMP架構(gòu)如何優(yōu)化Linux服務(wù)器性能

相關(guān)推薦

java中文分詞之正向最大匹配法的示例分析

怎么在Java項(xiàng)目中實(shí)現(xiàn)一個(gè)求逆矩陣算法

怎么在java項(xiàng)目中實(shí)現(xiàn)一個(gè)海盜算法

FloydWarshall算法如何在java項(xiàng)目中實(shí)現(xiàn)

如何解析hanlp源碼中文分詞算法

用python實(shí)現(xiàn)前向分詞最大匹配算法的案例分析

如何理解常用分詞算法的比較與設(shè)想

怎么在java項(xiàng)目中實(shí)現(xiàn)一個(gè)KMP算法

怎么在Python中利用Spacy進(jìn)行分詞

怎么在python中實(shí)現(xiàn)dbscan算法

相關(guān)標(biāo)簽

javascript javaweb javafx與jfoenix教程 java學(xué)習(xí) java2html javassist java 8 java_home javaapi java項(xiàng)目 java后端 java程序員 java開(kāi)發(fā)環(huán)境 java測(cè)試 java運(yùn)算符 java亂碼 java版本 javamailsender javaswing javaconfig