溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

怎么實現(xiàn)ES IK分詞器添加遠程詞組

發(fā)布時間:2021-10-20 09:30:14 來源:億速云 閱讀:115 作者:iii 欄目:編程語言

本篇內容介紹了“怎么實現(xiàn)ES IK分詞器添加遠程詞組”的有關知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠學有所成!

在IKAnalyzer.cfg.xml配置文件中修改配置項

<entry key="remote_ext_dict">URLS</entry>
<entry key="remote_ext_stopwords">URLS</entry>
  • 將URLS替換成遠程字典地址,多個地址使用分號 (;) 分隔.

  • 每條url,比如http://127.0.0.1/dict/my.txt ,該請求只需滿足以下兩點即可完成分詞熱更新:

    1)響應需要返回兩個頭部(header),一個是Last-Modified,一個是ETag,這兩者都是字符串類型,只要有一個發(fā)生變化,該插件就會去抓取新的分詞進而更新詞庫。

    2)返回的內容格式是一行一個分詞,換行符用\n即可。

    滿足上面兩點要求可實現(xiàn)熱更新分詞,不需要重啟 ES 實例。

可以將需自動更新的熱詞放在一個 UTF-8 編碼的 .txt 文件里,放在 nginx 或其他簡易 http server 下,當 .txt 文件修改時,http server 會在客戶端請求該文件時自動返回相應的 Last-Modified 和 ETag,或者可以另外做一個工具來從業(yè)務系統(tǒng)提取相關詞匯,并更新這個 .txt 文件。

http server的方式比較簡單 下面舉一個通過SpringMVC響應的方式的實現(xiàn)

// 字典文件所在文件路徑
private static final String EXT_DICT_PATH = "/data/soft/mydic";
@RequestMapping(value="/getCustomDict.htm")
public void getCustomDict(HttpServletRequest request, HttpServletResponse response){

      try {

          // 讀取字典文件
          String path = EXT_DICT_PATH;
          File file = new File(path);

          String content = "";
          if(file.exists()){

              // 讀取文件內容
              FileInputStream fi = new FileInputStream(file);
              byte[] buffer = new byte[(int) file.length()];
              int offset = 0, numRead = 0;

              while (offset < buffer.length && (numRead = fi.read(buffer, offset, buffer.length - offset)) >= 0) {
                  offset += numRead;
              }

              fi.close();
              content = new String(buffer, "UTF-8");
          }

          // 返回數(shù)據(jù)
          OutputStream out= response.getOutputStream();
          // Head需要帶上 Last-Modified ETag 屬性
          // 此處是輸出的文件內容大小,不一定是這個樣子,只要保證當文件發(fā)生變化時,Last-Modified和ETag也是變化的就OK ,比如也可以是文件的MD5
          response.setHeader("Last-Modified", String.valueOf(content.length()));
          response.setHeader("ETag",String.valueOf(content.length()));

          response.setContentType("text/plain; charset=utf-8");
          out.write(content.getBytes("utf-8"));

          out.flush();
          logger.info(content+"這是讀取數(shù)據(jù)值");

      } catch (Exception e) {
          e.printStackTrace();
      }

  }

“怎么實現(xiàn)ES IK分詞器添加遠程詞組”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關的知識可以關注億速云網站,小編將為大家輸出更多高質量的實用文章!

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng)、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經查實,將立刻刪除涉嫌侵權內容。

AI