<address id="rgroa"><sub id="rgroa"></sub></address>

<blockquote id="rgroa"><samp id="rgroa"></samp></blockquote>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

js實現敏感詞過濾算法及實現邏輯

發(fā)布時間：2020-08-29 17:33:05 來源：腳本之家閱讀：248 作者：小黎也欄目：web開發(fā)

最近弄了一個用戶發(fā)表評論的功能，用戶上傳了評論，再文章下可以看到自己的評論，但作為社會主義接班人，踐行社會主義核心價值觀，所以給評論敏感詞過濾的功能不可少，在網上找了資料，發(fā)現已經有非常成熟的解決方案。常用的方案用這么兩種

1.全文搜索，逐個匹配。這種聽起來就不夠高大上，在數據量大的情況下，會有效率問題，文末有比較

2.DFA算法-確定有限狀態(tài)自動機附上百科鏈接確定有限狀態(tài)自動機

DFA算法介紹

DFA是一種計算模型，數據源是一個有限個集合，通過當前狀態(tài)和事件來確定下一個狀態(tài),即狀態(tài)+事件=下一狀態(tài)，由此逐步構建一個有向圖，其中的節(jié)點就是狀態(tài)，所以在DFA算法中只有查找和判斷，沒有復雜的計算，從而提高算法效率

參考文章 Java實現敏感詞過濾

實現邏輯

構造數據結構

將敏感詞轉換成樹結構，舉例敏感詞有著這么幾個 ['日本鬼子','日本人','日本男人'] ，那么數據結構如下（圖片引用參考文章）

js實現敏感詞過濾算法及實現邏輯

每個文字是一個節(jié)點，連續(xù)的節(jié)點組成一個詞，日本人對應的就是中間的那條鏈，我們可以使用對象或者map來構建樹，這里的栗子采用 map 構建節(jié)點，每個節(jié)點中有個狀態(tài)標識，用來表示當前節(jié)點是不是最后一個，每條鏈路必須要有個終點節(jié)點，先來看下構建節(jié)點的流程圖

js實現敏感詞過濾算法及實現邏輯

判斷邏輯

先從文本的第一個字開始檢查，比如你我是日本鬼子，第一個字你，在樹的第一層找不到這個節(jié)點，那么繼續(xù)找第二個字，到了日的時候，第一層節(jié)點找到了，那么接著下一層節(jié)點中查找本，同時判斷這個節(jié)點是不是結尾節(jié)點，若是結尾節(jié)點，則匹配成功了，反之繼續(xù)匹配

代碼實現

####構造數據結構

/**
* @description
* 構造敏感詞map
* @private
* @returns
*/
private makeSensitiveMap(sensitiveWordList) {
 // 構造根節(jié)點
 const result = new Map();
 for (const word of sensitiveWordList) {
  let map = result;
  for (let i = 0; i < word.length; i++) {
   // 依次獲取字
   const char = word.charAt(i);
   // 判斷是否存在
   if (map.get(char)) {
    // 獲取下一層節(jié)點
    map = map.get(char);
   } else {
    // 將當前節(jié)點設置為非結尾節(jié)點
    if (map.get('laster') === true) {
     map.set('laster', false);
    }
    const item = new Map();
    // 新增節(jié)點默認為結尾節(jié)點
    item.set('laster', true);
    map.set(char, item);
    map = map.get(char);
   }
  }

 }
 return result;
}

最終map結構如下

js實現敏感詞過濾算法及實現邏輯

查找敏感詞

/**
* @description
* 檢查敏感詞是否存在
* @private
* @param {any} txt
* @param {any} index
* @returns
*/
private checkSensitiveWord(sensitiveMap, txt, index) {
 let currentMap = sensitiveMap;
 let flag = false;
 let wordNum = 0;//記錄過濾
 let sensitiveWord = ''; //記錄過濾出來的敏感詞
 for (let i = index; i < txt.length; i++) {
  const word = txt.charAt(i);
  currentMap = currentMap.get(word);
  if (currentMap) {
   wordNum++;
   sensitiveWord += word;
   if (currentMap.get('laster') === true) {
    // 表示已到詞的結尾
    flag = true;
    break;
   }
  } else {
   break;
  }
 }
 // 兩字成詞
 if (wordNum < 2) {
  flag = false;
 }
 return { flag, sensitiveWord };
}
/**
* @description
* 判斷文本中是否存在敏感詞
* @param {any} txt
* @returns
*/
public filterSensitiveWord(txt, sensitiveMap) {
 let matchResult = { flag: false, sensitiveWord: '' };
 // 過濾掉除了中文、英文、數字之外的
 const txtTrim = txt.replace(/[^\u4e00-\u9fa5\u0030-\u0039\u0061-\u007a\u0041-\u005a]+/g, '');
 for (let i = 0; i < txtTrim.length; i++) {
  matchResult = checkSensitiveWord(sensitiveMap, txtTrim, i);
  if (matchResult.flag) {
   console.log(`sensitiveWord:${matchResult.sensitiveWord}`);
   break;
  }
 }
 return matchResult;
}

效率

為了看出DFA的效率，我做了個簡單的小測試，測試的文本長度為5095個漢字，敏感詞詞庫中有2000個敏感詞，比較的算法分別為 DFA算法和 String原生對象提供的 indexOf API做比較

// 簡單的字符串匹配-indexOf
ensitiveWords.forEach((word) => {
 if (ss.indexOf(word) !== -1) {
  console.log(word)
 }
})

分別將兩個算法執(zhí)行100次，得到如下結果

js實現敏感詞過濾算法及實現邏輯

可直觀看出， DFA 的平均耗時是在1ms左右,最大為5ms； indexOf 方式的平均耗時在9ms左右,最大為14ms，所以DFA效率上還是非常明顯有優(yōu)勢的。

總結

以上所述是小編給大家介紹的js實現敏感詞過濾算法及實現邏輯，希望對大家有所幫助，如果大家有任何疑問請給我留言，小編會及時回復大家的。在此也非常感謝大家對億速云網站的支持！

向AI問一下細節(jié)

推薦閱讀：

免責聲明：本站發(fā)布的內容（圖片、視頻和文字）以原創(chuàng)、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
淺談Android RecyclerView 間距全適配
下一篇新聞：
Django文件存儲自己定制存儲系統解析

猜你喜歡

AI
助
手

產品服務

地區(qū)劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼