<samp id="65bb5"><th id="65bb5"></th></samp>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

C++如何過(guò)濾出字符串的中文（GBK、UTF-8）

發(fā)布時(shí)間：2020-09-19 07:38:06 來(lái)源：腳本之家閱讀：186 作者：夢(mèng)涵的帥爸爸欄目：編程語(yǔ)言

前言

最近在處理游戲敏感詞之類的東西，為了加強(qiáng)屏蔽處理，所以需要過(guò)濾掉字符串中的除漢字之外的是其他東西如數(shù)字，符號(hào)，英文字母等。

首先我查閱資料并寫了個(gè)函數(shù)：

示例：返回輸入字符串中漢字的個(gè)數(shù)：

std::string StrWithOutSymbol(const std::string &source)
{ 
 string sourceWithOutSymbol;

 int i = 0;
 while (source[i] != 0)
 {
  if (source[i] & 0x80 )
  {
   sourceWithOutSymbol += source[i];
   sourceWithOutSymbol += source[i + 1];
   i += 2;
  else
  {
   i ++;
  }
 }
 return
 　　sourceWithOutSymbol; 
}

這個(gè)函數(shù)的原理是ord($str)&0x80來(lái)判斷漢字

80對(duì)應(yīng)的二進(jìn)制代碼為1000 0000,最高位為一,代表漢字漢字編碼格式通稱為10格式一個(gè)漢字占2字節(jié),但只代表一個(gè)字符

"Windows中，中文簡(jiǎn)體字符集的編碼是同時(shí)用1個(gè)字節(jié)和2個(gè)字節(jié)來(lái)表示的。當(dāng)高位是0x00～0x7f時(shí)，為一個(gè)字節(jié)，高位為0x80以上時(shí)用2個(gè)字節(jié)表示"

當(dāng)你發(fā)現(xiàn)一個(gè)字節(jié)的內(nèi)容大于0x7f,那它肯定是個(gè)(跟另外一個(gè)字節(jié)拼湊成一個(gè))漢字,如何判斷肯定大于0x7f呢?
0x7f(1111111)后面一個(gè)數(shù)就是0x80(10000000),所以想要大于0x7f，這個(gè)字節(jié)的最高位都肯定是1,我們只需要判斷這個(gè)最高位是否為1就行了。

判斷方法:

位與(相同的位都是1的才為1，否則為0):

如:要判斷一個(gè)數(shù)的第三位是否是1，只要跟4(100)位與,判斷一個(gè)數(shù)的第2位是否為1就跟2(10)位與.

同理判斷第八位是否為1只要跟(10000000)也就是0x80位與了.

這里為什么不用>0x7f？php可能還行，但在其他強(qiáng)類型語(yǔ)言里面，1個(gè)字節(jié)的最高位用來(lái)標(biāo)示負(fù)數(shù)，一個(gè)負(fù)數(shù)肯定不可能大于0x7f(最大的整數(shù))

再舉個(gè)例子:

a的assic碼是97(1100001)
A的assic碼是65(1000001)

b的assic碼是98(1100010)
B的assic碼是66(1000010)

發(fā)現(xiàn)一個(gè)規(guī)律:一個(gè)a-z的字母,只要是小寫字母，第六位肯定是1，我們可以用這個(gè)來(lái)判斷大小寫:

這時(shí)候只要跟用以個(gè)字母跟0x20(100000)來(lái)位與判斷:

if(ord($a)&0x20){
  //大寫
}

如何把所有字母改成大寫?第六位的1改成0就行了:

$a='a';
$a  = chr(ord($a)&(~0x20));
echo $a;

然后我信心滿滿的吧這個(gè)函數(shù)加入到項(xiàng)目中去，點(diǎn)擊運(yùn)行，輸入中文進(jìn)行檢查，當(dāng)！項(xiàng)目報(bào)錯(cuò)了？？？？數(shù)組越界？？？？

這是為什么，我又定位到報(bào)錯(cuò)的地方，發(fā)現(xiàn)我使用的cocos-lua，在向c++傳遞字符串的時(shí)候傳進(jìn)來(lái)的字符串是以UTF-8來(lái)進(jìn)行編碼的，我又去找UIF-8的編碼規(guī)則發(fā)現(xiàn)

UTF-8編碼規(guī)則：如果只有一個(gè)字節(jié)則其最高二進(jìn)制位為0；如果是多字節(jié)，其第一個(gè)字節(jié)從最高位開始，連續(xù)的二進(jìn)制位值為1的個(gè)數(shù)決定了其編碼的字節(jié)數(shù)，其余各字節(jié)均以10開頭。UTF-8轉(zhuǎn)換表表示如下：

C++如何過(guò)濾出字符串的中文（GBK、UTF-8）

而我之前的是按照GBK編碼進(jìn)行操作的，GBK每個(gè)中文字符只占兩個(gè)字節(jié)，而utf-8的話中文可能占3個(gè)字節(jié)，四個(gè)字節(jié)，甚至是五個(gè)六個(gè)，所以用剛才那樣的函數(shù)就會(huì)有越界的情況發(fā)生，所以對(duì)用UTF-8進(jìn)行編碼的字符串，就需要進(jìn)行另外的處理，所以我寫了一個(gè)新函數(shù)：

對(duì)UTF-8編碼的字符串進(jìn)行中文篩選的函數(shù)：

std::string censorStrWithOutSymbol(const std::string &source)
{  
  string sourceWithOutSymbol;

  int i = 0;
  while (source[i] != 0)
  {
    if (source[i] & 0x80 && source[i] & 0x40 && source[i] & 0x20)
    {
      int byteCount = 0;
      if (source[i] & 0x10)
      {
        byteCount = 4;
      }
      else
      {
        byteCount = 3;
      }
      for (int a = 0; a < byteCount; a++)
      {
        sourceWithOutSymbol += source[i];
        i++;
      }
    }
    else if (source[i] & 0x80 && source[i] & 0x40)
    {
      i += 2;
    }
    else
    {
      i += 1;
    }
  }
  return sourceWithOutSymbol;
}

點(diǎn)擊運(yùn)行，成功了！舒服。

總結(jié)

以上就是這篇文章的全部?jī)?nèi)容了，希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，謝謝大家對(duì)億速云的支持。

向AI問(wèn)一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
Springboot項(xiàng)目使用攔截器方法詳解
下一篇新聞：
【Oracle】spool 格式化導(dǎo)出到excel

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼

<tr id="5h555"><sup id="5h555"></sup></tr>