溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

在C程序中如何處理UTF-8文本

發(fā)布時(shí)間：2021-08-10 14:52:51 來源：億速云閱讀：194 作者：小新欄目：編程語言

小編給大家分享一下在C程序中如何處理UTF-8文本，希望大家閱讀完這篇文章之后都有所收獲，下面讓我們一起去探討吧！

UTF-8

互聯(lián)網(wǎng)的普及, 強(qiáng)烈要求出現(xiàn)一種統(tǒng)一的編碼方式. UTF-8就是在互聯(lián)網(wǎng)上使用最廣的一種unicode的實(shí)現(xiàn)方式. 其他實(shí)現(xiàn)方式還包括UTF-16和UTF-32, 不過在互聯(lián)網(wǎng)上基本不用.

重復(fù)一遍, 這里的關(guān)系是, UTF-8是Unicode的實(shí)現(xiàn)方式之一.

UTF-8最大的一個(gè)特點(diǎn), 就是它是一種變長(zhǎng)的編碼方式. 它可以使用1~6個(gè)字節(jié)表示一個(gè)符號(hào), 根據(jù)不同的符號(hào)而變化字節(jié)長(zhǎng)度.

UTF-8的編碼規(guī)則

UTF-8的編碼規(guī)則很簡(jiǎn)單, 只有兩條:

1) 對(duì)于單字節(jié)的符號(hào), 字節(jié)的第一位設(shè)為0, 后面7位為這個(gè)符號(hào)的unicode碼. 因此對(duì)于英語字母, UTF-8編碼和ASCII碼是相同的.

2) 對(duì)于n字節(jié)的符號(hào)(n>1), 第一個(gè)字節(jié)的前n位都設(shè)為1, 第n+1位設(shè)為0, 后面字節(jié)的前兩位一律設(shè)為10. 剩下的沒有提及的二進(jìn)制位, 全部為這個(gè)符號(hào)的unicode碼.

如果你對(duì) UTF-8 編碼不是非常了解，就不要試圖在 C 程序中徒手處理 UTF-8 文本。如果你對(duì) UTF-8 非常了解，就更沒必要這樣做。找一個(gè)提供了 UTF-8 文本處理功能并且可以跨平臺(tái)運(yùn)行的 C 庫(kù)來做這件事吧！

GLib 就是這樣的庫(kù)。

從問題出發(fā)

下面的這段文本是 UTF-8 編碼的（我之所以如此確定，是因?yàn)槲矣玫氖?Linux 系統(tǒng)，系統(tǒng)默認(rèn)的文本編碼是 UTF-8）：

我的 C81 每天都在口袋里
   @

我需要在 C 程序中讀入這些文本。在讀到 '@' 字符時(shí)，我需要判定 '@' 左側(cè)與之處于同一行的文本是否都是空白字符。

簡(jiǎn)單起見，我忽略了文件讀取的過程，將上述文本表示為 C 字符串：

gchar *demo_text =
 "我的 C81 每天都在口袋里\n"
 "   @";

注：在 GLib 中，gchar 就是 char，即 typedef char gchar;

下文，當(dāng)我說『demo_text 字符串』時(shí)，指的是以 demo_text 指針的值為基地址的 strlen(demo_text) + 1 個(gè)字節(jié)的內(nèi)存空間，這是 C 語言字符串的基本常識(shí)。

UTF-8 文本長(zhǎng)度與字符定位

為了模擬程序讀到 '@' 字符這一時(shí)刻，我需要用一個(gè) char * 類型的指針對(duì) demo_text 字符串中的 '@' 字符進(jìn)行定位。

'@' 字符在 demo_text 的末尾。我需要一個(gè)偏移距離，而這個(gè)偏移距離就是 demo_text 字串在 UTF-8 編碼層次上的長(zhǎng)度，通過這個(gè)偏移距離，我可以從 demo_text 字符串的基地址跳到 '@' 字符的基地址。

GLib 提供了 g_utf8_strlen 函數(shù)計(jì)算 UTF-8 字符串長(zhǎng)度，因此我可以得到從 demo_text 字串的基地址到 '@' 字符基地址的偏移距離：

glong offset = g_utf8_strlen(demo_text, -1);

結(jié)果是 38，恰好是 demo_text 字符串在 UTF-8 編碼層次上的長(zhǎng)度（不含字串結(jié)尾的 null 字符，亦即 '\0' 字符）。

g_utf8_strlen 的原型如下：

glong g_utf8_strlen(const gchar *p, gssize max);

注：glong 即 long，而 gssize 即 signed long。

g_utf8_strlen 第二個(gè)參數(shù) max 的設(shè)定規(guī)則如下：

如果它是負(fù)數(shù)，那么就假定字符串是以 null 結(jié)尾的（這是 C 字符串常識(shí)），然后統(tǒng)計(jì) UTF-8 字符的個(gè)數(shù)。
如果它為 0，就是不檢測(cè)字符串長(zhǎng)度……這個(gè)值純粹是出來打醬油的。
如果它為正數(shù)，表示的是字節(jié)數(shù)。g_utf8_strlen 會(huì)按照字節(jié)數(shù)從字符串中截取字節(jié)，然后再統(tǒng)計(jì)所截取的字節(jié)對(duì)應(yīng)的 UTF-8 字符的個(gè)數(shù)。

有了偏移距離，就可以在 demo_text 中定位 '@' 字符了，即：

gchar *tail = g_utf8_offset_to_pointer(demo_text, offset - 1);

此時(shí) tail 的值便是 '@' 字符的基地址。

在 UTF-8 文本中游走

現(xiàn)在已經(jīng)獲得了 '@' 的位置，接下來就是從這個(gè)位置開始向左（也就是逆序）遍歷 demo_text 字符串的其它字符。GLib 為此提供了 g_utf8_prev_char 函數(shù)：

gchar * g_utf8_prev_char(const gchar *str, const gchar *p);

借助 g_utf8_prev_char 函數(shù)可以從 str 中獲得 p 之前的一個(gè) UTF-8 字符的基地址（p 是當(dāng)前 UTF-8 字符的基地址）。如果 p 與 str 相同，即 p 已經(jīng)指向了字符串的基地址，那么 g_utf8_find_prev_char 會(huì)返回 NULL。

對(duì)于本文要解決的問題而言，利用這個(gè)函數(shù)，可以寫出從 demo_text 中的 '@' 字符所在位置開始逆序遍歷 '@' 之前的所有 UTF-8 字符的過程：

glong offset = g_utf8_strlen(demo_text, -1);
gchar *viewer = g_utf8_offset_to_pointer(demo_text, offset - 1);
while (1) {
  viewer = g_utf8_prev_char(viewer);
  if (viewer != demo_text) {
    /* do somthing here */
  } else {
    break;
  }
}

GLib 還提供了一個(gè) g_utf8_next_char，它可以返回當(dāng)前位置的下一個(gè) UTF-8 字符的基地址。

提取 UTF-8 字符

雖然借助 g_utf8_prev_char 與 g_utf8_next_char 可以讓指針在 UTF-8 文本中走動(dòng)，但是只能將一個(gè)指針定位到某個(gè) UTF-8 字符的基地址，如果我們想得到這個(gè) UTF-8 字符，就不是那么容易了。

例如

viewer = g_utf8_prev_char(viewer);

此時(shí)，雖然可以將 viewer 向前移動(dòng)一個(gè) UTF-8 字符寬度的距離，到達(dá)了一個(gè)新的 UTF-8 字符的基地址，但是如果我想將這個(gè)新的 UTF-8 字符打印出來，像下面這樣做肯定是不行的：

g_print("%s", viewer);

注：g_print 函數(shù)與 C 標(biāo)準(zhǔn)庫(kù)中的 printf 函數(shù)功能基本等價(jià)，只不過 g_print 可以借助 g_set_print_handler 函數(shù)實(shí)現(xiàn)輸出的『重定向』。

因?yàn)?g_print 要通過 viewer 打印單個(gè) UTF-8 字符，前提是這個(gè) UTF-8 字符之后需要有個(gè) '\0'，這樣就是將一個(gè) UTF-8 字符作為一個(gè)普通的 C 字符串打印了出來。這個(gè) UTF-8 字符后面不可能有 '\0'，除非它是 demo_text 字符串中的最后一個(gè)字符。

要解決這個(gè)問題，只能是將 viewer 所指向的 UTF-8 字符相應(yīng)的字節(jié)數(shù)據(jù)提取出來，放到一個(gè)字符數(shù)組或在堆中為其創(chuàng)建存儲(chǔ)空間，然后再打印這個(gè)字符數(shù)組或堆空間中的數(shù)據(jù)。例如：

gchar *new_viewer = g_utf8_next_char(viewer);

sizt_t n = new_viewer - viewer;
gchar *utf8_char = malloc(n + 1);
memcpy(utf8_char, viewer, n);
utf8_char[n] = '\0';
g_print("%s", utf8_char);
free(utf8_char);

這樣顯然太繁瑣了。不過，這意味著我們應(yīng)該寫一個(gè)函數(shù)專門做這件事。這個(gè)函數(shù)可取名為 get_utf8_char，定義如下：

static gchar * get_utf8_char(const gchar *base) {
  gchar *new_base = g_utf8_next_char(base);
  gsize n = new_base - base;
  gchar *utf8_char = g_memdup(base, (n + 1));
  utf8_char[n] = '\0';
  return utf8_char;
}

借助這個(gè)函數(shù)，就可以實(shí)現(xiàn)從 demo_text 的 '@' 所在位置開始，逆序打印 '@' 之前的所有 UTF-8 字符：

glong offset = g_utf8_strlen(demo_text, -1);
gchar *viewer = g_utf8_offset_to_pointer(demo_text, offset - 1);
while (1) {
  gchar outbuf[7] = {'\0'};
  viewer = g_utf8_prev_char(viewer);
  if (viewer != demo_text) {
    gchar *utf8_char = get_utf8_char(viewer);
    g_print("%s", utf8_char);
    g_free(utf8_char);
  } else {
    break;
  }
}
g_print("\n");

注：g_memdup 等價(jià)于 C 標(biāo)準(zhǔn)庫(kù)中的 malloc + memcpy，而 g_free 則等價(jià)與 C 標(biāo)準(zhǔn)庫(kù)中的 free。
空白字符比較

現(xiàn)在，假設(shè)給定一個(gè) UTF-8 字符 x，怎么判斷它與某個(gè) UTF-8 字符相等？

不要忘記，所謂的一個(gè) UTF-8 字符，本質(zhì)上只不過是 char * 類型的指針引用的一段內(nèi)存空間?；谶@一事實(shí)，利用 C 標(biāo)準(zhǔn)庫(kù)提供的 strcmp 函數(shù)即可實(shí)現(xiàn) UTF-8 字符的比較。

下面，我定義了函數(shù) is_space，用它判斷一個(gè) UTF-8 字符是否為空白字符。

static gboolean is_space(const gchar *s) {
  gboolean ret = FALSE;
  char *space_chars_set[] = {" ", "\t", "　"};
  size_t n = sizeof(space_chars_set) / sizeof(space_chars_set[0]);
  for (size_t i = 0; i < n; i++) {
    if (!strcmp(s, space_chars_set[i])) {
      ret = TRUE;
      break;
    }
  }
  return ret;
}

注：gboolean 是 GLib 定義的布爾類型，其值要么是 TRUE，要么是 FALSE。

在 is_space 函數(shù)中，我只是判斷了三種空白字符類型——英文空格、中文全角空格以及制表符。

雖然回車符與換行符也是空白字符，但是為了解決這篇文章開始時(shí)提出的問題，我需要單獨(dú)為換行符定義一個(gè)判斷函數(shù)：

static gboolean is_line_break(const gchar *s) {
  return (!strcmp(s, "\n") ? TRUE : FALSE);
}

解決問題

現(xiàn)在萬事俱備，只欠東風(fēng)，我們應(yīng)該著手解決問題了。如果讀到此處已經(jīng)忘記了問題是什么，那么請(qǐng)回顧第一節(jié)。

盡管下面這段代碼看上去挺丑，但是它能夠解決問題。

gboolean is_right_at_sign = TRUE;
glong offset = g_utf8_strlen(demo_text, -1);
gchar *viewer = g_utf8_offset_to_pointer(demo_text, offset - 1);
while (viewer != demo_text) {
  viewer = g_utf8_prev_char(viewer);
  gchar *utf8_char = get_utf8_char(viewer);
  if (!is_space(utf8_char)) {
    if (!is_line_break(utf8_char)) {
      is_right_at_sign = FALSE;
      g_free(utf8_char);
      break;
    } else {
      g_free(utf8_char);
      break;
    }
  }
  g_free(utf8_char);
}
if (is_right_at_sign) g_print("Right @ !\n");

對(duì)上述代碼略做簡(jiǎn)化，可得：

gboolean is_right_at_sign = TRUE;
glong offset = g_utf8_strlen(demo_text, -1);
gchar *viewer = g_utf8_offset_to_pointer(demo_text, offset - 1);
while (viewer != demo_text) {
  viewer = g_utf8_prev_char(viewer);
  gchar *utf8_char = get_utf8_char(viewer);
  if (!is_space(utf8_char)) {
    if (!is_line_break(utf8_char)) is_right_at_sign = FALSE;
    g_free(utf8_char);
    break;
  }
  g_free(utf8_char);
}
if (is_right_at_sign) g_print("Right @ !\n");

其實(shí)，如果將 UTF-8 字符的提取與內(nèi)存釋放過程置入 is_space 與 is_line_break 函數(shù)，即：

static gboolean is_space(const gchar *c) {
  gboolean ret = FALSE;
  gchar *utf8_char = get_utf8_char(c);
  char *space_chars_set[] = {" ", "\t", "　"};
  size_t n = sizeof(space_chars_set) / sizeof(space_chars_set[0]);
  for (size_t i = 0; i < n; i++) {
    if (!strcmp(utf8_char, space_chars_set[i])) {
      ret = TRUE;
      break;
    }
  }
  g_free(utf8_char);
  return ret;
}

static gboolean is_line_break(const gchar *c) {
  gboolean ret = FALSE;
  gchar *utf8_char = get_utf8_char(c);
  if (!strcmp(utf8_char, "\n")) ret = TRUE;
  g_free(utf8_char);
  return ret;
}

可以得到進(jìn)一步的簡(jiǎn)化結(jié)果：

gboolean is_right_at_sign = TRUE;
glong offset = g_utf8_strlen(demo_text, -1);
gchar *viewer = g_utf8_offset_to_pointer(demo_text, offset - 1);
while (viewer != demo_text) {
  viewer = g_utf8_prev_char(viewer);
  if (!is_space(viewer)) {
    if (!is_line_break(viewer)) is_right_at_sign = FALSE;
    break;
  }
}
if (is_right_at_sign) g_print("Right @ !\n");

附：完整的代碼

#include <string.h>
#include <glib.h>

gchar *demo_text =
  "我的 C81 每天都在口袋里\n"
  "      @";

static gchar * get_utf8_char(const gchar *base) {
  gchar *new_base = g_utf8_next_char(base);
  gsize n = new_base - base;
  gchar *utf8_char = g_memdup(base, (n + 1));
  utf8_char[n] = '\0';
  return utf8_char;
}

static gboolean is_space(const gchar *c) {
  gboolean ret = FALSE;
  gchar *utf8_char = get_utf8_char(c);
  char *space_chars_set[] = {" ", "\t", "　"};
  size_t n = sizeof(space_chars_set) / sizeof(space_chars_set[0]);
  for (size_t i = 0; i < n; i++) {
    if (!strcmp(utf8_char, space_chars_set[i])) {
      ret = TRUE;
      break;
    }
  }
  g_free(utf8_char);
  return ret;
}

static gboolean is_line_break(const gchar *c) {
  gboolean ret = FALSE;
  gchar *utf8_char = get_utf8_char(c);
  if (!strcmp(utf8_char, "\n")) ret = TRUE;
  g_free(utf8_char);
  return ret;
}

int main(void) {
  gboolean is_right_at_sign = TRUE;
  glong offset = g_utf8_strlen(demo_text, -1);
  gchar *viewer = g_utf8_offset_to_pointer(demo_text, offset - 1);
  while (viewer != demo_text) {
    viewer = g_utf8_prev_char(viewer);
    if (!is_space(viewer)) {
      if (!is_line_break(viewer)) is_right_at_sign = FALSE;
      break;
    }
  }
  if (is_right_at_sign) g_print("Right @ !\n");

  return 0;
}

若是在 Bash 中使用 gcc 編譯這份代碼，可使用以下命令：

$ gcc `pkg-config --cflags --libs glib-2.0` utf8-demo.c -o utf8-demo

看完了這篇文章，相信你對(duì)“在C程序中如何處理UTF-8文本”有了一定的了解，如果想了解更多相關(guān)知識(shí)，歡迎關(guān)注億速云行業(yè)資訊頻道，感謝各位的閱讀！

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
如何使用正則驗(yàn)證小數(shù)點(diǎn)后面只能有兩位數(shù)
下一篇新聞：
php中怎么利用socket實(shí)現(xiàn)SMTP發(fā)送郵件

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼

<nobr id="svuvf"><td id="svuvf"><tr id="svuvf"></tr></td></nobr>

<i id="svuvf"><button id="svuvf"></button></i>