溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

python3中提取漢字的方法是什么

發(fā)布時(shí)間:2020-08-07 14:11:27 來源:億速云 閱讀:372 作者:小新 欄目:編程語言

這篇文章主要介紹了python3中提取漢字的方法是什么,具有一定借鑒價(jià)值,需要的朋友可以參考下。希望大家閱讀完這篇文章后大有收獲。下面讓小編帶著大家一起了解一下。

采用正則表達(dá)式的方法對(duì)字符串進(jìn)行處理。

str1 = "{我%$是,《速$@.度\發(fā)》中 /國、人"

(1)提取漢字

漢字的范圍為”\u4e00-\u9fa5“,這個(gè)是用Unicode表示的。

import re
res1 = ''.join(re.findall('[\u4e00-\u9fa5]',str1))
print(res1)

輸出為:

‘我是速度發(fā)中國人’

(2)去除所有符號(hào)。采用清理數(shù)據(jù),僅保留字母、數(shù)字、中文的方法。

import re
res1 = re.sub("[^a-zA-Z0-9\u4e00-\u9fa5]", '', str1) 
print(res1)

輸出為:

‘我是速度發(fā)中國人’

感謝你能夠認(rèn)真閱讀完這篇文章,希望小編分享python3中提取漢字的方法是什么內(nèi)容對(duì)大家有幫助,同時(shí)也希望大家多多支持億速云,關(guān)注億速云行業(yè)資訊頻道,遇到問題就找億速云,詳細(xì)的解決方法等著你來學(xué)習(xí)!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI