溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Linux文本處理工具和正則表達(dá)式

發(fā)布時(shí)間:2020-07-07 20:51:32 來源:網(wǎng)絡(luò) 閱讀:319 作者:何小帥 欄目:系統(tǒng)運(yùn)維

抽取文本的工具

  • 文件內(nèi)容:cat,less,more
  • 文件截取:head,tail
  • 按列抽?。篶ut
  • 排序和統(tǒng)計(jì):sort,wc
  • 按關(guān)鍵字抽取:grep

文件查看命令

cat,nl,tac,rev
  • cat [OPTION]... [FILE]...
    -E:顯示行結(jié)束符$
    -n:對(duì)顯示出的每一行進(jìn)行編號(hào)
    -A:顯示所有控制符
    -b:非空行編號(hào)
    -s:壓縮連續(xù)的空行成一行
  • nl 顯示行號(hào)
  • tac 反向連接和打印文件
  • rev 反向打印行字符

分頁查看文件內(nèi)容

  • more:分頁查看文件
    more [OPTIONS...] FILE...
    -d: 顯示翻頁及退出提示
  • less:一頁一頁地查看文件或STDIN輸出
    查看時(shí)有用的命令包括:
    /文本 搜索 文本
    n/N 跳到下一個(gè) 或 上一個(gè)匹配
    less 命令是man命令使用的分頁器

顯示文本前或后行內(nèi)容

  • head [OPTION]... [FILE]...
    -c # 指定獲取前#字節(jié)
    -n # 指定獲取前#行
    -# 同上
  • tail [OPTION]... [FILE]...
    -c # 指定獲取后#字節(jié)
    -n # 指定獲取后#行
    -# 同上
    -f 跟蹤顯示文件fd新追加的內(nèi)容,常用日志監(jiān)控
    相當(dāng)于 --follow=descriptor
    -F 跟蹤文件名,相當(dāng)于--follow=name --retry
  • tailf 類似tail –f,當(dāng)文件不增長(zhǎng)時(shí)并不訪問文件

按列抽取文本cut和合并文件paste

  • cut [OPTION]... [FILE]...
    -d DELIMITER: 指明分隔符,默認(rèn)tab
    -f FILEDS:
    #: 第#個(gè)字段
    #,#[,#]:離散的多個(gè)字段,例如1,3,6
    #-#:連續(xù)的多個(gè)字段, 例如1-6
    混合使用:1-3,7
    -c 按字符切割
    --output-delimiter=STRING指定輸出分隔符
    顯示文件或STDIN數(shù)據(jù)的指定列
    cut -d: -f1 /etc/passwd
    cat /etc/passwd | cut -d: -f7
    cut -c2-5 /usr/share/dict/words
  • paste 合并兩個(gè)文件同行號(hào)的列到一行
    paste [OPTION]... [FILE]...
    -d 分隔符:指定分隔符,默認(rèn)用TAB
    -s : 所有行合成一行顯示
    示例:
    paste f1 f2
    paste -s f1 f2

分析文本的工具

  • 文本數(shù)據(jù)統(tǒng)計(jì):wc
  • 整理文本:sort
  • 比較文件:diff和patch

收集文本統(tǒng)計(jì)數(shù)據(jù)wc

可用于統(tǒng)計(jì)文件的行總數(shù)、單詞總數(shù)、字節(jié)總數(shù)和字符總數(shù)
可以對(duì)文件或STDIN中的數(shù)據(jù)統(tǒng)計(jì)

wc story.txt
39 237 1901 story.txt
行數(shù) 字?jǐn)?shù) 字節(jié)數(shù)
常用選項(xiàng)
-l 只計(jì)數(shù)行數(shù)
-w 只計(jì)數(shù)單詞總數(shù)
-c 只計(jì)數(shù)字節(jié)總數(shù)
-m 只計(jì)數(shù)字符總數(shù)
-L 顯示文件中最長(zhǎng)行的長(zhǎng)度

文本排序sort

把整理過的文本顯示在STDOUT,不改變?cè)嘉募?/h5>
sort [options] file(s)
常用選項(xiàng)
-r 執(zhí)行反方向(由上至下)整理
-R 隨機(jī)排序
-n 執(zhí)行按數(shù)字大小整理
-f 選項(xiàng)忽略(fold)字符串中的字符大小寫
-u 選項(xiàng)(獨(dú)特,unique)刪除輸出中的重復(fù)行
-t c 選項(xiàng)使用c做為字段界定符
-k # 選項(xiàng)按照使用c字符分隔的 # 列來整理能夠使用多次

uniq

uniq命令:從輸入中刪除前后相接的重復(fù)的行
uniq [OPTION]... [FILE]...
-c: 顯示每行重復(fù)出現(xiàn)的次數(shù)
-d: 僅顯示重復(fù)過的行
-u: 僅顯示不曾重復(fù)的行
注:連續(xù)且完全相同方為重復(fù)
常和sort 命令一起配合使用:
sort userlist.txt | uniq -c

比較文件

比較兩個(gè)文件之間的區(qū)別
diff foo.conf foo2.conf
5c5
< use_widgets = no
---
> use_widgets = yes
注明第5行有區(qū)別(改變)

復(fù)制對(duì)文件改變patch

diff 命令的輸出被保存在一種叫做“補(bǔ)丁”的文件中  
使用 -u 選項(xiàng)來輸出“統(tǒng)一的(unified)”diff格式文件,最適用于補(bǔ)丁文件  
patch 復(fù)制在其它文件中進(jìn)行的改變(要謹(jǐn)慎使用)
適用 -b 選項(xiàng)來自動(dòng)備份改變了的文件
diff -u foo.conf foo2.conf > foo.patch
patch -b foo.conf foo.patch

grep:文本過濾(模式:pattern)工具

  • grep
  • egrep
  • fgrep(不支持正則表達(dá)式搜索)
作用:文本搜索工具,根據(jù)用戶指定的“模式”對(duì)目標(biāo)文本逐行進(jìn)行匹配檢查;打印匹配到的行
模式:由正則表達(dá)式字符及文本字符所編寫的過濾條件
grep [OPTIONS] PATTERN [FILE...]
grep root /etc/passwd
grep "$USER" /etc/passwd
grep '$USER' /etc/passwd
grep `whoami` /etc/passwd
grep命令選項(xiàng)
--color=auto: 對(duì)匹配到的文本著色顯示
-m # 匹配#次后停止
-v 顯示不被pattern匹配到的行
-i 忽略字符大小寫
-n 顯示匹配的行號(hào)
-c 統(tǒng)計(jì)匹配的行數(shù)
-o 僅顯示匹配到的字符串
-q 靜默模式,不輸出任何信息
-A # after, 后#行
-B # before, 前#行
-C # context, 前后各#行
-e 實(shí)現(xiàn)多個(gè)選項(xiàng)間的邏輯or關(guān)系
grep –e ‘cat ’ -e ‘dog’ file
-w 匹配整個(gè)單詞
-E 使用ERE
-F 相當(dāng)于fgrep,不支持正則表達(dá)式
-f file 根據(jù)模式文件處理

正則表達(dá)式

  • REGEXP: Regular Expressions,由一類特殊字符及文本字符所編寫的模式,其中有些字符(元字符)不表示字符字面意義,而表示控制或通配的功能
  • 程序支持:vim, less,grep,sed,awk, nginx,varnish等
  • 分兩類:
    基本正則表達(dá)式:BRE,grep,vim
    擴(kuò)展正則表達(dá)式:ERE,grep -E, egrep,nginx
  • 正則表達(dá)式引擎:
采用不同算法,檢查處理正則表達(dá)式的軟件模塊
PCRE(Perl Compatible Regular Expressions)
  • 元字符分類:字符匹配、匹配次數(shù)、位置錨定、分組
  • man 7 regex

基本正則表達(dá)式元字符

字符匹配:
. 匹配任意單個(gè)字符
[] 匹配指定范圍內(nèi)的任意單個(gè)字符,示例:[wang] [0-9] [a-z] [a-zA-Z]
[^] 匹配指定范圍外的任意單個(gè)字符
[:alnum:] 字母和數(shù)字
[:alpha:] 代表任何英文大小寫字符,亦即 A-Z, a-z
[:lower:] 小寫字母 [:upper:] 大寫字母
[:blank:] 空白字符(空格和制表符)
[:space:] 水平和垂直的空白字符(比[:blank:]包含的范圍廣)
[:cntrl:] 不可打印的控制字符(退格、刪除、警鈴...)
[:digit:] 十進(jìn)制數(shù)字 [:xdigit:]十六進(jìn)制數(shù)字
[:graph:] 可打印的非空白字符
[:print:] 可打印字符
[:punct:] 標(biāo)點(diǎn)符號(hào)
匹配次數(shù):用在要指定次數(shù)的字符后面,用于指定前面的字符要出現(xiàn)的次數(shù)
* 匹配前面的字符任意次,包括0次(貪婪模式:盡可能長(zhǎng)的匹配)
.* 任意長(zhǎng)度的任意字符
\? 匹配其前面的字符0或1次
\+ 匹配其前面的字符至少1次
\{n\} 匹配前面的字符n次
\{m,n\} 匹配前面的字符至少m次,至多n次
\{,n\} 匹配前面的字符至多n次
\{n,\} 匹配前面的字符至少n次
位置錨定:定位出現(xiàn)的位置
^ 行首錨定,用于模式的最左側(cè)
$ 行尾錨定,用于模式的最右側(cè)
^PATTERN$ 用于模式匹配整行
^$ 空行
^[[:space:]]*$ 空白行
\< 或 \b 詞首錨定,用于單詞模式的左側(cè)
\> 或 \b 詞尾錨定,用于單詞模式的右側(cè)
\<PATTERN\> 匹配整個(gè)單詞
分組:() 將一個(gè)或多個(gè)字符捆綁在一起,當(dāng)作一個(gè)整體處理,如:(root)+
分組括號(hào)中的模式匹配到的內(nèi)容會(huì)被正則表達(dá)式引擎記錄于內(nèi)部的變量中,這些變量的命名方式為: \1, \2, \3, ...
\1 表示從左側(cè)起第一個(gè)左括號(hào)以及與之匹配右括號(hào)之間的模式所匹配到的字符
示例: \(string1\(string2\)\)
\1 :string1\(string2\)
\2 :string2
后向引用:引用前面的分組括號(hào)中的模式所匹配字符,而非模式本身
或者:|
示例:a\|b a或b
C\|cat C或cat
\(C\|c\)at Cat或cat

egrep及擴(kuò)展的正則表達(dá)式

  • egrep = grep -E
  • egrep [OPTIONS] PATTERN [FILE...]
  • 擴(kuò)展正則表達(dá)式的元字符:
  • 字符匹配:
. 任意單個(gè)字符
[] 指定范圍的字符
[^] 不在指定范圍的字符
次數(shù)匹配:
* 匹配前面字符任意次
? 0或1次
+ 1次或多次
{m} 匹配m次
{m,n} 至少m,至多n次
位置錨定:
^ 行首
$ 行尾
\<, \b 語首
\>, \b 語尾
分組:
()
后向引用:\1, \2, ...
或者:
a|b a或b
C|cat C或cat
(C|c)at Cat或cat
向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI