您好,登錄后才能下訂單哦!
這篇文章將為大家詳細(xì)講解有關(guān)linux中如何使用awk刪掉文件中重復(fù)的行,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。
要保持原來的排列順序刪掉重復(fù)行,使用:
awk '!visited[$0]++' your_file > deduplicated_file
這個腳本維護一個關(guān)聯(lián)數(shù)組,索引(鍵)為文件中去重后的行,每個索引對應(yīng)的值為該行出現(xiàn)的次數(shù)。對于文件的每一行,如果這行(之前)出現(xiàn)的次數(shù)為 0,則值加 1,并打印這行,否則值加 1,不打印這行。
我之前不熟悉 awk
,我想弄清楚這么短小的一個腳本是怎么實現(xiàn)的。我調(diào)研了下,下面是調(diào)研心得:
這個 awk “腳本” !visited[$0]++
對輸入文件的每一行都執(zhí)行。
visited[]
是一個關(guān)聯(lián)數(shù)組(又名映射)類型的變量。awk
會在第一次執(zhí)行時初始化它,因此我們不需要初始化。
$0
變量的值是當(dāng)前正在被處理的行的內(nèi)容。
visited[$0]
通過與 $0
(正在被處理的行)相等的鍵來訪問該映射中的值,即出現(xiàn)次數(shù)(我們在下面設(shè)置的)。
!
對表示出現(xiàn)次數(shù)的值取反:
如果該值為空,awk
自動把它轉(zhuǎn)換為 0
(數(shù)字) 后加 1。
注意:加 1 操作是在我們?nèi)〉搅俗兞康闹抵髨?zhí)行的。
如果 visited[$0]
的值是一個比 0 大的數(shù),取反后被解析成 false
。
如果 visited[$0]
的值為等于 0 的數(shù)字或空字符串,取反后被解析成 true
。
在 awk
中,任意非零的數(shù)或任意非空的字符串的值是 true
。
變量默認(rèn)的初始值為空字符串,如果被轉(zhuǎn)換為數(shù)字,則為 0。
也就是說:
++
表示變量 visited[$0]
的值加 1。
總的來說,整個表達式的意思是:
true
:如果表示出現(xiàn)次數(shù)為 0 或空字符串
false
:如果出現(xiàn)的次數(shù)大于 0
awk
由 模式或表達式和一個與之關(guān)聯(lián)的動作 組成:
<模式/表達式> { <動作> }
如果匹配到了模式,就會執(zhí)行后面的動作。如果省略動作,awk
默認(rèn)會打?。?code>print)輸入。
省略動作等價于
{print $0}
。
我們的腳本由一個 awk
表達式語句組成,省略了動作。因此這樣寫:
awk '!visited[$0]++' your_file > deduplicated_file
等于這樣寫:
awk '!visited[$0]++ { print $0 }' your_file > deduplicated_file
對于文件的每一行,如果表達式匹配到了,這行內(nèi)容被打印到輸出。否則,不執(zhí)行動作,不打印任何東西。
uniq
命令僅能對相鄰的行去重。這是一個示例:
$ cat test.txtAAABBBAACCCBBA$ uniq < test.txtABACBA
我們也可以用下面的 sort 命令來去除重復(fù)的行,但是原來的行順序沒有被保留。
sort -u your_file > sorted_deduplicated_file
上面的方法會產(chǎn)出一個去重的文件,各行是基于內(nèi)容進行排序的。通過管道連接命令可以解決這個問題。
cat -n your_file | sort -uk2 | sort -nk1 | cut -f2-
工作原理
假設(shè)我們有下面一個文件:
abcghiabcdefxyzdefghiklm
cat -n test.txt
在每行前面顯示序號:
1 abc2 ghi3 abc4 def5 xyz6 def7 ghi8 klm
sort -uk2
基于第二列(k2
選項)進行排序,對于第二列相同的值只保留一次(u
選項):
1 abc4 def2 ghi8 klm5 xyz
sort -nk1
基于第一列排序(k1
選項),把列的值作為數(shù)字來處理(-n
選項):
1 abc2 ghi4 def5 xyz8 klm
最后,cut -f2-
從第二列開始打印每一行,直到最后的內(nèi)容(-f2-
選項:留意 -
后綴,它表示這行后面的內(nèi)容都包含在內(nèi))。
abcghidefxyzklm
關(guān)于“l(fā)inux中如何使用awk刪掉文件中重復(fù)的行”這篇文章就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,使各位可以學(xué)到更多知識,如果覺得文章不錯,請把它分享出去讓更多的人看到。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。