Question

我想从文本文件中删除重复的条目，例如：

kavitha= Tue Feb    20 14:00 19 IST 2012  (duplicate entry) 
sree=Tue Jan  20 14:05 19 IST 2012  
divya = Tue Jan  20 14:20 19 IST 2012  
anusha=Tue Jan 20 14:45 19 IST 2012 
kavitha= Tue Feb    20 14:00 19 IST 2012 (duplicate entry)

有没有办法使用Bash脚本删除重复的条目？

所需的输出

kavitha= Tue Feb    20 14:00 19 IST 2012 
sree=Tue Jan  20 14:05 19 IST 2012  
divya = Tue Jan  20 14:20 19 IST 2012  
anusha=Tue Jan 20 14:45 19 IST 2012

Answer 1

您可以sort然后uniq：

$ sort -u input.txt

或使用awk：

$ awk '!a[$0]++' input.txt

Answer 2

它从文件中删除重复的连续行（模拟“uniq”）保留一组重复行中的第一行，删除其余行。

sed '$!N; /^\(.*\)\n\1$/!P; D'

Answer 3

Perl one-liner类似于@kev的awk解决方案：

perl -ne 'print if ! $a{$_}++' input

此变体在比较之前删除尾随空格：

perl -lne 's/\s*$//; print if ! $a{$_}++' input

此变体就地编辑文件：

perl -i -ne 'print if ! $a{$_}++' input

此变体会就地编辑文件，并进行备份input.bak

perl -i.bak -ne 'print if ! $a{$_}++' input

Answer 4

这可能对您有用：

cat -n file.txt |
sort -u -k2,7 |
sort -n |
sed 's/.*\t/    /;s/\([0-9]\{4\}\).*/\1/'

或者这个：

 awk '{line=substr($0,1,match($0,/[0-9][0-9][0-9][0-9]/)+3);sub(/^/,"    ",line);if(!dup[line]++)print line}' file.txt

使用Bash脚本删除重复的条目

4 个答案: