查找并打印具有重复列值的行

时间:2016-08-17 16:21:17

标签: unix awk duplicates

我正在寻找能够找到并打印多次出现列值的行(来自原始文件)的单行。该文件看起来像:

14:33:48 00039410636 0.0712261199951 0.000329971313477 0.000263929367065
14:33:48 00017668040 0.152565002441 0.000329971313477 0.000234842300415
14:33:49 00089210243 0.0488851070404 0.000272989273071 0.000258922576904
14:33:49 00062300425 0.0536940097809 0.000277042388916 0.000309228897095
14:33:49 00023109101 0.0781791210175 0.000399112701416 0.000282049179077
14:33:49 00081500442 0.0786049365997 0.000335216522217 0.000293970108032
14:33:49 00026589717 0.0577909946442 0.000392913818359 0.000264883041382
14:33:49 00087878627 0.0432670116425 0.000298023223877 0.000286102294922
14:33:49 00014210886 0.101092100143 0.000373840332031 0.000265121459961
14:33:49 00059863500 0.0529019832611 0.000293016433716 0.000245094299316
14:33:51 00092798813 0.0535080432892 0.00034499168396 0.000228881835938
14:33:51 00054882920 0.0543820858002 0.000327110290527 0.000303983688354
14:33:51 00021580622 0.0117089748383 0.000319004058838 0.000248908996582
15:14:59 00013458771 0.0104720592499 0.000365018844604 0.000272989273071
14:53:20 00093117190 0.00757884979248 0.00036096572876 0.00032114982605
14:33:52 00021129829 0.0112619400024 0.00036096572876 0.000262975692749
14:33:52 00098544172 0.045077085495 0.000339984893799 0.000261783599854
14:33:52 00064914953 0.00800800323486 0.000349044799805 0.000327110290527
14:33:52 00058155891 0.00610685348511 0.000288963317871 0.000250101089478
15:01:13 00013458771 0.0059118270874 0.000330924987793 0.000283002853394
15:50:40 00093117190 0.00855803489685 0.000403881072998 0.000315189361572
14:33:54 0006184364 0.00799012184143 0.000401973724365 0.000270843505859
14:33:54 00042419563 0.00643301010132 0.000358104705811 0.000257968902588
14:33:54 00034222668 0.00665307044983 0.000304937362671 0.000256061553955
15:52:22 00093117190 0.00939893722534 0.000400066375732 0.000272989273071
15:41:49 00013458771 0.00319004058838 0.000264167785645 0.000258922576904

所以单个衬垫应该只打印:

15:01:13 00013458771 0.0059118270874 0.000330924987793 0.000283002853394
15:14:59 00013458771 0.0104720592499 0.000365018844604 0.000272989273071
15:41:49 00013458771 0.00319004058838 0.000264167785645 0.000258922576904
14:53:20 00093117190 0.00757884979248 0.00036096572876 0.00032114982605
15:50:40 00093117190 0.00855803489685 0.000403881072998 0.000315189361572
15:52:22 00093117190 0.00939893722534 0.000400066375732 0.000272989273071

因为第二列值是重复的。我能够使用这个找到所有重复的值(第2列):

cat mplogs/cache_log.txt | awk '{print $2}' | sort | uniq -c | awk '$1>1{print}'

我只需要能够打印原始线条(一个衬垫)的东西。我可以使用grep在多个步骤中完成它,但这太容易了:)

可以吗?

1 个答案:

答案 0 :(得分:2)

$ awk 'cnt[$2]++{if (cnt[$2]==2) print prev[$2]; print} {prev[$2]=$0}' file
15:14:59 00013458771 0.0104720592499 0.000365018844604 0.000272989273071
15:01:13 00013458771 0.0059118270874 0.000330924987793 0.000283002853394
14:53:20 00093117190 0.00757884979248 0.00036096572876 0.00032114982605
15:50:40 00093117190 0.00855803489685 0.000403881072998 0.000315189361572
15:52:22 00093117190 0.00939893722534 0.000400066375732 0.000272989273071
15:41:49 00013458771 0.00319004058838 0.000264167785645 0.000258922576904