计算Unix上每行/每个字符的出现次数

时间:2011-12-25 11:36:36

标签: linux bash shell unix scripting

给定一个包含这样数据的文件(即stores.dat文件)

sid|storeNo|latitude|longitude
2tt|1|-28.0372000t0|153.42921670
9|2t|-33tt.85t09t0000|15t1.03274200

什么是返回每行't'字符出现次数的命令?

例如。会回来:

count   lineNum
   4       1
   3       2
   6       3

另外,要按字段出现次数来执行此操作,返回以下结果的命令是什么?

例如。输入第2列和字符't'

count   lineNum
   1       1
   0       2
   1       3

例如。输入第3列和字符't'

count   lineNum
   2       1
   1       2
   4       3

10 个答案:

答案 0 :(得分:45)

要计算每行出现的字符数:

awk -F'|' 'BEGIN{print "count", "lineNum"}{print gsub(/t/,"") "\t" NR}' file
count lineNum
4       1
3       2
6       3

要计算每个字段/列的出现次数,您可以执行以下操作:

第2栏:

awk -F'|' -v fld=2 'BEGIN{print "count", "lineNum"}{print gsub(/t/,"",$fld) "\t" NR}' file
count lineNum
1       1
0       2
1       3

第3栏:

awk -F'|' -v fld=3 'BEGIN{print "count", "lineNum"}{print gsub(/t/,"",$fld) "\t" NR}' file
count lineNum
2       1
1       2
4       3
  • gsub()函数的返回值是替换次数。所以我们用它来打印数字。
  • NR包含行号,因此我们使用它来打印行号。
  • 为了打印特定字段的出现次数,我们创建一个变量fld并输入我们希望从中提取计数的字段编号。

答案 1 :(得分:38)

grep -n -o "t" stores.dat | sort -n | uniq -c | cut -d : -f 1

几乎可以提供您想要的输出:

  4 1
  3 2
  6 3

感谢@ raghav-bhushan的grep -o提示,这是一个有用的标志。 -n标志也包括行号。

答案 2 :(得分:15)

计算每行字符的出现次数:

$ awk -F 't' '{print NF-1, NR}'  input.txt
4 1
3 2
6 3

这会将字段分隔符设置为需要计数的字符,然后使用字段数大于分隔符数的事实。

首先计算该列中特定列cut的出现次数:

$ cut -d '|' -f 2 input.txt | awk -F 't' '{print NF-1, NR}'
1 1
0 2
1 3

$ cut -d '|' -f 3 input.txt | awk -F 't' '{print NF-1, NR}'
2 1
1 2
4 3

答案 3 :(得分:4)

使用perl的一种可能解决方案:

script.pl 的内容:

use warnings;
use strict;

## Check arguments:
## 1.- Input file
## 2.- Char to search.
## 3.- (Optional) field to search. If blank, zero or bigger than number
##     of columns, default to search char in all the line.
(@ARGV == 2 || @ARGV == 3) or die qq(Usage: perl $0 input-file char [column]\n);

my ($char,$column);

## Get values or arguments.
if ( @ARGV == 3 ) {
        ($char, $column) = splice @ARGV, -2;
} else {
        $char = pop @ARGV;
        $column = 0;
}

## Check that $char must be a non-white space character and $column 
## only accept numbers.
die qq[Bad input\n] if $char !~ m/^\S$/ or $column !~ m/^\d+$/; 

print qq[count\tlineNum\n];

while ( <> ) {
        ## Remove last '\n'
        chomp;

        ## Get fields.
        my @f = split /\|/;

        ## If column is a valid one, select it to the search.
        if ( $column > 0 and $column <= scalar @f ) {
                $_ = $f[ $column - 1];
        }

        ## Count.
        my $count = eval qq[tr/$char/$char/];

        ## Print result.
        printf qq[%d\t%d\n], $count, $.;
}

该脚本接受三个参数:

  1. 输入文件
  2. 要搜索的字符
  3. 要搜索的列:如果列是坏数字,则会搜索所有行。

  4. 运行不带参数的脚本:

    perl script.pl
    Usage: perl script.pl input-file char [column]
    

    使用参数及其输出:

    这里0是一个坏列,它会搜索所有行。

    perl script.pl stores.dat 't' 0
    count   lineNum
    4       1
    3       2
    6       3
    

    此处搜索第1列。

    perl script.pl stores.dat 't' 1
    count   lineNum
    0       1
    2       2
    0       3
    

    此处搜索第3列。

    perl script.pl stores.dat 't' 3
    count   lineNum
    2       1
    1       2
    4       3
    

    th不是字符。

    perl script.pl stores.dat 'th' 3
    Bad input
    

答案 4 :(得分:3)

不需要awk或perl,只需使用bash和标准的Unix实用程序:

cat file | tr -c -d "t\n" | cat -n |
  { echo "count   lineNum"
    while read num data; do
      test ${#data} -gt 0 && printf "%4d   %5d\n" ${#data} $num
    done; }

对于特定的专栏:

cut -d "|" -f 2 file | tr -c -d "t\n" | cat -n |
  { echo -e "count lineNum"
    while read num data; do
      test ${#data} -gt 0 && printf "%4d   %5d\n" ${#data} $num
    done; }

我们甚至可以避免trcat s:

echo "count   lineNum"
num=1
while read data; do
  new_data=${data//t/}
  count=$((${#data}-${#new_data}))
  test $count -gt 0 && printf "%4d   %5d\n" $count $num
  num=$(($num+1))
done < file

并切断事件:

echo "count   lineNum"
num=1; OLF_IFS=$IFS; IFS="|"
while read -a array_data; do
  data=${array_data[1]}
  new_data=${data//t/}
  count=$((${#data}-${#new_data}))
  test $count -gt 0 && printf "%4d   %5d\n" $count $num
  num=$(($num+1))
done < file
IFS=$OLF_IFS

答案 5 :(得分:3)

awk '{gsub("[^t]",""); print length($0),NR;}' stores.dat

对gsub()的调用会删除行中不是t的所有内容,然后只打印剩余的长度和当前行号。

只想为第2列做这件事吗?

awk 'BEGIN{FS="|"} {gsub("[^t]","",$2); print NR,length($2);}' stores.dat

答案 6 :(得分:2)

 $ cat -n test.txt
 1  test 1
 2  you want
 3  void
 4  you don't want
 5  ttttttttttt
 6  t t t t t t

 $ awk '{n=split($0,c,"t")-1;if (n!=0) print n,NR}' test.txt
 2 1
 1 2
 2 4
 11 5
 6 6

答案 7 :(得分:1)

cat stores.dat | awk 'BEGIN {FS = "|"}; {print $1}' |  awk 'BEGIN {FS = "\t"}; {print NF}'

$1是您要计算的列号。

答案 8 :(得分:1)

您还可以使用“t”拆分行或字段并检查结果数组的长度 - 1.将行的col变量设置为0或列设置为1到3:

awk -F'|' -v col=0 -v OFS=$'\t' 'BEGIN {
    print "count", "lineNum"
}{
    split($col, a, "t"); print length(a) - 1, NR
}
' stores.dat

答案 9 :(得分:1)

perl -e 'while(<>) { $count = tr/t//; print "$count ".++$x."\n"; }' stores.dat

另一个perl回答yay! tr / t //函数返回翻译在该行上发生的次数,换句话说, tr 找到该字符的次数 t &#39 ;. ++ $ x 维护行号计数。