找到最长的子列表

时间:2013-01-04 14:20:57

标签: perl shell awk grep wc

我有一个包含列表和子列表的文件,我想使用命令行工具提取最长的子列表。

文件示例:

* Item1
** SubItem1
** ...
** SubItemN

* Item2
** SubItem1
** ...
** SubItemN

* ...
** ...

* ItemN
** SubItem1
** ...
** SubItemN

我想知道这是否可以轻松完成,否则我会写一个Perl脚本。

3 个答案:

答案 0 :(得分:3)

Perl one-liner:

perl -00 -ne '$n=tr/\n/\n/; if ($n>$m) {$m=$n; $max=$_}; END {print $max}' file

只使用bash:

max=0
while read bullet thingy; do
    case $bullet in
         "*") item=$thingy; count=0 ;;
        "**") ((count++)) ;;
          "") (( count > max )) && { max_item=$item; max=$count; } ;; 
    esac
done < <(cat file; echo)
echo $max_item $max

<(cat file; echo)部分是为了确保在文件的最后一行之后有一个空行,以便可以将最后一个子列表组与最大值进行比较

这只能保持计数。要将项目保存在最大的子列表中:

max=0
while read bullet thingy; do
    case $bullet in
         "*") item=$thingy; unset sublist; sublist=() ;;
        "**") sublist+=($thingy) ;;
          "") if (( ${#sublist[@]} > max )); then
                  max=${#sublist[@]}
                  max_item=$item
                  max_sublist=("${sublist[@]}")
              fi
              ;;
    esac
done < <(cat file; echo)
printf "%s\n" "$max_item" "${#max_sublist[@]}" "${max_sublist[@]}"

如果使用sudo_O的示例,则输出

letters
6
a
b
b
d
e
f

答案 1 :(得分:1)

$ cat file    
* letters
** a
** b
** b
** d
** e
** f

* colors 
** red
** green
** blue

* numbers
** 1
** 2
** 3
** 4
** 5

通过使用tac并使用awk反转文件来显示每个子列表的长度:

$ tac file | awk '/^\*\*/{c++}/^\*[^*]/{print c,$2;c=0}'
5 numbers
3 colors
6 letters

仅打印最大子列表的长度:

$ tac file | awk '/^\*\*/{c++}/^\*[^*]/{if(c>m){m=c;l=$2}c=0}END{print m,l}'
6 letters

答案 2 :(得分:0)

cat file.txt | grep -nE "^\*[^\*].*" | cut -d ":" -f 1,1 | tee tmp | awk 'NR==1{s=$1;next}    {print $1-s;s=$1}' > tmp2
echo 0 >> tmp2
res=`paste tmp tmp2 | sort -nrk 2,2 | head -n 1`
line=`echo "$res" | cut -f 1,1`
ln=`echo "$res" | cut -f 2,2`
cat file.txt | tail -n +$line | head -n $ln
rm tmp tmp2

肯定有一个更短的解决方案:)