Perl中存储表格数据的最佳数据结构是什么?

时间:2012-06-04 15:37:11

标签: perl perl-data-structures

我有一张包含以下数据的表

1.1.1.1   routerA  texas
2.2.2.2   routerB  texas
3.3.3.3   routerC  california

Perl中存储此数据的最佳数据结构是什么?我正在考虑使用IP地址作为密钥存储哈希哈希

1.1.1.1 
 routerA => texas,
2.2.2.2
 routerB => texas,
3.3.3.3
 routerC => california

但如果我想获得德州的所有IP地址,我的数据结构可能不够灵活。如果我关心德克萨斯州的所有IP地址,是否有更好的存储方式?

3 个答案:

答案 0 :(得分:10)

Pure Perl绝对能胜任这项任务。

将表视为记录数组。在Perl中,这是一个哈希引用数组。 (AoA有时可能适用,记住TIMTOWTDI)

每个哈希引用的键对应于列/字段名称,值将是该特定记录的值。

将OP的示例转换为数据结构:

my @data = (
             {
                ip     => '1.1.1.1',
                router => 'routerA',
                state  => 'texas',
             },
             {
                ip     => '2.2.2.2',
                router => 'routerB',
                state  => 'texas',
             },
             {
                ip     => '3.3.3.3',
                router => 'routerA',
                state  => 'california',
             }
           );

现在有趣的部分:

# Give me all IPs in Texas

my @ips_in_texas = map $_->{ip},
                    grep { $_->{state} =~ /texas/i }
                     @data;

# How many states does the data cover?

use List::MoreUtils 'uniq';

my $states_covered = uniq( map $_->{state}, @data );

# How many unique IPs in each state?

my %ips_by_state;
$ips_by_state{ $_->{state} }{ $_->{ip} }++ for @data;
print "'$_': ", scalar keys %{ $ips_by_state{$_} }, "\n" for keys %ips_by_state;

当我建议这种数据结构以其对记忆的渴望为中心时,我常常得到的下意识反应。坦率地说,除非你处理数百万条记录,否则它不会成为问题。如果是这种情况,DBMS就是您寻求的铅笔锐化解决方案,而不是Perl。

答案 1 :(得分:4)

我知道,这不是perl ...但是内存中的SQLite表怎么样?快速,灵活,便携,甚至可持久。你可以在那里做更复杂的事情,然后在德克萨斯寻找所有的IP ......

答案 2 :(得分:4)

您建议使用以IP地址为键的哈希散列,这正是我要做的。但是,您还必须构建一个单独的辅助交叉引用哈希,其中状态(如Texas)是密钥,IP地址是数据。在二级哈希中,每个状态都是一个键,相应的值本身就是一个哈希值。在内部哈希中,键是IP,值是虚拟值,通常为值1。

在您的示例中,这是辅助交叉引用哈希:

california
 { 3.3.3.3 => 1 },
texas
 { 1.1.1.1 => 1, 2.2.2.2 => 1 }

您可以编写一个简短的子例程/函数/块来构建主要的辅助哈希。如果数据集很大经常更新会有点困难,但想法是一样的。

如果您第一次掌握Perl几乎太可爱但仍然相当方便的 autovivification 功能,您会发现编写上述代码更容易:请参阅联机帮助页 perlreftut perlref。