Question

我有一张包含以下数据的表

1.1.1.1   routerA  texas
2.2.2.2   routerB  texas
3.3.3.3   routerC  california

Perl中存储此数据的最佳数据结构是什么？我正在考虑使用IP地址作为密钥存储哈希哈希

1.1.1.1 
 routerA => texas,
2.2.2.2
 routerB => texas,
3.3.3.3
 routerC => california

但如果我想获得德州的所有IP地址，我的数据结构可能不够灵活。如果我关心德克萨斯州的所有IP地址，是否有更好的存储方式？

Answer 1

Pure Perl绝对能胜任这项任务。

将表视为记录数组。在Perl中，这是一个哈希引用数组。（AoA有时可能适用，记住TIMTOWTDI）

每个哈希引用的键对应于列/字段名称，值将是该特定记录的值。

将OP的示例转换为数据结构：

my @data = (
             {
                ip     => '1.1.1.1',
                router => 'routerA',
                state  => 'texas',
             },
             {
                ip     => '2.2.2.2',
                router => 'routerB',
                state  => 'texas',
             },
             {
                ip     => '3.3.3.3',
                router => 'routerA',
                state  => 'california',
             }
           );

现在有趣的部分：

# Give me all IPs in Texas

my @ips_in_texas = map $_->{ip},
                    grep { $_->{state} =~ /texas/i }
                     @data;

# How many states does the data cover?

use List::MoreUtils 'uniq';

my $states_covered = uniq( map $_->{state}, @data );

# How many unique IPs in each state?

my %ips_by_state;
$ips_by_state{ $_->{state} }{ $_->{ip} }++ for @data;
print "'$_': ", scalar keys %{ $ips_by_state{$_} }, "\n" for keys %ips_by_state;

当我建议这种数据结构以其对记忆的渴望为中心时，我常常得到的下意识反应。坦率地说，除非你处理数百万条记录，否则它不会成为问题。如果是这种情况，DBMS就是您寻求的铅笔锐化解决方案，而不是Perl。

Answer 2

我知道，这不是perl ...但是内存中的SQLite表怎么样？快速，灵活，便携，甚至可持久。你可以在那里做更复杂的事情，然后在德克萨斯寻找所有的IP ......

Answer 3

您建议使用以IP地址为键的哈希散列，这正是我要做的。但是，您还必须构建一个单独的辅助交叉引用哈希，其中状态（如Texas）是密钥，IP地址是数据。在二级哈希中，每个状态都是一个键，相应的值本身就是一个哈希值。在内部哈希中，键是IP，值是虚拟值，通常为值1。

在您的示例中，这是辅助交叉引用哈希：

california
 { 3.3.3.3 => 1 },
texas
 { 1.1.1.1 => 1, 2.2.2.2 => 1 }

您可以编写一个简短的子例程/函数/块来构建主要的辅助哈希。如果数据集很大和经常更新会有点困难，但想法是一样的。

如果您第一次掌握Perl几乎太可爱但仍然相当方便的 autovivification 功能，您会发现编写上述代码更容易：请参阅联机帮助页 perlreftut 和 perlref。

Perl中存储表格数据的最佳数据结构是什么？

3 个答案: