Question

如果我有一堆（键，值）对的Perl哈希，迭代所有键的首选方法是什么？我听说使用each可能会以某种方式产生意想不到的副作用。那么，这是真的，并且是以下两种方法中最好的方法之一，还是有更好的方法？

# Method 1
while (my ($key, $value) = each(%hash)) {
    # Something
}

# Method 2
foreach my $key (keys(%hash)) {
    # Something
}

Answer 1

经验法则是使用最适合您需求的功能。

如果您只想要密钥并且不打算读取任何值，请使用密钥（）：

foreach my $key (keys %hash) { ... }

如果您只想要值，请使用values（）：

foreach my $val (values %hash) { ... }

如果您需要键和值，请使用each（）：

keys %hash; # reset the internal iterator so a prior each() doesn't affect the loop
while(my($k, $v) = each %hash) { ... }

如果您计划以任何方式更改散列的键除以在迭代期间删除当前键，则不得使用each（）。例如，使用keys（）创建一组具有doubled值的新大写键的代码可以正常工作：

%h = (a => 1, b => 2);

foreach my $k (keys %h)
{
  $h{uc $k} = $h{$k} * 2;
}

产生预期的结果哈希：

(a => 1, A => 2, b => 2, B => 4)

但是使用each（）做同样的事情：

%h = (a => 1, b => 2);

keys %h;
while(my($k, $v) = each %h)
{
  $h{uc $k} = $h{$k} * 2; # BAD IDEA!
}

以难以预测的方式产生不正确的结果。例如：

(a => 1, A => 2, b => 2, B => 8)

然而，这是安全的：

keys %h;
while(my($k, $v) = each %h)
{
  if(...)
  {
    delete $h{$k}; # This is safe
  }
}

所有这些都在perl文档中描述：

% perldoc -f keys
% perldoc -f each

Answer 2

使用 each 时应注意的一件事是它有向您的哈希添加“状态”的副作用（哈希必须记住什么是“下一个”键）。使用上面发布的代码片段时，它一次遍历整个哈希，这通常不是一个问题。但是，你会遇到很难追查问题（我说的是经验;），将each与语句一起使用时 last或return退出while ... each循环处理了所有密钥。

在这种情况下，哈希将记住它已经返回的键，以及当你下次使用each时（可能是完全不相关的一部分）代码），它将继续在这个位置。

示例：

my %hash = ( foo => 1, bar => 2, baz => 3, quux => 4 );

# find key 'baz'
while ( my ($k, $v) = each %hash ) {
    print "found key $k\n";
    last if $k eq 'baz'; # found it!
}

# later ...

print "the hash contains:\n";

# iterate over all keys:
while ( my ($k, $v) = each %hash ) {
    print "$k => $v\n";
}

打印：

found key bar
found key baz
the hash contains:
quux => 4
foo => 1

键“bar”和baz“发生了什么事？”他们仍然在那里，但是第二个each从第一个停止的地方开始，当它到达散列的末尾时停止，所以我们永远不会在第二个循环中看到它们。

Answer 3

each可能导致问题的地方在于它是一个真正的非范围迭代器。举例来说：

while ( my ($key,$val) = each %a_hash ) {
    print "$key => $val\n";
    last if $val; #exits loop when $val is true
}

# but "each" hasn't reset!!
while ( my ($key,$val) = each %a_hash ) {
    # continues where the last loop left off
    print "$key => $val\n";
}

如果您需要确保each获取所有键和值，则需要确保首先使用keys或values（因为它会重置迭代器）。请参阅documentation for each。

Answer 4

使用每种语法将阻止一次生成整组密钥。如果您对具有数百万行的数据库使用绑定哈希，这可能很重要。您不希望一次生成整个键列表并耗尽物理内存。在这种情况下，每个都充当迭代器，而键实际上在循环开始之前生成整个数组。

因此，“每个”实际使用的唯一地方是散列非常大（与可用内存相比）。只有在散列本身不存在于内存中时，才会发生这种情况，除非您正在编写手持数据采集设备或内存较小的内容。

如果内存不是问题，通常地图或键范例是更容易阅读和更容易阅读的范例。

Answer 5

关于这个主题的一些杂项想法：

任何哈希迭代器本身都没有什么不安全的。什么是不安全的是在迭代时修改哈希的键。（修改值是完全安全的。）我能想到的唯一潜在副作用是values返回别名，这意味着修改它们将修改哈希的内容。这是设计使然，但在某些情况下可能不是您想要的。
John accepted answer有一个例外：文档很明显，在迭代哈希时添加密钥是不安全的。它可能适用于某些数据集，但根据哈希顺序会对其他数据集失败。
如前所述，删除each返回的最后一个密钥是安全的。 keys的不为true，因为each是迭代器而keys返回列表。

Answer 6

我可能会被这个人咬伤，但我认为这是个人偏好。我在文档中找不到任何引用，每个（）与keys（）或values（）不同（除了显而易见的“它们返回不同的东西”的答案。实际上，文档声明使用相同的迭代器，它们都是返回实际的列表值而不是它们的副本，并且在使用任何调用迭代它时修改哈希是不好的。

所有这一切，我几乎总是使用keys（）因为对我来说，通常更自我记录通过哈希本身访问密钥的值。当值是对大型结构的引用并且哈希的密钥已经存储在结构中时，我偶尔会使用values（），此时密钥是冗余的，我不需要它。我想我在Perl编程的10年中已经使用了每次（）2次，这两次都可能是错误的选择=）

Answer 7

我也总是使用方法2。使用每个的唯一好处是，如果您只是读取（而不是重新分配）散列条目的值，则不会经常取消引用散列。

Answer 8

我通常使用keys而我无法想到我上次使用或阅读each的使用情况。

不要忘记map，这取决于你在循环中做了什么！

map { print "$_ => $hash{$_}\n" } keys %hash;

Answer 9

我说：

对大多数人来说，使用最容易阅读/理解的东西（所以关键，通常，我会争辩）
在整个代码库中使用您始终如一的决定。

这给出了两大优势：

更容易发现“常见”代码，因此您可以重新考虑函数/方法。
未来的开发人员更容易维护。

我认为在每个密钥上使用密钥并不昂贵，因此在代码中不需要两个不同的构造用于同一个东西。

迭代Perl哈希键的最安全的方法是什么？

9 个答案: