unit-testing - 如何对伪随机数发生器进行单元测试？

如何对伪随机数发生器进行单元测试？

时间：2008-10-09 10:06:43

标签： unit-testing random

我有一个伪随机数生成器（PRNG）类，我想进行单元测试。有两种方法：

编写一个测试用例，其中包含大量样本并测试它们是否正确分布。这种方法可能会导致测试用例的执行时间相当长;
手动计算一小部分样本，并验证PRNG算法是否重现它。这种方法可能导致生成不随机的序列而不被注意;

我想说第一种方法不是真正的单元测试，因为它不执行发生器的白盒测试，但另一方面它正确地测试了类的责任。第二种方法更像是一个真实的单元测试，侧重于算法，但它没有提供足够的证据来证明该类是否履行其职责。

您更喜欢哪种方式？为什么？

13 个答案:

答案 0 :(得分：30)

获得相同PRNG算法的另一个实现，基于已知种子生成少量冗长的测试用例，并验证您的算法实现是否与其他人的实现相匹配。您测试的数据越多，它的可能性就越大。如果您想要认真，请研究如何为算法进行FIPS验证。

没有必要测试输出是否是随机的，因为其他人对算法的研究远远超过你能够再现的算法。

如果你发明了自己的PRNG算法，那么你就会遇到一个相当不同的问题，因为除了测试你的代码之外你还需要测试你的新算法。有很多事情要做 - 我认为最重要的是对输出的统计测试，以及其他密码学家的同行评审。但是，基本上，如果你设计的PRNG算法没有足够的知识来知道如何测试它，那么它将是垃圾。

答案 1 :(得分：13)

为了测试PRNG，我会使用ENT这是一套统计测试，可以告诉你PRNG的表现如何。我想这是方法1。

答案 2 :(得分：5)

我想最终你会想要两个测试 - 因为你想确保以下两个都成立：

（1）数字分布正确（2）具体算法按预期工作。

也许第一次测试只能偶尔运行，而第二次测试可能用于检查任何代码更改是否都没有破坏算法。

答案 3 :(得分：3)

我相信你的第一点（＃1）更多地测试生成的随机数的质量，这取决于所使用的算法。第二点（＃2）更多地测试算法的实现。如果您设计了算法，则两个测试都很重要。如果您实现了演示性能的算法，那么＃2就足够了。虽然，我可能会测试多个种子以及使用某些特定发生器结构知识产生的序列。

答案 4 :(得分：3)

伪随机数生成器中的“随机性”通常表示为数字重复之前的平均迭代次数。有许多算法具有不同的“随机性”和性能。 Random.org对他们的算法进行的一些分析有一个很好的解释。查看页面中间的图片。在静态图像中很容易看出两种算法的随机性。

PRNG的一个特征（真正的特征，而不是伪装成特征的bug）是可预测的。对于给定的种子，应该产生相同的数字序列。这对于使用随机（也称为随机）方法的测试和调试程序来说非常重要和必要。

数字序列应接近某个统计分布。通过生成一个大序列（比如10 ^ 6个数字）来测试您的PRNG，并对序列进行多次统计测试，特别是Chi-Squared测试（如果分布正常）。制作样本的直方图，看看它是否符合预期。

如果您控制种子的设置方式，则每次生成的序列应该相同，这适合进行白盒测试。在进行测试时，在收集样品之前，通过运行100次左右来“预热”生成器也是一个好主意。

答案 5 :(得分：3)

这是一个CodeProject article，其中包括Donald Knuth的第2卷“半数值算法”中提到的Kolmogorov-Smirnov检验的实现。正如上面提到的InSciTek Jeff，有两个问题：测试算法和测试算法的实现。 K-S测试可能会在实现中发现错误，并且它是测试算法本身质量的良好开端。

答案 6 :(得分：2)

Plesae要注意：如果你'发明了'你的PRNG，你可能会弄错它并产生一些分布不佳的东西。关于发电机随机性的基本测试是卡方检验

答案 7 :(得分：2)

您可能会发现this question的某些回复非常有用。

基本上，你无法“证明”RNG是随机的，但你可以进行各种测试以提高你的信心。这些测试的复杂性各不相同Diehard是全面的，但它并没有真正提供是/否答案，更像是几百个“maybes”。另一方面，生成一系列值（至少10,000）非常简单，然后检查均值和标准偏差/方差是否为as expected。

答案 8 :(得分：0)

严格来说，没有办法测试随机发生器是否真的是随机的:-)第一种方法可以让你知道只有固定数量的样本才能正确分配分配，无论这个数量多大。第二种方法可以支持知识，它的行为就像一个algorythm，但同样适用于固定数量的样本。

你能做的最好 - 同时使用两者。

答案 9 :(得分：0)

回到学校，我正在为模拟任务开发一个随机数生成器，并且需要一些方法来识别非随机性。

我明智地想到取两个随机数并绘制它们（x，y）。令人惊讶的是人类大脑如何检测非随机模式。（“随机模式”是矛盾的。）

我调整PRNG去除图表上出现的条纹和星暴，然后绘制（log（x），log（y））以获得全新视角并重复该过程。

后来，我被迫接受统计，并了解到你可以做一些奇怪的数学来量化随机性。

答案 10 :(得分：0)

Random.org使用此测试套装：http://csrc.nist.gov/groups/ST/toolkit/rng/documentation_software.html

您可以在http://csrc.nist.gov/groups/ST/toolkit/rng/documents/sts-2.1.1.zip

下载该软件（unix和mac os x）

文档在这里：http://csrc.nist.gov/groups/ST/toolkit/rng/documents/SP800-22rev1a.pdf

答案 11 :(得分：0)

一种方法是将其输出管道传输到PractRand。

如果PractRand说PRNG的输出没问题，PRNG真的可以吗？我没有资格判断，但我能说的是，PRNG足够严格，认为我在文献或网上找到的各种LFSR和xor-shift算法的输出都不令人满意，并认为输出正常RP布伦特的xorgens。

答案 12 :(得分：-1)

除非您正在实施给定的PNRG算法，否则无法判断数字是否是随机的，这就是随机性的本质。是的，平均值，因为你的数字生成器向无穷大方向走，它会均匀，但你不会测试无数次的迭代。

如果您正在实施已知算法，请检查前几千个数字是否与给定一组种子时提供的结果相匹配。因为可能的种子数量是无限的，所以无法确定。

你甚至无法用数学方法证明一系列数字是随机的......

XKCD

alt text

迪尔伯特

alt text

获取向下修改...