什么是XML解析器基准测试的最佳XML数据集

时间:2018-02-15 18:10:59

标签: xml xml-parsing

如标题中所述,我在Java中对XML解析器进行基准测试以比较它们。目前,我正在设计XML文档以运行基准测试。我想通过增加元素数量,嵌套级别,属性数量和纯文本来增加XML文档的复杂性。

但是,我希望只拥有一组测试数据(而不是需要花费时间的许多不同的集合)。我还想把解析器放到limit(OutOfMemory异常)。

之前有没有人对XML解析器进行过基准测试?任何测试数据设计的建议都会有很大帮助。

1 个答案:

答案 0 :(得分:2)

用于基准测试的最佳XML数据集是最能反映实际工作负载的集合。

不同的用户有不同的要求。有些人对解析少量非常大的文档感兴趣,有些文档解析大量非常小的文档。有些人会做验证(使用DTD或架构),其他人则不会。有些会有非常密集的标记,有些非常稀疏。一些将主要使用英语(ASCII),另一些将使用亚洲语言。

我不得不问你为什么要这样做。最慢和最快之间的差异不大可能超过20%。这种差异对您的业务至关重要吗?选择最快的将为您节省足够的资金来为基准测试提供资金吗?购买一些额外的硬件(或云资源)可能会更便宜吗?

我的另一个观察是,投入大量精力然后得到错误答案的风险很高。我发现在测量方法中出现基本错误的公布的绩效数据没有结束。

相关问题