在Rapidminer中统计

时间:2016-01-06 08:12:39

标签: rapidminer

如何获取word文档中列表的行数?如果同一个列表在excel中,我可以使用聚合运算符进行计数,但在word文档中它不会发生。

2 个答案:

答案 0 :(得分:1)

我推荐@awchisholm的答案,因为它是最简单的解决方案。但是,如果您有多个word文档,这可能会变得不切实际。 在这种情况下,您可以使用运算符Loop Zip文件解压缩word文档并查看文件/word/document.xml,并使用RapidMiner的文本函数(或读取XML)查找<w:p ...>...</w:p>的每个实例,这表示一个新行,因此您可以从那里计算它们。

在解压缩目录中还有一个名为/docProps/app.xml的xml文档,您可以阅读此文档以查找有关文档的一些元信息,例如单词数,字符数和数字。页面。不幸的是,我发现线路数量不可靠,这就是我建议使用<w:p>标签进行搜索的原因。

答案 1 :(得分:0)

RapidMiner无法轻松读取Word文档。您必须将文档另存为文本文件,并使用Read CSV操作符读取文件。