Wikipedia Extractor生成空文件

时间:2014-05-04 02:56:47

标签: wikipedia

我只是想跟进这个question

所以,我下载了2014年2月的Wikipedia转储并按照建议运行WikiExtractor.py命令:

cat mywiki-pages-articles.xml | python WikiExtractor.py -b 500K -o extracted

然而,经过一个多小时的运行,我得到的只是一个名为wiki_00的空文件。

你对这个问题有什么建议吗?

1 个答案:

答案 0 :(得分:0)

好的,所以我找到了解决这个问题的方法。

上次当我运行上面的命令时,我添加了"屏幕"在它之前的指示。在这种情况下,屏幕将只捕获xml文件而不将其调整到WikiExtractor.py。因此结果是一个空文件。

我通过将上面的命令放在一个文件中来修复它,使文件可运行并在其上运行screen命令。