Gensim中的Html文档的LDA

时间:2014-03-12 19:06:18

标签: python gensim

我有一堆html文件10-15,我必须在gensim中应用LDA算法 我不知道如何创建语料库,因为我不明白我是如何为一组html文档设计语料库的。网站上的示例显示了在维基百科压缩文件.xml.bz

上创建它们

任何人都可以指导我如何在一堆html文档上应用LDA。 提前致谢

1 个答案:

答案 0 :(得分:1)

查看HTML处理库,例如lxmlbeautifulsoup

对于更高级别的处理(删除样板,从HTML中提取纯文本),请查看例如Honza Pomikalek的jusText包裹。

获得纯文本文档后,您可以按gensim's tutorials继续。

相关问题