使用samppipe保留样板

时间:2013-10-01 06:51:59

标签: boilerpipe

我正在使用boilerpipe库来分析新闻文章。新闻文章包含许多样板信息,如版权信息,相关文章的侧窗格等。Boilerpipe删除所有信息。是否可以返回样板信息?我需要从版权声明中分析和提取一些东西等。

此外,它是否包含对每个文本块的某种信心,以确定它是否是样板文件?

感谢。

1 个答案:

答案 0 :(得分:1)

您可以使用文档类样板文件提供整个文本或遍历实际文本块:

final HTMLDocument htmlDoc = HTMLFetcher.fetch(new URL(url));
final TextDocument doc = new BoilerpipeSAXInput(htmlDoc.toInputSource()).getTextDocument();
// doc.getText(true, true) will give you all the text
// doc.getTextBlocks will let you traverse the document
相关问题