如何使用Boilerpipe从网页中提取新闻内容?

时间:2012-04-08 19:04:48

标签: java web html-parsing web-scraping boilerpipe

我需要从网页中提取主要新闻内容。我在互联网上搜索并发现了一个名为Boilerpipe的api,可以免费使用http://boilerpipe-web.appspot.com/但是我无法在java中找到任何可以使用的实现Boilerpipe.Can有人告诉我如何在Java中使用Boilerpipe来提取新闻内容或者给我一些java实现的链接,这些链接利用Boilerpipe从新闻网页中提取内容?

2 个答案:

答案 0 :(得分:1)

可能是我的答案为时已晚。但这很简单。

 URL url = new URL("http://www.nydailynews.com/sports/baseball"); 
 ArticleExtractor ae = new ArticleExtractor();
 String content = ae.getText(url);  // this contains the final text

答案 1 :(得分:0)

简单吧, 假设您需要提取此URL

只需使用我的BoilerPipe替代网络API HERE, 我的服务是基于samppipe,我已经开发了这个,因为在原始应用程序中得到overquota错误..你可以选择以JSON取回结果,只需在你的应用程序中使用它。

最好的问候