java - 用于阅读网站内容的Java代码 - Thinbug

用于阅读网站内容的Java代码

时间：2012-12-07 06:04:35

标签： java web-crawler

Java中是否有任何方法可以阅读网页内容？

网页不是一个简单的HTML页面，它包含一个ajax调用，图像，PDF和Flash。我需要读取/下载页面的所有内容（在执行ajax调用之后）。

请建议我解决此问题。

2 个答案:

答案 0 :(得分：0)

为此目的，各种html解析器存在。你可以使用其中一个

http://ccil.org/~cowan/XML/tagsoup/

http://jsoup.org/

http://jericho.htmlparser.net/docs/index.html

这些解决方案提取您的html标签包含图像。对于css提取，你可以使用css解析器。

答案 1 :(得分：0)

您正在寻找抓取工具和处理工具。

列出了许多open source crawlers 。您可以将其与搜索服务器Solr一起使用