从特定标签下的网页中提取图像

时间:2012-06-27 14:02:00

标签: java html web html-parsing web-scraping

我想知道如何在特定标签下的网页中提取所有图像。例如 如果它在:

<div class="img-style">
<img src="http://blah.../x.jpg">     

我想使用JAVA提取该特定div类下的所有图像。是否可能,任何帮助将不胜感激

2 个答案:

答案 0 :(得分:4)

我喜欢这个库来抓取互联网http://jsoup.org/。我有一个解析器在大约30分钟内启动并运行,并且只在我的业余时间写了7个月。

答案 1 :(得分:1)

以下是针对java的其他优秀HTML报废库:TagSoupHTMLUnitWeb-Harvest。使用库可以更快更容易地从头开始使用自己的库。下次提供你尝试/看过的一些方法