如何使用特定的一组网站抓取特定域中的最新文章?

时间:2014-10-07 09:21:20

标签: web-crawler nutch crawler4j

我有兴趣建立一个程序,以便从特定的网站(" ScienceDirect&#34)获取特定领域的所有最新文章("计算机科学") ;例如)。 如您所知,某些网站为每篇研究文章发布了一个页面,例如:http://www.sciencedirect.com/science/article/pii/S108480451400085X 每个页面都包含特定文章的信息。

我有兴趣知道什么是最好的工具(开源)用于此目的? 一般网络抓取工具(例如Apache Nutch)提供了一个抓取整个网络的通用框架,但在我的情况下,我需要一个特定于网站的抓取工具

0 个答案:

没有答案
相关问题