web-crawler - 如何使用特定的一组网站抓取特定域中的最新文章？

我有兴趣建立一个程序，以便从特定的网站（＆＃34; ScienceDirect＆＃34）获取特定领域的所有最新文章（＆＃34;计算机科学＆＃34;） ;例如）。如您所知，某些网站为每篇研究文章发布了一个页面，例如：http://www.sciencedirect.com/science/article/pii/S108480451400085X 每个页面都包含特定文章的信息。

我有兴趣知道什么是最好的工具（开源）用于此目的？一般网络抓取工具（例如Apache Nutch）提供了一个抓取整个网络的通用框架，但在我的情况下，我需要一个特定于网站的抓取工具。

如何使用特定的一组网站抓取特定域中的最新文章？

0 个答案: