Python Scrapy - 解析最近更新日期的 URL 内容

时间:2021-01-12 20:35:31

标签: python web-scraping scrapy web-crawler

我有一个使用scrapy框架用Python编写的网络爬虫/爬虫。我一直在尝试使用“上次修改”日期来确定每个页面的最新更新 - 但我也收集了被抓取页面的每个 HTML 文件。有没有更准确的方法来收集每个页面最近更新的日期?

1 个答案:

答案 0 :(得分:0)

如果您只需要知道如果数据发生了变化,而不是何时发生变化,则可以使用 ETag

否则,就来自服务器的信息而言,通常是 Last-Modified,除非特定目标服务器以某种其他方式(替代自定义标头或响应内容)提供相同的信息。

如果这还不够好,下一个最好的方法是从客户端监控更改。这不是微不足道的。

相关问题