使用python检测网页更新

时间:2012-06-25 02:24:15

标签: python html parsing text web

检查网页更改的最简单方法是什么?我想经常扫描一个网页,并将其与较旧的扫描进行比较。一个问题是我还需要扫描忽略某些更改,例如一天中的时间等。我只想检查相关更新。

1 个答案:

答案 0 :(得分:4)

我不会编写代码,但我会告诉您解决此问题的过程:

  1. 检索页面来源
  2. 更换所有部件 我们不关心的页面
  3. 计算md5或 替换后的源的sha1哈希
  4. 比较 使用存储的哈希进行哈希,看看它是否不同,并做任何事情 如果页面已更新,则需要执行此操作
  5. 存储新哈希
相关问题