检测网页中的更改区域

时间:2015-04-07 09:49:03

标签: html web-scraping web-crawler

我试图编写一个获取原始html数据的爬虫,并找到标题,价格,更新日期,照片等...字段并将其写入数据库。这是一种经典而古老的数据抓取方式。

我认为我可以通过其他方式完成这项工作。

如果我抓取网站中的所有页面(可能超过1000个),并将它们全部进行比较,我就可以找到特定的区域。

我的意思是html标签总是一样的。只有特定区域会像标题,图像等一样改变......

那么,确定变化区域的最佳方法是什么?

1 个答案:

答案 0 :(得分:0)

  

将它们全部比较我能找到特定区域

     

确定更改区域的最佳方法是什么?

在您的问题中,您设置了比较页面部分和获取特定区域数据的刮擦/爬行方法。这与正则表达方法有关。 不要使用作为非常有效的方法。而使用xpath ,在XML结构上运行。

所以,简单起见:

  1. 获取HTML
  2. 制作DOM
  3. 使DOM成为有效的XML
  4. 将xPath查询应用于XML
  5. 相信我,xml库能够很好地处理巨大的结构(包括空闲的html标签)并遍历它们。使用xpath的经典示例在我的this post中。

    要确定数据节点路径,您只需使用Web检查器工具(F12 - 在Chrome和IE中以及在Ctrl中使用Ctrl + Shift + I)来查看包含有用信息的html标记。

相关问题