如何按模式拆分网址列表?

时间:2014-10-16 03:36:11

标签: web-scraping pattern-recognition

我从网站抓取了一系列网址。我想将这些网址集群到群组中。然后我可以为这个站点生成一个站点地图。类似的网址应该转到同一组。

IN [1]: http://www.example.org/s/daily/2013-12-09/1392994518.html
OUT[1]: http://www.example.org/s/daily/${date:%Y-%m-%d}/${date:%s}.html

IN [2]: http://www.example.org/torvalds/linux/commit/3bd7bf1f0fe14f591c089ae61bbfa9bd356f178a
OUT[2]: http://www.example.org/torvalds/linux/commit/${sha1}

你有什么想法吗?我可以使用相同的软件包吗?

1 个答案:

答案 0 :(得分:1)

您希望找到流入频率较高的网址。一旦确定了这些,就消除那些流量不足(或没有)流向网站上其他页面的流量。后来的这个小组很可能就像使用条款,隐私政策一样。

前者是网站划分的锚点。转到锚页面并使用行中的文本作为分区的名称。然后检查从锚点流出的URL到站点上的其他页面。如果他们没有流向另一个锚点,他们就属于这个部门。