删除重复的网址结构

时间:2018-12-11 01:45:15

标签: python parsing url

我正在写一个搜寻器,我有一个列表,其中包含一组类似于

的URL
  • somesite.com/colection/id/index.php?if=12
  • somesite.com/index.php?id=14
  • somesite.com/index.php?id=156
  • example.com/view.php?image=441
  • somesite.com/page.php?id=sas231
  • example.com/view.php?ivideo=4
  • somesite.com/page.php?id=56
  • example.com/view.php?image=1

我想解析域名后具有相同结构的网址,并获得第一个网址,例如Burp Suite,它有一个可以删除重复网址(相同参数但值不同)的期货。

  • somesite.com/colection/id/index.php?if=12
  • somesite.com/index.php?id=14
  • example.com/view.php?image=441
  • somesite.com/page.php?id=asa231
  • example.com/view.php?ivideo=4

如您所见,相同但具有不同查询字符串的页面已被删除。这就是我要存档的内容。我尝试了很多正则表达式,但没有用。任何人都可以帮我解决这个问题。提前致谢。 P / s:对不起,我的英语。

1 个答案:

答案 0 :(得分:0)

您可以使用urlparse库将URL分成多个部分,然后提取所需的部分。例如:

>>> from urllib.parse import urlparse
>>> urlparse('http://somesite.com/page.php?id=sas231')
ParseResult(scheme='http', netloc='somesite.com', path='/page.php', params='', query='id=sas231', fragment='')

该库的python3版本的文档位于urlparse