Python:查找包含字符串的所有URL

时间:2016-09-20 13:05:01

标签: python url

我正在尝试在某个域上查找名称中包含特定字符串的所有页面。例如:

www.example.com/section/subsection/406751371-some-string 
www.example.com/section/subsection/235824297-some-string 
www.example.com/section/subsection/146783214-some-string

最好的方法是什么?

“-some-string”之前的数字可以是任何9位数字。我可以编写一个循环遍历所有可能的9位数字并尝试访问生成的URL的脚本,但我一直认为应该有一种更有效的方法来做到这一点,特别是因为我知道整体上只有大约1000个以该字符串结尾的页面。

2 个答案:

答案 0 :(得分:0)

我了解你的情况,-some-string之前的数值是该网站的一种对象ID(例如,这个问题有一个id 39594926,而url是stackoverflow.com/questions/ 39594926 /蟒-找到-所有的URL-其中-包含字符串)

我认为没有办法找到所有有效数字,除非你有一个列表(或父)页面列出所有这些数字。再以Stackoverflow为例,在问题列表页面中,您将看到所有这些问题ID。

如果你可以提供我的网站,我可以试着找到这些数字的“模式”。对于一些简单的网站,该数字只是识别对象的增量(可以是用户,问题或其他任何东西)。

答案 1 :(得分:0)

如果这些文章都链接到一个页面,您可以解析此索引页面的html,因为所有链接都将包含在href标记中。