如何从给定域中获取所有站点?

时间:2019-06-05 13:30:51

标签: web-scraping

如果这不是问这类问题的合适地点,请告诉我在哪里可以问这个问题。

基本上,我想从某个站点抓取新闻。它具有以下格式:

特定新闻的链接: https://www.presseportal.de/blaulicht/pm/4970/1345341

https://www.presseportal.de/blaulicht/pm/4970/是根,而1345341是随机数。只有随机数会改变。

那么,如何找到属于该特定根的所有新闻? (网站上没有指向它们的链接,因为它们仅显示300页)

1 个答案:

答案 0 :(得分:0)

使用分页网址,例如www.presseportal.de/blaulicht/nr/4970/{number},它将为您提供27个标题的页面。比标题中的剪贴链接更重要。 比仅增加{number}并获得下一页,直到结束为止。

  • www.presseportal.de/blaulicht/ nr / 4970/27
  • www.presseportal.de/blaulicht/ nr / 4970/54
  • ...