Question

我正在尝试抓取网站上发布的新闻稿的文本。没有整体索引页，但是每20个新闻稿中就有一个单独的html页，其中包含指向包含其他新闻稿的其他html页的链接。我注意到每个新闻发布页面都具有以下格式：

http://www.website.com/pressreleases/view/title-of-press-release
http://www.website.com/pressreleases/view/another-title-here
http://www.website.com/pressreleases/view/some-different-title
http://www.website.com/pressreleases/view/yet-another-title

以此类推。

我发现，最好的方法可能是使用rvest下载http://www.website.com/pressreleases/view/之后的所有html页面，并从每个html页面中提取相关信息。但是，我看不到如何在不指定确切网址的情况下浏览所有不同的网页。

rvest抓取具有不同网址的多个html页面

0 个答案: