从一个网站抓取多个页面的 URL

时间:2021-07-02 13:59:50

标签: r url web-scraping

我很确定.. 在社区的某个地方,这个问题已经得到了回答。但由于某些原因,我找不到我想要的答案。 我最近才开始用 R 进行文本挖掘和网页抓取。 而且我很难理解 html 代码(之前也没有使用过 html),我可以从一个网站/页面上抓取我想要的所有信息。 但我希望我能在这个网站的所有“下一页”中做到这一点。 我编写了一个替代方案,但使用起来不是很方便。

# I know the website has 9902 items and 50 items per page:
i <- 1
info <- c()
while (i < 9902) { 
  print(i)
  i = i+50 
  info <- c(info,i)
}

URL_OG <- "https://www.imdb.com/search/title/?title_type=feature&year=2020-01-01,2020-12-31&start="
URL_OG_end <- "&ref_=adv_nxt"

create_URL <- function(x) {
paste0(URL_OG,x,URL_OG_end)
}
URLS <- unlist(lapply(info,create_URL))
# Now I have a list of URLS. But this is a stupid solution...

我可以使用 html_nodes(text,css='.next-page') 之类的吗? 非常感谢

1 个答案:

答案 0 :(得分:0)

您的解决方案一点也不愚蠢,如果它对您有用(因为它可以为您提供所需的数据),那么这就是您所需要的。创建所需 url 列表然后解析它们以获取数据的做法甚至很常见。

也就是说,正如您所提到的,您也可以使用 awaithtml_nodes,如果您知道要查找的内容,请使用以下一种方法:

html_node