要求登录的爬网网站(受密码保护)

时间:2019-04-18 10:16:36

标签: r web-scraping

我正在抓取报纸网站(http://politiken.dk),可以从所需新闻中获取所有标题。 但是我无法获得头条新闻和全文。

当我尝试不登录时,代码只会得到我抓取当天的第一个标题(甚至没有我在RData列表中的第一个标题)。

我相信我需要登录才能正确使用吗?

所以我有一个用户名和一个密码,但是我无法执行任何代码。

我需要从RData中URL部分的文章中获得标题。因此,我需要的所有文章的特定URL都已经在此代码中(在下面)。

我在该网站上看到了用于创建登录名的代码,但无法应用于我的案子

library(httr)
library(XML)

handle <- handle("http://subscribers.footballguys.com") # I DONT KNOW WHAT TO PUT HERE
path   <- "amember/login.php" ##I DONT KNOW WHAT TO PUT HERE

# fields found in the login form.
login <- list(
  amember_login = "username"
 ,amember_pass  = "password"
 ,amember_redirect_url = 
   "http://subscribers.footballguys.com/myfbg/myviewprojections.php?projector=2"
)

response <- POST(handle = handle, path = path, body = login)

这是我获得标题的代码:

headlines <- rep("",nrow(politiken.unique))
for(i in 1:nrow(politiken.unique)){
  try({
    text <- read_html(as.character(politiken.unique$urls[i])) %>%
      html_nodes(".summary__p") %>% 
      html_text(trim = T) 
    headlines[i] = paste(text, collapse = " ")
  })
}

我尝试了以下建议:Scrape password-protected website in R

但是它不起作用,或者我不知道该怎么办。

谢谢!

0 个答案:

没有答案