Question

我正在抓取报纸网站（http://politiken.dk），可以从所需新闻中获取所有标题。但是我无法获得头条新闻和全文。

当我尝试不登录时，代码只会得到我抓取当天的第一个标题（甚至没有我在RData列表中的第一个标题）。

我相信我需要登录才能正确使用吗？

所以我有一个用户名和一个密码，但是我无法执行任何代码。

我需要从RData中URL部分的文章中获得标题。因此，我需要的所有文章的特定URL都已经在此代码中（在下面）。

我在该网站上看到了用于创建登录名的代码，但无法应用于我的案子

library(httr)
library(XML)

handle <- handle("http://subscribers.footballguys.com") # I DONT KNOW WHAT TO PUT HERE
path   <- "amember/login.php" ##I DONT KNOW WHAT TO PUT HERE

# fields found in the login form.
login <- list(
  amember_login = "username"
 ,amember_pass  = "password"
 ,amember_redirect_url = 
   "http://subscribers.footballguys.com/myfbg/myviewprojections.php?projector=2"
)

response <- POST(handle = handle, path = path, body = login)

这是我获得标题的代码：

headlines <- rep("",nrow(politiken.unique))
for(i in 1:nrow(politiken.unique)){
  try({
    text <- read_html(as.character(politiken.unique$urls[i])) %>%
      html_nodes(".summary__p") %>% 
      html_text(trim = T) 
    headlines[i] = paste(text, collapse = " ")
  })
}

我尝试了以下建议：Scrape password-protected website in R

但是它不起作用，或者我不知道该怎么办。

谢谢！

要求登录的爬网网站（受密码保护）

0 个答案: