我正在抓取报纸网站(http://politiken.dk),可以从所需新闻中获取所有标题。 但是我无法获得头条新闻和全文。
当我尝试不登录时,代码只会得到我抓取当天的第一个标题(甚至没有我在RData列表中的第一个标题)。
我相信我需要登录才能正确使用吗?
所以我有一个用户名和一个密码,但是我无法执行任何代码。
我需要从RData中URL部分的文章中获得标题。因此,我需要的所有文章的特定URL都已经在此代码中(在下面)。
我在该网站上看到了用于创建登录名的代码,但无法应用于我的案子
library(httr)
library(XML)
handle <- handle("http://subscribers.footballguys.com") # I DONT KNOW WHAT TO PUT HERE
path <- "amember/login.php" ##I DONT KNOW WHAT TO PUT HERE
# fields found in the login form.
login <- list(
amember_login = "username"
,amember_pass = "password"
,amember_redirect_url =
"http://subscribers.footballguys.com/myfbg/myviewprojections.php?projector=2"
)
response <- POST(handle = handle, path = path, body = login)
这是我获得标题的代码:
headlines <- rep("",nrow(politiken.unique))
for(i in 1:nrow(politiken.unique)){
try({
text <- read_html(as.character(politiken.unique$urls[i])) %>%
html_nodes(".summary__p") %>%
html_text(trim = T)
headlines[i] = paste(text, collapse = " ")
})
}
我尝试了以下建议:Scrape password-protected website in R
但是它不起作用,或者我不知道该怎么办。
谢谢!