使用rvest从密码保护的网站上刮掉

时间:2018-06-17 07:45:48

标签: rvest

我已经成功地在HP EliteBook(运行Windows 7)上使用rvest来访问受密码保护的网站上的数据一段时间了。

我成功运行的代码是:

加载所需的包

库(rvest)

# Connect to confidential live report
URL <- url("http://username:password@urlofpasswordprotectedsite")
# Read in data
RawData <- read_html(URL)
# Identify the table
RawDataTable <- html_nodes(RawData, "table")
RawDataTable1 <- html_table(RawDataTable[1], fill = TRUE)
# Make data.frame
RawData <- as.data.frame(RawData)

然而,在尝试通过R刮取数据后,我面临以下错误:

Error in open.connection(x, "rb") : cannot open the connection

当我在Mac上工作时发生了这个错误,但是很满足于HP运行分析。我可以毫无问题地加载以下内容:

htmlpage <- read_html("http://forecast.weather.gov/MapClick.php?lat=42.27925753000045&lon=-71.41616624299962#.V17UH-IrKHs")

这个错误是由于我的机器还是rvest包的最新更新可能会引发错误?

谢谢。

1 个答案:

答案 0 :(得分:0)

我设法通过使用:

来解决这个问题
html_session("http://username:password@urlofpasswordprotectedsite")

取代:

url("http://username:password@urlofpasswordprotectedsite")