使用R进行抓取时,如何避免404错误

时间:2012-04-04 20:25:01

标签: r web-scraping

我通过循环插入一些变量来访问网页

偶尔会出现404错误。

如何为这些页面插入某种类型的catch以避免破坏代码。我目前使用XML包,但当然可以在适当的时候加载其他

TIA

1 个答案:

答案 0 :(得分:0)

我大多数时候使用RCurl::url.exists()。如果您有一个列表或包含所有网址的数据框,您可以尝试这样做:

map(p, ~ifelse(RCurl::url.exists(.), ., NA))

HTH!