如何确定rvest查询对http响应的时间量

时间:2016-02-29 17:46:22

标签: r screen-scraping

我一直在使用rvest软件包对某些数据分析执行屏幕抓取,但是有些查询每次花费几秒钟来实际收集数据。 e.g。

  sectorurl = paste("http://finance.yahoo.com/q/pr?s=,",ticker,"+Profile", sep= "")
  index <- read_html( sectorurl)

第二步是花费时间的那个,所以我想知道在R的背景中是否有任何诊断或者可以运行的智能包将决定“网络等待时间”而不是CPU时间或类似的东西。

我想知道我是否遇到了我的性能,或者实际上我的R代码是否表现良好且是http响应限制了我的处理速度。

1 个答案:

答案 0 :(得分:0)

我认为您无法将REST调用与客户端代码分开。但是,我访问Web服务的经验是,网络时间通常占据总运行时间,“CPU”时间是一个数量级或更多,更少。

您尝试的一个选项是将您的URL(似乎是GET)粘贴到Web浏览器中,并查看从控制台完成所需的时间。您可以将此时间与同一呼叫在R中所用的总时间进行比较。为此,请尝试使用system.time,它返回给定表达式使用的CPU时间。

require(stats)
system.time(read_html(sectorurl))

查看documentation了解详情。