如何从下拉菜单中删除所有信息?

时间:2016-04-13 06:31:28

标签: r web-scraping

我需要从下拉菜单中的所有选项中获取学校名称和状态。

网址为http://www.speechanddebate.org/aspx/rankings.aspx?navid=608&pnavid=2

我试图通过以下我在这里找到的示例来编写R中的代码,但无法正确安装软件包。

我需要一个非常基本的操作方法,最好是在R中,如何从下拉菜单中获取学校名称和状态。

1 个答案:

答案 0 :(得分:0)

如果您只想要一个条目列表,这里有一个建议。它只使用基本功能,因为你似乎很难安装包(prob firewall / proxy)

urlink <- "http://www.speechanddebate.org/aspx/rankings.aspx?navid=608&pnavid=2"
alllines <- readLines(urlink)
startidx <- (which(grepl("-- View All Districts --", alllines, fixed=T)) + 1)
endindices <- which(grepl("</select>", alllines, fixed=T))
endidx <- head(endindices[endindices > startidx],1)
alllines[startidx:endidx]
mylist <- unname(na.omit(sapply(alllines[startidx:endidx], 
    function(s) strsplit(strsplit(s, ">")[[1]][2], "<")[[1]][1])))