从XMLNodeList中检索链接

时间:2012-04-04 23:04:08

标签: xml r

如何从这些节点获取链接:

script <- getURL("www.r-bloggers.com")
doc <- htmlParse(script)
li <- getNodeSet(doc, "//ul[@class='xoxo blogroll']")

提前感谢任何提示。

1 个答案:

答案 0 :(得分:3)

您可以提取a元素并在其上调用xmlGetAttr

library(RCurl)
library(XML)
script <- getURL("www.r-bloggers.com")
doc <- htmlParse(script)
li <- getNodeSet(doc, "//ul[@class='xoxo blogroll']//a")
sapply(li, xmlGetAttr, "href")

您也可以直接使用xpathApply

xpathSApply(doc, 
  "//ul[@class='xoxo blogroll']//a", 
  xmlGetAttr, "href"
)