HTML表格在R中无法正确解析

时间:2016-05-04 10:08:27

标签: html xml r parsing web-scraping

我正在尝试阅读网站“http://www.lassen.co.nz/s14tab.php#hrh”的所有表格。我这样做的代码如下:

library(XML)
library(RCurl)
url<-"http://www.lassen.co.nz/s14tab.php#hrh"
data<-getURL(url)
data<-htmlParse(data)
tables<-readHTMLTable(data)

表示“Team Ranking Points”的表似乎无法正确解析,因此显示为NULL。我尝试过使用scrapeR包但结果相同。任何帮助将不胜感激。

1 个答案:

答案 0 :(得分:1)

这个白痴(我通常不那么苛刻,但那个页面属于myspace或geocities&amp;并且是一个伟大的&#34;起诉展览A&#34;因为需要获得许可证才能放入HTML制作该页面的互联网决定了他可以“弥补”#34;用于评论HTML部分的新规则。

这个宝石:

<TABLE border=0 cellspacing=2 cellpadding=3 /*style="border: 1px solid #000;"*/>

出现两次。虽然xml2 C库擅长处理可怕的HTML,但这会让它有点循环。因此,我们必须首先处理创意评论:

library(rvest)

pg <- readLines("http://www.lassen.co.nz/s14tab.php")
pg <- gsub("/*style", "style", pg)
pg <- gsub("*/>", ">", pg)

pg <- read_html(paste0(pg, sep="", collapse=""))
html_table(html_nodes(pg, "h2 + table"), fill=TRUE)

无法遵循正确的HTML编码指南的同一个人似乎也从未听说过<div>标记,因此您必须对表格2&amp ;;进行清理。 3。

如果他们改变格式(不太可能在古代过程中建立这个东西),h2 + table将需要更新以更好地定位这三个表。

相关问题