Question

我正在尝试阅读网站“http://www.lassen.co.nz/s14tab.php#hrh”的所有表格。我这样做的代码如下：

library(XML)
library(RCurl)
url<-"http://www.lassen.co.nz/s14tab.php#hrh"
data<-getURL(url)
data<-htmlParse(data)
tables<-readHTMLTable(data)

表示“Team Ranking Points”的表似乎无法正确解析，因此显示为NULL。我尝试过使用scrapeR包但结果相同。任何帮助将不胜感激。

Answer 1

这个白痴（我通常不那么苛刻，但那个页面属于myspace或geocities＆amp;并且是一个伟大的＆＃34;起诉展览A＆＃34;因为需要获得许可证才能放入HTML制作该页面的互联网决定了他可以“弥补”＃34;用于评论HTML部分的新规则。

这个宝石：

<TABLE border=0 cellspacing=2 cellpadding=3 /*style="border: 1px solid #000;"*/>

出现两次。虽然xml2 C库擅长处理可怕的HTML，但这会让它有点循环。因此，我们必须首先处理创意评论：

library(rvest)

pg <- readLines("http://www.lassen.co.nz/s14tab.php")
pg <- gsub("/*style", "style", pg)
pg <- gsub("*/>", ">", pg)

pg <- read_html(paste0(pg, sep="", collapse=""))
html_table(html_nodes(pg, "h2 + table"), fill=TRUE)

无法遵循正确的HTML编码指南的同一个人似乎也从未听说过<div>标记，因此您必须对表格2＆amp ;;进行清理。 3。

如果他们改变格式（不太可能在古代过程中建立这个东西），h2 + table将需要更新以更好地定位这三个表。

HTML表格在R中无法正确解析

1 个答案: