难以处理的网页抓取分页网站

时间:2019-04-07 19:53:52

标签: r web-scraping rvest lubridate

我正在抓取ASN数据库(http://aviation-safety.net/database/)。我已经编写了代码来对这几年(1919-2019年)进行分页,并刮除除了死亡(表示为“ fat。”)以外的所有相关节点。选择器小工具告诉我致命事件节点称为“'#contentcolumnfull:nth-​​child(5)'”。由于某些原因,“。list:nth-​​child(5)”不起作用。

当我抓取#contentcolumnfull:nth-​​child(5)时,第一个元素为空白,表示为“”。

我如何编写一个函数来删除所刮取的每一年/每一页的第一个空元素?当我自己抓取单个页面时,删除第一个元素很简单:

fat <- html_nodes(webpage, '#contentcolumnfull :nth-child(5)')
fat <- html_text(fat)
fat <- fat[-1]

但是我发现很难编写一个函数。

我还有第二个关于日期时间和格式的问题。我的天数数据表示为年月日。缺少几个基本日期和月份(例如:??-??-1985,JAN-??-2004)。理想情况下,我想将日期转换为润滑对象,但不能缺少数据或仅保留年份。

在这一点上,我已经使用gsub()和regex来清理数据(删除“ ??”和浮点破折号),所以我混合使用了多种数据格式。但是,这使得可视化数据变得困难。对最佳做法有何想法?

# Load libraries 
library(tidyverse)
library(rvest)
library(xml2)
library(httr)

years <- seq(1919, 2019, by=1)

pages <- c("http://aviation-safety.net/database/dblist.php?Year=") %>%
  paste0(years) 

# Leaving out the category, location, operator, etc. nodes for sake of brevity 
read_date <- function(url){
  az <- read_html(url)
  date <- az %>%
    html_nodes(".list:nth-child(1)") %>%
    html_text() %>%
    as_tibble()
} 

read_type <- function(url){
  az <- read_html(url)
  type <- az %>%
    html_nodes(".list:nth-child(2)") %>%
    html_text() %>%
    as_tibble()
}

date <- bind_rows(lapply(pages, read_date))
type <- bind_rows(lapply(pages, read_type))

# Writing to dataframe
aviation_df <- cbind(type, date)
aviation_df <- data.frame(aviation_df)

# Excluding data cleaning 

1 个答案:

答案 0 :(得分:0)

不好的做法是多次对同一页执行ping操作以提取请求的信息。您应该阅读该页面,提取所有需要的信息,然后移至下一页。

在这种情况下,各个节点都存储在一个主表中。 rvest的html_table()函数很容易将html表转换为数据帧。

library(rvest)
library(dplyr)

years <- seq(2010, 2015, by=1)

pages <- c("http://aviation-safety.net/database/dblist.php?Year=") %>%
  paste0(years) 

# Leaving out the category, location, operator, etc. nodes for sake of brevity 
read_table <- function(url){
  #add delay so that one is not attacking the host server (be polite)
  Sys.sleep(0.5)
  #read page
  page <- read_html(url)
  #extract the table out (the data frame is stored in the first element of the list)
  answer<-(page %>% html_nodes("table") %>%  html_table())[[1]]
  #convert the falatities column to character to make a standardize column type
  answer$fat. <-as.character(answer$fat.)
  answer
} 

# Writing to dataframe
aviation_df <- bind_rows(lapply(pages, read_table))

还有一些额外的列需要清理