html_node区分大小写与网站元数据标签

时间:2018-06-13 16:34:01

标签: r rvest

我正在尝试使用meta name="generator"包提取rvest标记来检测多个网站的内容管理系统。代码看起来像这样:

library(rvest)
url <- "https://www.example.com"

meta_generator <- read_html(url) %>% 
  html_nodes("meta[name=generator]") %>%
  html_attr("content") %>% 
  paste(collapse = "")

复杂性是Drupal将生成器中的'g'大写:meta name="Generator"

而Wordpress呈现为meta name="generator",因此我的代码在这种情况下将检测Wordpress而不是Drupal标记。

ignore.case = TRUE是否容易等同于rvest

感谢。

1 个答案:

答案 0 :(得分:1)

您只需使用逗号:

meta_generator <- read_html(url) %>% 
  html_nodes("meta[name=generator],meta[name=Generator]") %>%
  html_attr("content") %>% 
  paste(collapse = "")