通过“html_nodes”提取数据有两个条件

时间:2017-03-06 01:08:43

标签: html r nodes

我正在尝试从特定网站提取价目表

com.example.apptwo

当它是正常价格时,通常以下列方式提取。

price <- paste0("price", 1:24)
dfprice <- as.data.frame(price)
for (i in datalist){
  PanInfos <- html_nodes(i, css = '.info')

一般来说,HTML的构成如下,

  PRICE <- 
    PanInfos %>% 
    html_nodes('.price') %>% 
    html_text()

  length(PRICE) <- nrow(dfprice)      
  PRICE <- as.data.frame(PRICE)
  dfprice <- cbind(dfprice, PRICE
}

但是当它出售时,它们会给出两个价格文本,如下面的

<span class = "price-button">
   <span itemprop = "price" class = "price">

因此,当我通过html_nodes('。price')提取数据时,我会提取更多我需要的价格信息。比如,我有24个产品名称列表,但因此有25个价格信息。

总而言之,我想以不同条件以正常价格和折扣价格提取价格。我真的需要你的帮助。

0 个答案:

没有答案