使用R从meta itemprop中提取内容

时间:2015-03-03 18:44:51

标签: regex xml r xpath sapply

我正在尝试从以下内容部分中提取文本。

<meta itemprop="datePublished" content="2015-02-24T11:34:57Z"/>
<meta itemprop="description" content="South Africa's gross domestic output 
(GDP) expanded by a much stronger 4.1 percent in the fourth quarter"/>

我特别感兴趣的是从&#34; datePublished&#34;中提取时间和日期。和&#34;描述&#34;。现在有趣的是,我可以提取&#34;描述&#34;文字,使用

xpathSApply(story2, "//head/meta[@name=\"description\"]/@content")

但不是datePublished,即使我使用相同的语法只产生NULL结果。

我无法解释这一点,并想知道是否有人知道为什么xpathSApply在提取描述时没有提取datePublished,以及正确的格式是什么。我无法通过grep使用子字符串操作来提取它。

1 个答案:

答案 0 :(得分:0)

这是你正在尝试的代码,因为我认为它应该是:

'<meta itemprop="datePublished" content="2015-02-24T11:34:57Z"/>
<meta itemprop="description" content="South Africa\'s gross domestic output (GDP) expanded by a much stronger 4.1 percent in the fourth quarter"/>' -> foo
library(XML)
bar <- xmlParse(foo)
datePublished <- xpathSApply(bar, "//meta[@itemprop='datePublished']/@content")
description <- xpathSApply(bar, "//meta[@itemprop='description']/@content")