如何强制SimpleXML忽略HTML标记?

时间:2012-06-03 21:43:04

标签: php html xml parsing simplexml

我尝试通过SimpleXML开始使用xml解析。我找不到如何做一个基本的事情:
我有包含HTML标记的XML文件,如下所示:

<root>
<title>some text</title>
<content>some <span>text</span></content>
</root>

所以我只需要解析像root title content这样的xml标签,并忽略像span这样的html标签。另外,我需要忽略&nbsp之类的内容。
我确信有一个简单的方法可以做到这一点。但是找不到怎么做。

1 个答案:

答案 0 :(得分:0)

尝试使用CDATA围绕content标记的文本。

例如:

<root>
  <title>some text</title>
  <content><![CDATA[some <span>text</span>]]></content>
</root>

所以这个:

$xml = new SimpleXMLElement({the above XML});
echo htmlspecialchars($xml->content);

会产生some <span>text</span>。这也允许使用诸如&amp;之类的东西。