如何从HTML标记中获取某个单词后的链接文本?

时间:2012-10-18 06:29:38

标签: php html html-parsing

  

可能重复:
  How to parse and process HTML with PHP?

我正在尝试从文本“Dir:”之后的链接获取文本,例如使用php或regex打开和关闭“a”标签(导演的名字,这里是Sam Raimi)之间的文本。

例如

<span class="credit">
    Dir: <a href="/name/nm0000600/">Sam Raimi</a>
    With: <a href="/name/nm0001497/">Tobey Maguire</a>, <a href="/name/nm0000379/">Kirsten Dunst</a>, <a href="/name/nm0000353/">Willem Dafoe</a>
</span>

非常感谢任何帮助!

1 个答案:

答案 0 :(得分:0)

要获得积分中的导演,您可以使用XPath

//span[@class="credit"]/text()[contains(., "Dir:")]/following-sibling::a[1]'

这将使您获得包含字符串&#34; Dir:&#34;的文本节点后面的第一个元素。这是一个span元素的子元素,其class属性值为&#34; credit&#34;

有关如何使用DOM的一般用法示例,请参阅Grabbing the href attribute of an A element

相关问题