Xpath - 仅选择父节点的文本

时间:2017-11-02 15:01:58

标签: xpath web-crawler

我正在进行一些网络爬行,但在选择通过xpath语句提取的正确数据方面存在一些问题。我希望这里有人能给我正确的解决方案,这样我才能完成这项工作。 这是该网站的HTML:

<h5><a href="some-website-url" target="_blank"> Some sample text</a> (2015)</h5>

我想找到一种方法,通过给它一个xpath声明来提取文本“(2015)”,但我无法弄明白。我试过了

//HTML/BODY[1]/DIV[1]/H5[1]/text()

但没有成功。

//HTML/BODY[1]/DIV[1]/H5[1]

是程序在提取文本时给我的xpath地址

Some sample text (2015)

退出网站。 和代码

//HTML/BODY[1]/DIV[1]/H5[1]/text()

给出了相同的结果。

请帮我一点。

非常感谢。

PS:我正在努力提取网站的程序是Octoparse版本6.2

1 个答案:

答案 0 :(得分:0)

  

找到提取文字的方法&#34; (2015)&#34;

xpath 表达式:

//div[1]/h5/a/following-sibling::text()