Question

我正在进行一些网络爬行，但在选择通过xpath语句提取的正确数据方面存在一些问题。我希望这里有人能给我正确的解决方案，这样我才能完成这项工作。这是该网站的HTML：

<h5><a href="some-website-url" target="_blank"> Some sample text</a> (2015)</h5>

我想找到一种方法，通过给它一个xpath声明来提取文本“（2015）”，但我无法弄明白。我试过了

//HTML/BODY[1]/DIV[1]/H5[1]/text()

但没有成功。

//HTML/BODY[1]/DIV[1]/H5[1]

是程序在提取文本时给我的xpath地址

Some sample text (2015)

退出网站。和代码

//HTML/BODY[1]/DIV[1]/H5[1]/text()

给出了相同的结果。

请帮我一点。

非常感谢。

PS：我正在努力提取网站的程序是Octoparse版本6.2

Answer 1

找到提取文字的方法＆＃34; (2015)＆＃34;

xpath 表达式：

//div[1]/h5/a/following-sibling::text()