我正在进行一些网络爬行,但在选择通过xpath语句提取的正确数据方面存在一些问题。我希望这里有人能给我正确的解决方案,这样我才能完成这项工作。 这是该网站的HTML:
<h5><a href="some-website-url" target="_blank"> Some sample text</a> (2015)</h5>
我想找到一种方法,通过给它一个xpath声明来提取文本“(2015)”,但我无法弄明白。我试过了
//HTML/BODY[1]/DIV[1]/H5[1]/text()
但没有成功。
//HTML/BODY[1]/DIV[1]/H5[1]
是程序在提取文本时给我的xpath地址
Some sample text (2015)
退出网站。 和代码
//HTML/BODY[1]/DIV[1]/H5[1]/text()
给出了相同的结果。
请帮我一点。
非常感谢。
PS:我正在努力提取网站的程序是Octoparse版本6.2
答案 0 :(得分:0)
找到提取文字的方法&#34;
(2015)
&#34;
xpath 表达式:
//div[1]/h5/a/following-sibling::text()