Xpath表达式返回空输出

时间:2016-10-24 14:22:46

标签: xpath xidel

我的xidel命令如下:

xidel "https://www.iec-iab.be/nl/contactgegevens/c360afae-29a4-dd11-96ed-005056bd424d" -e '//div[@class="consulentdetail"]'

这应该使用类consulentdetail提取div中的所有数据 没有什么特别的我想,但它不打印任何东西。

任何人都可以帮助我找到错误吗?

//编辑:当我在Firefox中使用相同的表达式时,它会找到所需的标签

1 个答案:

答案 0 :(得分:1)

您要连接的站点显然会检查用户代理字符串,并根据发送的用户代理字符串提供不同的页面。

如果您指示xidel发送用户代理字符串,则模拟为例如Windows 10上的Firefox,您的查询开始工作:

> ./xidel --silent  --user-agent="Mozilla/5.0 (Windows NT 10.0; WOW64; rv:49.0) Gecko/20100101 Firefox/49.0" "http://www.iec-iab.be/nl/contactgegevens/c360afae-29a4-dd11-96ed-005056bd424d" -e '//div[@class="consulentdetail"]'
Lidnummer11484 2 N 73
TitelAccountant, Belastingconsulent
TaalNederlands
Accountant sinds4/04/2005
Belastingconsulent sinds4/04/2005
AdresStationsstraat 2419550 HERZELE
Telefoon+32 (53) 41.97.02
Fax+32 (53) 41.97.03
AdresStationsstraat 2419550 HERZELE
Telefoon+32 (53) 41.97.02
Fax+32 (53) 41.97.03
GSM+32 (474) 29.00.67
Websitehttp://abbeloosschinkels.be
E-mail

<!--
document.write("<a href=mailto:");document.write(decrypt(unescCtrlCh("5yÿÃ^à(pñ_!13!­[îøû!13!5ãév¦Ãçj|°W"),"Iate1milrve%ster"));document.write(">");document.write(decrypt(unescCtrlCh("5yÿÃ^à(pñ_!13!­[îøû!13!5ãév¦Ãçj|°W"),"Iate1milrve%ster"));document.write("</a>");
-->

根据经验,在进行网页抓取并获得奇怪的结果时:

  1. 在禁用Javascript的浏览器中检查页面。
  2. 发送模拟Web浏览器的用户代理字符串。