仅从网页中删除特定详细信息

时间:2016-04-23 14:17:36

标签: java html web-scraping jsoup webpage

我正在使用Jsoup从网页中检索详细信息并写入文本文件。我可以只检索它的一部分吗?例如,在以下链接中,我只想采用职位描述。

http://aldogroup.luceosolutions.com/recruit/stores/advert_details.php?id=3136&_lang=en&partner_id=139

有时,招聘信息来自不同的网站,因此html标签的格式可能会有所不同。我只需要一种方法来检索作业描述。以下代码检索网页上的所有内容。我怎样才能获得职位描述?请帮忙。

mapDE.put("somekey", new int[][]{
  { 0, 0 },
  { 0, 0 } });

1 个答案:

答案 0 :(得分:1)

你可以使用它 -

Elements e = doc.select(".annonce > p:nth-child(5)");
System.out.println(e.text());

要获得正确的CSS selector,您可以打开浏览器的开发者工具(按F12键),然后选择检查工具。
您还应该在请求中添加user agent字符串,这样您就可以从浏览器和程序中获得相同的页面 -

doc = Jsoup.connect("http://aldogroup.luceosolutions.com/recruit/stores/advert_details.php?id=3136&_lang=en&partner_id=139")
                .userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64; rv:45.0) Gecko/20100101 Firefox/45.0")
                .get();