无法在源代码中看到正文

时间:2017-03-13 21:05:26

标签: python regex web-scraping beautifulsoup

我试图在确实中搜索工作列表,以计算资格要求的次数。

问题是我无法在某些网站的源代码中识别任何正文。有没有办法可以克服这个问题?

我使用beautifulsoup4执行任务。 Here是其中一个网站的示例。

1 个答案:

答案 0 :(得分:0)

该特定网站似乎"隐藏"将每个广告的实际内容转换为iframe,原因不明。

实际内容位于this URL(唯一的区别似乎是添加到网址的&in_iframe=1查询参数)。

但请注意,您无法在浏览器中直接查看该网址,因为它会检测到您未通过iframe查看该网址并将您重定向到网页。

但是,您可以通过cURL和grep验证网址是否包含实际内容:

$ curl -k "https://jobs-te.icims.com/jobs/77373/data-scientist/job?hub=44&mode=job&iis=Job%2BBoard&iisn=Indeed&mobile=false&width=940&height=500&bga=false&needsRedirect=false&jan1offset=-300&jun1offset=-240&in_iframe=1" | grep quantitative

Daily work will involve performing one or more of the following activities: [...]

在页面上检测这种技术的一般技术是使用浏览器的开发人员工具查看所做的请求(在本例中为iframe的子请求),自然是DOM树( iframe在那里。)

希望这有帮助。