从内部客房预订网站上抓取数据

时间:2018-10-16 04:11:38

标签: python web-crawler internals

目前,我有一个关于从内部网络抓取数据的小任务,但是我仍然不知道从哪里开始。

我有一个有关实验室预订的内部网站,您首先需要输入用户名和密码才能访问。

进入预订页面,假设经过过滤,我将在7天之内获得实验室A的预订信息列表,这意味着您将分别拥有7个表格,各列分别为0、15、30、45,分别代表分钟,行是7:00、8:00,...。18:00代表小时。当您单击每个单元格时,将出现一个新窗口,其中包含有关实验室及其状态(“免费” /“保留”)的信息。如果状态为“已预订”,则附带谁预订的信息以及直到何时。如果状态为“免费”,则会随附一张表格供您填写预订信息,但我想我们对此不太在意。 我的目标是在抓取数据后,创建一个csv文件,其列为天,行为时间,单元格中的信息是在保留时隙时正在预订的人。如果该时隙空闲,则可以包含空值。

因为这是我们公司的常见内部预订网站,但是在我们的场所使用时有一个实验室规则,因此我需要检查是否有人违反了实验室预订规则,首先要自动收集数据。 我已经通过python在某些网站上编写了搜寻器,但是这些网站没有采用这种格式,所以我有点迷失了。

1 个答案:

答案 0 :(得分:0)

如果您尝试使该过程自动化,我建议使用Selenium [1]:https://selenium-python.readthedocs.io/

或者,如果它只是在爬行,则可以结合使用Urllib2或Requests和Beautiful Soup之类的软件包。