多次从网站上抓取信息

时间:2019-03-04 15:44:16

标签: python performance web-scraping

请新手程序员提前,如果我写的东西措辞不好或只是愚蠢的话,对不起。

我正在尝试从网站上抓取信息并将结果存储在数据库中。目的是获得所有火车号码,车站,并查看火车是否晚点。我开始这样做的方式是循环的,我一直在通过将$LETTER更改为每个字母(每次https://reservia.viarail.ca/GetStations.aspx?q= $LETTER

然后我解析结果并将所有内容正确存储在数据库中。该脚本不需要很长时间就能运行,所以没问题。当我试图让所有经过每个车站的火车来时,问题就来了。为此,我浏览了先前存储的每个工作站(其中的580个),然后使用此URL,并使用工作站代码将$DATEYYY-MM-DD中的$CODE更改为今天:

reservia.viarail.ca/tsi/GetTrainList.aspx?OriginStationCode=$CODE&Date=$DATE

例如,我会有This link for Montreal

,我将遍历表格的每个元素,然后查看火车编号,然后将其插入表格中。到目前为止,这是我的计划,但是运行该脚本花费了太多时间(超过7分钟),这很有意义,因为我们要打开580页。

有什么更好的方法?我在尝试学习python时使用了python,因此我一直在导入urllib库并使用它来解码页面,然后对数据进行排序。感谢您的任何建议/帮助!

0 个答案:

没有答案