Python,从JavaScript网站抓取数据

时间:2018-07-20 07:20:29

标签: javascript python web screen-scraping

所以,如果我可以这样称呼自己,我就是一个新的python程序员,并且我正在尝试通过“挑选新项目”过程来学习。 我现在想做的是:

例如输入一个将实时比分结果显示为http://www.livescore.com的网站。 以某种方式刮掉所有相互竞争的团队并操纵这些数据。 然后,我想构建一个使用这些数据的应用程序,以表格的形式很好地安排它们(比如说),然后每当一个团队进球时(可能是通过再次报废?),都对其进行更新。所以我想将它们投影为我自己的数据。

由于我是python的新手,所以我什至不知道这样做是否可行。 如果可以,您能帮我吗?也许可以为我指明一些方向,为我指定要阅读的python特定章节,特定模块等等?

我真的需要我能提供的任何帮助,因为我真的在这件事上迷失了。 我不知道从哪里开始。

预先感谢

1 个答案:

答案 0 :(得分:0)

对于网络抓取,我会建议使用python的常规请求库+ BeautifulSoup 库来解析HTML。这样,您可以查看网站的内容。

问题始于动态添加的数据,您可能就是这种情况。实际的实时数据可能来自站点向服务器发出的XHR请求,因此您真正感兴趣的数据就在这里。 为了获取数据,您可以尝试查看那些XHR请求,也可以尝试模仿它们。

从站点提取数据的另一个平台是 Selenium 项目。它更像是一个自动的Web浏览器,使您可以访问所有数据,甚至是动态加载的数据。

相关问题