使用python从交互式网页中提取数据

时间:2015-04-23 16:54:41

标签: python charts web-crawler

我是python的新手。我刚学会了如何使用python识别网页中的网址。但是,现在我想从网页中的图表中提取数据 http://index.baidu.com/?tpl=trend&word=%D0%CB%D2%B5%D6%A4%C8%AF

我有三个问题需要我提出意见。

  1. 需要登录才能看到该网页。 (用户名:1​​8521057966; pw:saifmf)
  2. 找不到源代码中的数据(我假设是html)
  3. 如果我们可以找到图表的哪个部分,我们如何提取数据。

1 个答案:

答案 0 :(得分:0)

  1. 使用Selenium with Python bindings。我推荐这个,因为该页面使用JavaScript来完成登录。
  2. 如果信息显示在页面上,那么您也可以使用它。换句话说,如果浏览器可以看到信息(如果它正在渲染它就可以了),那么你也可以看到它。它可能在源代码中。使用Google Chrome,将鼠标悬停在您要检查的元素上,右键单击它,然后选择“检查元素”。这将提出检查员。即使源代码中没有某些内容,检查员(ctrl+shift+i)也可以看到它。
  3. 这取决于。我会先建议那么远。在检查器中找到信息后,您可以选择元素并使用selenium获取text,然后以您希望的任何形式输出(例如,构建CSV)。 This question discusses进一步从元素中获取文本。