一个简单的蜘蛛问题

时间:2009-11-27 21:14:51

标签: python web-crawler

我是一个新手试图通过使用Scrapy来实现这个简单的任务到目前为止没有运气。我问你有关如何使用Scrapy或任何其他工具(使用Python)的建议。谢谢。

我想

  1. 从一个页面开始,该页面列出了姓氏以A开头的律师名称:initial_url = www.example.com/Attorneys/List.aspx?LastName=A

  2. 从LastName = A提取实际bios的链接:/ BioLinks /

  3. 访问每个/ BioLinks /以提取每位律师的学校信息。

  4. 我能够提取/ BioLinks /和学校信息,但我无法从最初的网址转到生物页面。

    如果您认为这是错误的方法,那么,您将如何实现这一目标?

    非常感谢。

1 个答案:

答案 0 :(得分:0)

我不确定我完全理解您的要求,但也许您需要获取每个生物的绝对URL并检索该页面的源代码:

import urllib2
bio_page = urllib.urlopen(bio_url).read()

然后使用正则表达式或其他解析来获得律师的法学院。