Question

我是一个新手试图通过使用Scrapy来实现这个简单的任务到目前为止没有运气。我问你有关如何使用Scrapy或任何其他工具（使用Python）的建议。谢谢。

我想

从一个页面开始，该页面列出了姓氏以A开头的律师名称：initial_url = www.example.com/Attorneys/List.aspx?LastName=A
从LastName = A提取实际bios的链接：/ BioLinks /
访问每个/ BioLinks /以提取每位律师的学校信息。

我能够提取/ BioLinks /和学校信息，但我无法从最初的网址转到生物页面。

如果您认为这是错误的方法，那么，您将如何实现这一目标？

非常感谢。

Answer 1

我不确定我完全理解您的要求，但也许您需要获取每个生物的绝对URL并检索该页面的源代码：

import urllib2
bio_page = urllib.urlopen(bio_url).read()

然后使用正则表达式或其他解析来获得律师的法学院。