我是一个新手试图通过使用Scrapy来实现这个简单的任务到目前为止没有运气。我问你有关如何使用Scrapy或任何其他工具(使用Python)的建议。谢谢。
我想
从一个页面开始,该页面列出了姓氏以A开头的律师名称:initial_url = www.example.com/Attorneys/List.aspx?LastName=A
从LastName = A提取实际bios的链接:/ BioLinks /
访问每个/ BioLinks /以提取每位律师的学校信息。
我能够提取/ BioLinks /和学校信息,但我无法从最初的网址转到生物页面。
如果您认为这是错误的方法,那么,您将如何实现这一目标?
非常感谢。
答案 0 :(得分:0)
我不确定我完全理解您的要求,但也许您需要获取每个生物的绝对URL并检索该页面的源代码:
import urllib2
bio_page = urllib.urlopen(bio_url).read()
然后使用正则表达式或其他解析来获得律师的法学院。