我在https://app.scrapinghub.com上有一个portia项目
我要克隆此作业,唯一的区别是该作业的每个副本都应具有远程URL。我在.txt文件中有要抓取的网址列表。
以相同的方式发射“ n”个蜘蛛的图形方式确实是一项耗时的任务。
寻找一种变通方法,该解决方案可以启用URL的传递/解析,以便单个蜘蛛可以抓取文本文件中的所有900多个链接。所有这些链接都遵循相同的结构,因此当前示例可以有效地抓取每个链接,但是portia没有任何选择来编辑url或启动多个蜘蛛。我绝对不会在这里创建900+蜘蛛来单独抓取所有这些URL
我认为使用python的自定义蜘蛛实现,Beautifulsoup会更加有用。
打开所有解决方案。