如何使用Portia从同一文件中抓取多个样本?

时间:2018-09-22 10:36:51

标签: python url web-scraping portia

我在https://app.scrapinghub.com上有一个portia项目

我要克隆此作业,唯一的区别是该作业的每个副本都应具有远程URL。我在.txt文件中有要抓取的网址列表。

以相同的方式发射“ n”个蜘蛛的图形方式确实是一项耗时的任务。

寻找一种变通方法,该解决方案可以启用URL的传递/解析,以便单个蜘蛛可以抓取文本文件中的所有900多个链接。所有这些链接都遵循相同的结构,因此当前示例可以有效地抓取每个链接,但是portia没有任何选择来编辑url或启动多个蜘蛛。我绝对不会在这里创建900+蜘蛛来单独抓取所有这些URL

我认为使用python的自定义蜘蛛实现,Beautifulsoup会更加有用。

打开所有解决方案。

0 个答案:

没有答案
相关问题