如何同时解析多个网站?

时间:2017-01-04 12:25:01

标签: python python-3.x html-parsing spyder

使用Python3,我希望从超过4000个网页的源代码中收集特定数据,并将其导出为csv格式文件。

目前正在使用:urllib.request.urlopen(url).read().decode("utf-8")以及.split()函数以及DataFrame。

  • 我在Spyder上运行了6个内核,同时使用不同的url集来提高速度。这有用吗?
  • 可以使用多处理工作吗?也许一次执行100个源代码获取作业(原谅缺乏更好的术语)。由于网站上创建的流量,这会产生问题吗?
  • 我被告知TCP握手时间可能是这种情况下的瓶颈。有没有相同的解决方法?

使用Python实现此目的的其他好/更好的方法是什么? 我目前估计完成的时间大约是60个小时,只运行单个内核。

0 个答案:

没有答案
相关问题