我当前正在使用Selenium打开并检索URL列表的页面源。但是,Selenium对于每个URL花费的时间太长,我计划将此脚本用于(至少)数百个URL。谁能建议一种更快的方法来获取给定网址的页面源(也许使用php?)?
请附上您的建议代码。预先感谢。
browser.get(url)
body = browser.page_source
答案 0 :(得分:0)
我是菜鸟。
但是我认为请求可能会更快,随后是无头浏览器(Selenium,但未打开GUI),然后是常规Selenium。我基于每种方法可能使用的资源进行思考。
不幸的是,我找不到任何文章来说明这两种方法之间的差异,但以下文章似乎涵盖了chrome无头浏览器:https://intoli.com/blog/running-selenium-with-headless-chrome/