如何将网页保存到磁盘以便以后使用拆分库进行抓取?

时间:2014-07-30 14:30:17

标签: python web-scraping splinter

我有以下python代码使用splinter库搜索网站中的特定术语:

from splinter import Browser
browser = Browser()

browser.visit("http://decs.bvs.br/cgi-bin/wxis1660.exe/decsserver/?IsisScript=../cgi-bin/decsserver/decsserver.xis&interface_language=p&previous_page=homepage&previous_task=NULL&task=start")
browser.choose('search_language','p')
browser.fill('search_exp','costas')
element = browser.find_by_name("consult_button")
element.click()

并且它有效,firefox页面打开包含结果的页面。但是,我还没有找到一种方法将这些结果作为html文件保存到orde的磁盘中,以便将它们用于术语。如何使用splinter将网页保存到磁盘?

提前致谢

1 个答案:

答案 0 :(得分:2)

您可以打开一个文件进行编写,并将browser.html写入其中:

with open('output.html', 'w') as f:
    f.write(browser.html.encode('utf-8'))

请注意,我没有看到为什么需要保存html以进行后期抓取的正当理由。 splinter(就像selenium)在定位元素方面是强大的。该库不仅可用于程序化网页浏览,还可以导航,搜索,提取等。请参阅Finding elements