无法访问真实的页面源代码

时间:2013-05-10 14:03:17

标签: python web-scraping

这不是关于javascript修改页面源的某些部分的标准问题之一,这些部分在右键单击>之后变为隐藏状态查看页面来源。我的问题不同。

实际上,当我右键单击>时,我能够看到整个HTML代码。查看页面源但是当我尝试通过BeautifulSoup,xml.parser读取此URL时,甚至用机械化打开它,此时页面变得有点不同,并且缺少重要内容。

我能找到这个真正的HTML代码的唯一方法是手动复制/整理整个内容并保存为文件。当我使用python自动执行时,内容也会发生变化。

本质上该网站是html,但也看到了一些javascript,flash和ajax代码。

你们有什么想法可以做些什么吗?我知道在没有真正看到源代码的情况下可能很难弄清楚,但我想我最好不要发布我正在抓取的页面网址。

1 个答案:

答案 0 :(得分:1)

这通常是由于页面因为不同的Referrer或UserAgent标头而向您发送不同的响应。

尝试通过将标头设置为Firefox来设置用户代理,例如

user_agent = "Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1"
headers = { 'User-Agent' : user_agent }