Question

这不是关于javascript修改页面源的某些部分的标准问题之一，这些部分在右键单击＆gt;之后变为隐藏状态查看页面来源。我的问题不同。

实际上，当我右键单击＆gt;时，我能够看到整个HTML代码。查看页面源但是当我尝试通过BeautifulSoup，xml.parser读取此URL时，甚至用机械化打开它，此时页面变得有点不同，并且缺少重要内容。

我能找到这个真正的HTML代码的唯一方法是手动复制/整理整个内容并保存为文件。当我使用python自动执行时，内容也会发生变化。

本质上该网站是html，但也看到了一些javascript，flash和ajax代码。

你们有什么想法可以做些什么吗？我知道在没有真正看到源代码的情况下可能很难弄清楚，但我想我最好不要发布我正在抓取的页面网址。

Answer 1

这通常是由于页面因为不同的Referrer或UserAgent标头而向您发送不同的响应。

尝试通过将标头设置为Firefox来设置用户代理，例如

user_agent = "Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1"
headers = { 'User-Agent' : user_agent }