如何卷曲或忘记网页?

时间:2008-08-05 20:38:59

标签: http curl

我想做一个夜间的cron作业,它取出我的stackoverflow页面,并从前一天的页面中区分出来,所以我可以看到我的问题,答案,排名等的变更摘要。

不幸的是,我无法获得正确的Cookie等,以使其成功。有什么想法吗?

此外,当测试版完成后,我的状态页面是否可以在不登录的情况下访问?

5 个答案:

答案 0 :(得分:9)

您的状态页现在无需登录即可使用(点击logout然后尝试)。禁用beta-cookie后,您和状态页之间将没有任何内容。

对于wget:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html

答案 1 :(得分:6)

来自Mark Harrison

  

这是有效的......

     

curl -s --cookie soba =。 https://stackoverflow.com/users

对于wget:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html

答案 2 :(得分:3)

好主意:))

我认为你已经使用了wget的

--load-cookies (filename)

可能会有所帮助,但可能更容易使用像Mechanize(在Perl或python中)这样的东西来更充分地模仿浏览器来获得一个好的蜘蛛。

答案 3 :(得分:2)

我无法弄清楚如何让cookie工作,但是当我退出时,我能够在浏览器中进入我的状态页面,所以我认为一旦stackoverflow上线,这将会有效。

这是一个有趣的想法,但是你也不会选择底层html代码的差异吗?你有策略避免结束html的差异而不是实际的内容吗?

答案 4 :(得分:2)

这是有效的......

curl -s --cookie soba=. http://stackoverflow.com/users