Mac OS X上的屏幕抓取帮助

时间:2012-08-16 02:53:42

标签: macos screen-scraping web-scraping

我有兴趣了解有关Mac OS X中屏幕抓取的更多信息。

基本上,我考虑的原因是有一个喜剧演员有一个非常有趣的虚假推特账户,阅读所有过去推文的唯一方法是通过我找到的存档网站。网站的设置方式是它是一个主页面,过去两年每天都有一个链接(只是在页面上运行的基本锚标签)。这是一个非常简单的网站,我想如果我能够抓取数据并将其放入文件中,我可以在一个地方读取所有内容,而不是点击数百个链接。

我基本上以此为借口来学习这种编码方法。

我用谷歌搜索,似乎找不到多少。我对PHP代码有点了解(我在PHP方面不错),但不确定是否可以从页面上的链接中抓取数据。从单个屏幕上刮下来似乎相对容易。

我的另一个问题是你如何运行代码?我见过几个适用于Windows和Linux的程序,但我还没有使用Mac OS X(我使用的是操作系统10.8)。

有人能指出我正确的方向吗?谢谢!

1 个答案:

答案 0 :(得分:1)

将此项目视为学习python的借口。它很快就能快速掌握,并且有很多很棒的软件包可以处理你能想到的几乎所有东西,包括这个。

几个星期前我收到了这个书签:

http://jeanphix.me/Ghost.py/

它是一个python webkit客户端 - 您基本上可以通过几行代码从页面中提取任何内容。

相关问题