“抓取”关键字的网页/网站

时间:2010-07-14 03:33:24

标签: php ruby-on-rails perl

去年我用了一些perl编程。我写的第一件事是一个简单的脚本,它采用了一个网页,并找出了该页面上的单词或名称的次数。我称之为“爬行”是正确的吗?我想知道这是否是PHP和ROR等其他语言的本机进程。基本上我想为没有公共“API”的网站构建我自己的“API”,并且可能从另一个网站的另一个“API”动态传递关键字(仅用于阅读和组织公共数据) 。很抱歉,我的脑袋最近刚刚进入云端。

2 个答案:

答案 0 :(得分:4)

你的问题是非常棘手的,事实上很多人/公司已经做到了,但唉,你已经很久了。松散地说“爬行”通常是指使用html页面中的锚标签作为节点之间的边缘,首先在互联网上进行广度或深度搜索。

你在perl中所做的基本上只是搜索了一个html字符串。

对于你的API,我建议找一个DOM解析器,这样你就不必费心去解析html字符串以及产生的固有错误。

几年前,我不得不为马萨诸塞州的公寓价格区域生成一些数据,所以我写了一些爬行器来提取craigslist上的所有公寓列表并将它们扔到数据库中。

如果有人有兴趣我可以继续,但这超出了这个答案的范围。

哦,是的,这是在PHP ...

答案 1 :(得分:2)

如果我理解正确,您希望获取一个网址,将其传递给您的计划,并让网站抓取该网站以查找用户提供的关键字?

如果这是正确的,那么不,这不是任何语言的原生过程,你必须自己编写必要的逻辑。

每种语言/框架(请注意,ROR不是一种语言,它是基于Ruby语言的框架)有一些工具可以帮助你(例如,在Ruby中你应该看看{{3解析HTML),但你必须提供大量的逻辑。

这不是一件很难的事情,但需要花费一些时间和精力。祝你好运。