php - “抓取”关键字的网页/网站

“抓取”关键字的网页/网站

时间：2010-07-14 03:33:24

标签： php ruby-on-rails perl

去年我用了一些perl编程。我写的第一件事是一个简单的脚本，它采用了一个网页，并找出了该页面上的单词或名称的次数。我称之为“爬行”是正确的吗？我想知道这是否是PHP和ROR等其他语言的本机进程。基本上我想为没有公共“API”的网站构建我自己的“API”，并且可能从另一个网站的另一个“API”动态传递关键字（仅用于阅读和组织公共数据）。很抱歉，我的脑袋最近刚刚进入云端。

2 个答案:

答案 0 :(得分：4)

你的问题是非常棘手的，事实上很多人/公司已经做到了，但唉，你已经很久了。松散地说“爬行”通常是指使用html页面中的锚标签作为节点之间的边缘，首先在互联网上进行广度或深度搜索。

你在perl中所做的基本上只是搜索了一个html字符串。

对于你的API，我建议找一个DOM解析器，这样你就不必费心去解析html字符串以及产生的固有错误。

几年前，我不得不为马萨诸塞州的公寓价格区域生成一些数据，所以我写了一些爬行器来提取craigslist上的所有公寓列表并将它们扔到数据库中。

如果有人有兴趣我可以继续，但这超出了这个答案的范围。

哦，是的，这是在PHP ...

答案 1 :(得分：2)

如果我理解正确，您希望获取一个网址，将其传递给您的计划，并让网站抓取该网站以查找用户提供的关键字？

如果这是正确的，那么不，这不是任何语言的原生过程，你必须自己编写必要的逻辑。

每种语言/框架（请注意，ROR不是一种语言，它是基于Ruby语言的框架）有一些工具可以帮助你（例如，在Ruby中你应该看看{{3解析HTML），但你必须提供大量的逻辑。

这不是一件很难的事情，但需要花费一些时间和精力。祝你好运。