从URL确定网站类型(博客与论坛与资源等)

时间:2015-02-02 19:03:56

标签: php mysql filter

我一直在寻找这个好几个小时,似乎找不到任何远近它的东西。也许,我没有正确的搜索查询,所以我想我会在这里问:

场合 我有一个mySQL数据库中大约一千个URL的列表,它们都是混合类型的站点(博客/文章,论坛,资源页面,目录等)。我想在不访问每个站点的情况下获取这些URL并确定它是什么类型的站点。有没有办法可以做到这一点?

我能想到的唯一可行的解​​决方案是搜索/ forums,/ blog或子域等常见的URL结构并以此方式进行过滤。这个问题是我将缺少很多其他潜力,并且必须手动完成它们。

是否有人有任何创意或可能的资源/脚本可以提供更多相关信息?

1 个答案:

答案 0 :(得分:0)

首先按照您的提及搜索关键字的网址。

接下来如果找不到任何内容,请使用类似strpos()的网站搜索或使用file_get_contents()轻松获取的网页内容的正则表达式进行跟进。这可能会产生一些误报,如果一个博客提到一个论坛,你可能只会搜索一组关键字,第一个结果就是那个。您可以从内容中获取更多信息,但很快就会变得复杂。

更复杂的一个示例,基于基本网址搜索管理界面,例如wordpress是www.example.com/wp-admin。

相关问题