使用PHP检查网站链接

时间:2012-05-06 16:09:22

标签: php url web-crawler

我正在我的网站上构建一个脚本,但发现自己有点困惑如何使用最少的编码来使其工作良好。

基本上所需要的只是我可以输入一个网址,例如domain.com,它应该扫描该主页以查找指向我的域的链接,并检查并查看是否已分配rel =“nofollow”如果链接在没有rel =“nofollow”的情况下返回true,如果没有链接,或者在其上有rel =“nofollow”的链接,则返回false。

我将如何解决这个问题,或者我将从哪里开始。

我已经用谷歌搜索了如何创建一个蜘蛛,但它对于我想要创建的基本脚本的信息和复杂程度都很高!

2 个答案:

答案 0 :(得分:1)

你要求的并不像你想象的那么简单。要正确执行此操作,您需要使用DOM解析器,例如DOMDocument

http://www.php.net/manual/en/class.domdocument.php

您可以使用其loadHTML()方法来解析要扫描的网页。在那里,您可以使用其各种功能查找您要查找的特定链接,并检查其属性以确保网址正确,并且您的rel="nofollow"就在那里。

我向您保证,最终,这比仅搜索您的网址更容易。走盲道搜索道路会导致你得到不准确的结果,而且会比你意识到的更麻烦。

答案 1 :(得分:0)

看看http://simplehtmldom.sourceforge.net/.

// Create DOM from URL or file
$html = file_get_html('http://www.google.com/');
// Find all links 
foreach($html->find('a') as $element) 
       echo $element->href . '<br>';
相关问题