从HTML网址中提取所有href

时间:2017-06-09 06:40:58

标签: php parsing extract

我想从:

中提取所有href

https://plugins.svn.wordpress.org/

并添加到foreach循环。

我尝试使用 PHP Simple HTML DOM Parser http://simplehtmldom.sourceforge.net/

但它只是超时...... 任何帮助,将不胜感激。 这是我的代码:

// Create DOM from URL or file
$html = file_get_html('https://plugins.svn.wordpress.org/');

// Find all links 
foreach($html->find('a') as $element) 
       echo $element->href . '<br>'; 

或 使用面向对象方式:

// Create a DOM object
$html = new simple_html_dom();

// Load HTML from a URL 
$html->load_file('https://plugins.svn.wordpress.org/');

// Find all links 
foreach($html->find('a') as $element) 
       echo $element->href . '<br>'; 

1 个答案:

答案 0 :(得分:1)

解决了您的问题,请使用此代码将更好地帮助您

<?php
$html = file_get_contents('http://niraj140792.wordpress.com/');
//Create a new DOM document
$dom = new DOMDocument;

@$dom->loadHTML($html);

$links = $dom->getElementsByTagName('a');

foreach ($links as $link){
    //Extract and show the "href" attribute.
    echo $link->nodeValue;
    echo $link->getAttribute('href'), '<br>';
}
?>