从NHL.com刮取数据

时间:2011-11-16 18:50:23

标签: php screen-scraping

我试图从http://www.nhl.com/ice/standings.htm?season=20112012&type=LEA抓取表格,并将其存储到我服务器上的MySQL数据库中。使用下面的内容,我可以完全复制网站,但我不确定如何提取该表格。代码如下:

有什么想法吗?

function get_data($url)
{
  $ch = curl_init();
  $timeout = 5;
  curl_setopt($ch,CURLOPT_URL,$url);
  curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
  curl_setopt($ch,CURLOPT_CONNECTTIMEOUT,$timeout);
  $data = curl_exec($ch);
  curl_close($ch);
  return $data;
}

$returned_content = get_data('http://www.nhl.com/ice/standings.htm?season=20112012&type=LEA');

echo $returned_content;

更新

$html = file_get_html('http://www.nhl.com/ice/standings.htm?season=20112012&type=LEA');
    $e = $html->find("table", 2);

    echo($e);

此代码有效,发布类似我需要的表格。但是现在我很好奇我将如何剥离所有不必要的链接/格式并将其保存到数据库中?

2 个答案:

答案 0 :(得分:0)

答案 1 :(得分:0)

在谷歌电子表格中,今年我所有的importhtml函数都无法运行到nhl.com。我认为他们(由于某种原因)阻止用户抓取他们的数据。

相关问题