PHP:从网站提取HTML数据

时间:2013-02-27 07:32:32

标签: php web-scraping

我想从网站

中提取NAME,ADDRESS和EMAIL

http://agentquery.com/agent.aspx?agentid=13

如何使用PHP中的file_get_contents()

执行此操作

例如

$abc = file_get_content("http://agentquery.com/agent.aspx?agentid=13");

现在我如何从中提取NAME,EMAIL和ADDRESS?

2 个答案:

答案 0 :(得分:8)

这可以通过file_get_contents()和一些正则表达式处理来完成。您必须确保在PHP.ini中启用了fopen URL wrappers

您需要抓取页面,然后找到要解析的唯一字符串。这是为了得到这个名字:

<?php

$page = file_get_contents('http://agentquery.com/agent.aspx?agentid=13');

// name will be inside a span ctl00_Agent1_lblName, store it in $agent_name
preg_match("/<span id=\"ctl00_Agent1_lblName\".*span>/", $page, $agent_name);

// display agent name matches
print_r($agent_name);

答案 1 :(得分:1)

使用简单的html dom类非常简单,如果你知道css,jQuery中的选择器,你就可以得到所需的值

http://simplehtmldom.sourceforge.net/