Question

我有一个XML Feed，其中包含以下网址，其中包含要检索的行程ID。

http://www.expeditiontrips.com/xml/triplist.xml

根据每次旅行，可以从以下URL中检索信息，其中ID成为XML名称

http://www.expeditiontrips.com/xml/trips/3481.xml

现在，如果您查看http://www.expeditiontrips.com/xml/trips/3481.xml链接，您可以看到添加节点下添加了一个名为＆＃34; JRO Teaser＆＃34;的标签。我需要做的是解析这两个文件，并显示有这个＆＃34; JRO Teaser＆＃34;标签。包括此次增加的旅行是折扣旅行。我编写了一个代码，它可以检索列表，但问题是因为第一个XML文件中有518个节点，它需要花费5分钟来加载页面。换句话说，由于大号没有，它花费了太多时间来显示结果。旅行。有人可以为我提供一种正确显示这一点的方法，而无需太多的加载时间。以下是我的代码。

    <?php 
        $ch = curl_init('http://www.expeditiontrips.com/xml/triplist.xml');
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
        $xml_raw = curl_exec($ch);
        curl_close($ch);

        $trips = simplexml_load_string($xml_raw);

        $total = count($trips);

        for($a=0; $a<=$total; ++$a) { 

            $ch = curl_init('http://www.expeditiontrips.com/xml/trips/' . $trips->trip[$a] . '.xml');
            curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
            $xml_raw = curl_exec($ch);
            curl_close($ch);

            $info = simplexml_load_string($xml_raw);

            //print_r($info);

            $name = 'JRO Teaser';

            $tripss = $info->xpath("/trip/additions/addition/label");

            if($tripss[1] == 'JRO Teaser') {

                echo $info->code; 

            } 

        }       
    ?>

Answer 1

您正在尝试处理平均大小为18-25KB的500多个xml文档对我来说，每篇文档需要0.5-1秒。

如果您的业务逻辑允许，我建议您在页面加载之外执行此操作，例如在cron作业中，每30分钟或1小时执行此操作，并将结果保存在服务器上的数据库甚至文本文件中。 / p>

你可以在更高的频率下进行，具体取决于你所追求的，例如。跳过已经处理过的id或类似注释中的内容。

在实际页面加载时，只需查询存储空间，平面文件或数据库。

稍微改变了你的代码：

$trips = simplexml_load_file('http://www.expeditiontrips.com/xml/triplist.xml');

foreach ($trips as $tripId) {

    $info = simplexml_load_file('http://www.expeditiontrips.com/xml/trips/' . $tripId .'.xml');

    $name = 'JRO Teaser';

    foreach ($info->additions->addition as $add)
        if ($add->label==$name) $codes[] = (string)$info->code;

}

// process the $codes array, save to text file or database
// saveCodes($codes);
print_r($codes);

Answer 2

当然，你可以通过向它投掷机器电源来解决这个问题 - 或者只是要求解析正确的文档。

JRO很可能代表刚刚发布的优惠。您可以通过将HTML文档加载到 DOMDocument 并使用一些xpath来获取这些列表：

$doc = new DOMDocument();
$saved = libxml_use_internal_errors(true);
$doc->loadHTML($buffer);
libxml_use_internal_errors($saved);
$doc->formatOutput = true;
$doc->preserveWhiteSpace = false;

$xpath = new DOMXPath($doc);
$ids = $xpath->query('//section/article[@class="sr search_result"]//input[@class="tc"]/@value');
foreach ($ids as $id) {
    echo $id->nodeValue, "\n";
}

因此，不是查询您自己的所有文档，而是查询已经为您查询的网站。

缓存规则仍适用于此处。这有助于像你一样开发这种刮刀。

$url = 'http://www.expeditiontrips.com/jro-list/?region=all&pricerange=special';
$key = 'scratch_3_' . md5($url);
if (file_exists($key)) {
    $buffer = file_get_contents($key);
} else {
    $buffer = file_get_contents($url);
    file_put_contents($key, $buffer);
}

输出：

解析具有大量节点的XML文件

2 个答案: