用PHP读取大JSON文件

时间:2018-09-18 22:50:56

标签: php python

我读过某个地方,我应该使用库salsify/jsonstreamingparser打开一个大的json文件,但这给了我与json_decode相同的错误:

PHP Fatal error:  Allowed memory size of 134217728 bytes exhausted (tried to allocate 20480 bytes) in /data/www/default/database/vendor/salsify/json-streaming-parser/src/Listener/InMemoryListener.php on line 92

我必须在php中完成此操作,因为我正在使用没有python的免费托管。

基本上我想做的是下载一个大的json文件,将其解压缩并处理内容。我不知道为什么在php中我一整天都做不到,但是在python中我却在5分钟内做到了:

import os
import json
import urllib
import zipfile

json_file = 'AllSets-x.json'
zip_file = json_file + '.zip'
urllib.urlretrieve ("https://mtgjson.com/json/" + zip_file, zip_file)

dir_path = os.path.dirname(os.path.realpath(__file__))
zip_ref = zipfile.ZipFile(dir_path + "/" + zip_file, 'r')
zip_ref.extractall(dir_path)
zip_ref.close()

json_data = json.load(open(json_file, 'r'))
print json_data.keys()[0]

这就是我在php中所拥有的:

<?php
require_once __DIR__ . '/vendor/autoload.php';
include "../credentials.php";

error_reporting(E_ALL); # Reports all errors
ini_set('display_errors','Off'); # Do not display errors for the end-users (security issue)
ini_set('error_log','/tmp/php-errors.log'); # Set a logging file

// Override the default error handler behavior
set_exception_handler(function($exception) {
   $logger->error($exception);
   echo "Something went wrong!";
});

$logger = new Monolog\Logger('channel-name');
$logger->pushHandler(new Monolog\Handler\StreamHandler('/tmp/php-errors.log', Monolog\Logger::DEBUG));

$logger->info("Parsing json file");
$listener = new \JsonStreamingParser\Listener\InMemoryListener();

$json_file = __DIR__ . "/AllSets-x.json";
$stream = fopen($json_file, 'r');
try {
    $parser = new \JsonStreamingParser\Parser($stream, $listener);
    $parser->parse();
    fclose($json_file);
} catch (Exception $e) {
    fclose($json_file);
    throw $e;
}

$logger->info("Json file parsed");
$json_data = $listener->getJson();
$logger->info("Displaying json data");
var_dump($json_data);

1 个答案:

答案 0 :(得分:0)

使用InMemoryListener肯定会破坏流解析器的目的。那样只会将所有内容解压缩到内存中(可能在内存方面比普通的json_decode更差)。

如果要在这样的约束下工作,则需要分别捕获每个JSON对象块。

有些SimpleObjectQueueListener可能符合要求。如果特定的JSON有一堆[{…}, {…}, {…}]对象要处理:

$listener = new \JsonStreamingParser\Listener\SimpleObjectQueueListener("print_r", 0);
// would just print out each object block from the JSON stream

很明显,您将使用类似“ process_my_json_blobs”的回调。 (或者像[$pdo, "execute"]这样的准备好的回调。)


顺便说一句,读取整个JSON输入仅适用于本地Python,因为通常的PHP设置通常没有memory_limit。 (Python最多依赖于系统ulimit。)