读取文件夹中的多个csv文件

时间:2014-03-04 07:55:36

标签: php csv directory dir

我需要帮助^^ 我需要的是脚本,它将打开并读取文件夹'csv / files'中的所有.csv文件,然后在“if”中执行该操作。好吧,当我只有一个文件时它工作正常。我设法构建了一些不起作用的脚本,但没有出现“错误行”... 那么有人可以看看我的代码并告诉我我做错了什么吗?

<?php 
foreach (glob("*.csv") as $filename) {
    echo $filename."<br />";

    if (($handle = fopen($filename, "r")) !== FALSE) {
        while (($data = fgetcsv($handle, 1000, ";")) !== FALSE) {
            $url = $data[0];
            $path = $data[1];

            $ch = curl_init($url);
            $fp = fopen($path, 'wb');
            curl_setopt($ch, CURLOPT_FILE, $fp);
            curl_setopt($ch, CURLOPT_HEADER, 0);
            curl_exec($ch);
            curl_close($ch);
            fclose($fp);

        }
        fclose($handle);
    }
}
?>

1 个答案:

答案 0 :(得分:2)

这是多线程的主要候选者,这里有一些代码:

<?php
class WebWorker extends Worker {
    public function run() {}
}

class WebTask extends Stackable {

    public function __construct($input, $output) {
        $this->input  = $input;
        $this->output = $output;
        $this->copied = 0;
    }

    public function run() {
        $data = file_get_contents($this->input);
        if ($data) {
            file_put_contents(
                $this->output, $data);
            $this->copied = strlen($data);
        }
    }

    public $input;
    public $output;
    public $copied;
}

class WebPool {
    public function __construct($max) {
        $this->max = $max;
        $this->workers = [];
    }

    public function submit(WebTask $task) {
        $random = rand(0, $this->max);

        if (isset($this->workers[$random])) {
            return $this->workers[$random]
                ->stack($task);
        } else {
            $this->workers[$random] = new WebWorker();
            $this->workers[$random]
                ->start();
            return $this->workers[$random]
                ->stack($task);
        }
    }

    public function shutdown() {
        foreach ($this->workers as $worker)
            $worker->shutdown();
    }

    protected $max;
    protected $workers;
}

$pool = new WebPool(8);
$work = [];
$start = microtime(true);

foreach (glob("csv/*.csv") as $file) {
    $file = fopen($file, "r");

    if ($file) {
        while (($line = fgetcsv($file, 0, ";"))) {
            $wid = count($work);
            $work[$wid] = new WebTask(
                $line[0], $line[1]);
            $pool->submit($work[$wid]);
        }
    }
}

$pool->shutdown();
$runtime = microtime(true) - $start;

$total = 0;
foreach ($work as $job) {
    printf(
        "[%s] %s -> %s %.3f kB\n", 
        $job->copied ? "OK" : "FAIL",
        $job->input, 
        $job->output, 
        $job->copied/1024);
    $total += $job->copied;
}
printf( 
    "[TOTAL] %.3f kB in %.3f seconds\n", 
    $total/1024, $runtime);
?>

这将创建一个最大数量的池化线程,然后它将读取一个分号分隔的csv文件目录,其中每行输入;输出,然后它将提交任务以读取输入并异步写入输出到主池执行时,主线程继续读取csv文件。

我使用了最简单的输入/输出file_get_contentsfile_put_contents,以便您可以在没有cURL的情况下查看其工作原理。

当任务提交到池中时选择的工作是随机的,这可能是不可取的,可以检测工作者是否正忙,但这会使示例复杂化。

进一步阅读: