php错误编码为utf8从pdf中提取的文本

时间:2017-06-06 11:17:46

标签: php parsing pdf text utf-8

我需要从pdf文件中提取php变量中的文本,我使用了pdf2text,但是当我尝试将字符串转换为utf-8目标时,我遇到了问题。

此外,如果有人知道删除字符串的空格和行breacks的更好方法,我将不胜感激。

这是我用过的代码:

header('Content-type: text/html; charset=utf-8');
mb_internal_encoding('UTF-8');

mb_http_output('UTF-8');

include('pdftophp.php');
$doc = new PDF2Text();
$doc->setFilename('pdf/prueba.pdf'); 
$doc->decodePDF();
$texto = $doc->output();

$resultado = "";
for ($i=0; $i < strlen($texto) ; $i++) { 
    if (substr($texto,$i,1) != " " && substr($texto,$i,1) != "\n"){
        $resultado.= substr($texto,$i,1);
    }
}

echo $resultado;

0 个答案:

没有答案