Question

我正在构建一些东西来提取PDF数据（不仅是文本，还有位置），我想出了一个在acrobat reader中打开时有大量文本的文档，但当我尝试使用tokeniser解析它时，我我越来越低而不是正确的字符串：

TK_START_ARRAY:
TK_STRING:   
TK_END_ARRAY:

我认为它是编码或hexwriting，但我不知道如何让它可读。有人可以帮忙吗？

这是此文件包含的另一个示例：

TK_NUMBER:1
TK_NUMBER:0
TK_NUMBER:0
TK_NUMBER:-1
TK_NUMBER:18
TK_NUMBER:9.98
TK_OTHER:Tm
TK_START_ARRAY:
TK_STRING: % & '
TK_STRING: 
TK_STRING: ( ' ) *
TK_STRING: 
TK_STRING: + , - .
TK_STRING: 
TK_STRING: , / /
TK_STRING: 
TK_STRING: 0 . 1 ' 2 0 . 3
TK_STRING: 
TK_STRING: * 0 , - . /
TK_STRING: 
TK_STRING: 3 & 4 ' ( . 5 * )
TK_STRING: 
TK_STRING: 6 2 * +
TK_STRING: 
TK_STRING: 7 & '
TK_END_ARRAY:
TK_OTHER:TJ

使用itextsharp 4.1.6解析PDF文档 - 不可读的字符串

0 个答案: