使用itextsharp 4.1.6解析PDF文档 - 不可读的字符串

时间:2013-01-24 19:35:29

标签: itextsharp

我正在构建一些东西来提取PDF数据(不仅是文本,还有位置),我想出了一个在acrobat reader中打开时有大量文本的文档,但当我尝试使用tokeniser解析它时,我我越来越低而不是正确的字符串:

TK_START_ARRAY:
TK_STRING:   
TK_END_ARRAY:

我认为它是编码或hexwriting,但我不知道如何让它可读。有人可以帮忙吗?

这是此文件包含的另一个示例:

TK_NUMBER:1
TK_NUMBER:0
TK_NUMBER:0
TK_NUMBER:-1
TK_NUMBER:18
TK_NUMBER:9.98
TK_OTHER:Tm
TK_START_ARRAY:
TK_STRING: % & '
TK_STRING: 
TK_STRING: ( ' ) *
TK_STRING: 
TK_STRING: + , - .
TK_STRING: 
TK_STRING: , / /
TK_STRING: 
TK_STRING: 0 . 1 ' 2 0 . 3
TK_STRING: 
TK_STRING: * 0 , - . /
TK_STRING: 
TK_STRING: 3 & 4 ' ( . 5 * )
TK_STRING: 
TK_STRING: 6 2 * +
TK_STRING: 
TK_STRING: 7 & '
TK_END_ARRAY:
TK_OTHER:TJ

0 个答案:

没有答案
相关问题