以PDF格式提取表格数量

时间:2013-06-05 10:24:01

标签: java itext extraction

我正在尝试使用iText查找使用java的pdf文件中存在的表格数量,但如果没有成功,任何人都可以告诉我正确的查找方向。

1 个答案:

答案 0 :(得分:2)

如果您的PDF已标记,则可以检查StructTreeRoot表格结构。如果您的PDF未标记,则PDF中没有表格。您可以用肉眼看到表格,但就PDF文件而言,只有文字的行和片段,没有表格!

未标记的PDF,对其结构一无所知!从不包含StructTreeRoot的PDF中提取表格尽可能从胡萝卜汤中提取原始的全胡萝卜。如果这就是你想做的事情,那么希望我的比喻可以解释为什么你要求的东西是不可能的(这解释了为什么你找不到任何答案)。

如何确定PDF是否已标记?在Adobe Reader中打开PDF,然后单击文件>文档属性。在“属性”选项卡底部的某处,有一个条目表示标记的PDF:否标记的PDF:是