获取PDF页面标题

时间:2011-12-22 13:39:12

标签: itext

是否可以通过iText获取网页标题?

  • PdfTextExtractor会返回页面中的所有文字,但我不知道标题是哪一行。此外,标题可能包含多行
  • 我不知道标题的坐标因此我无法使用RegionTextRenderFilter
  • 我可以尝试分析字体大小并使用最大字体的行,但TextRenderInfo不提供对gs的公共访问(private final GraphicsState gs
  • 还有其他想法吗?

1 个答案:

答案 0 :(得分:1)

PDF中的页面没有标题,它们只有粗体或大字体的文本,并且出现在您认为比其他文本更“顶部”的区域中。听起来你已经知道了,我只需要清楚这一点。

请参阅my post here,其中显示了如何通过继承ITextExtractionStrategy来获取字体信息。我的样本目标是iTextSharp,这是iText的.Net端口,但它们匹配功能相当多的功能。最大的区别是Java使用getXXXsetXXX,而.Net只使用XXX。否则一切都应该正常。

故事的寓意是,你必须编写一些任意规则来定义你所认为的“标题”,然后根据这些规则进行解析。

相关问题