itext - 获取PDF页面标题

PDF中的页面没有标题，它们只有粗体或大字体的文本，并且出现在您认为比其他文本更“顶部”的区域中。听起来你已经知道了，我只需要清楚这一点。

请参阅my post here，其中显示了如何通过继承ITextExtractionStrategy来获取字体信息。我的样本目标是iTextSharp，这是iText的.Net端口，但它们匹配功能相当多的功能。最大的区别是Java使用getXXX和setXXX，而.Net只使用XXX。否则一切都应该正常。

故事的寓意是，你必须编写一些任意规则来定义你所认为的“标题”，然后根据这些规则进行解析。

获取PDF页面标题

1 个答案: