提取文本并保留格式

时间:2011-05-27 08:50:04

标签: c# itextsharp

是否可以选择使用ITextSharp库从PDF文档中提取文本,并保留格式,例如。新行和制表符。

3 个答案:

答案 0 :(得分:2)

当提取文本时,标签字符将会出现,假设它们实际上是制表符。我不相信可以在不手动跟踪当前文本坐标的情况下确定新行字符。 可能能够计算TdBT之间ET令牌的数量并减去1,但这只是猜测。

修改

没关注令牌,我认为那只用于线路重新调整(新线路),但我错了。

答案 1 :(得分:1)

我建议您根据TextExtractionStrategy编写自己的LocationTextExtractionStrategy

您需要跟踪基线的位置以确定换行符。

实际上,LocationTextExtractionStrategy可能会为您添加换行符。无论哪种方式,这都是你需要开始的地方。

答案 2 :(得分:0)

事实证明格式化“\r\n”确实通过以编程方式从SQL Server表中获取值并调用Console.writeline()来进行验证。最初我是直接从SQL Server Management studio复制值并粘贴到文本文件中 - 这肯定不是正确的验证方式。