从PDF文档中提取文本 - C#

时间:2010-02-19 15:04:14

标签: .net asp.net pdf

是否有可靠的方法从PDF中提取文本?首先想到的是PDF可能有多列,提取机制需要以某种方式知道逻辑结构。我知道有些PDF文档被“标记”但我需要支持几乎任何PDF文档。

这里有救援的第三方组件吗?

2 个答案:

答案 0 :(得分:5)

答案 1 :(得分:2)

有些PDF是扫描,因此需要OCR(不容易,至少可以说)。

有些PDF是压缩的,有些(很少见)是裸PDF。

PDF文件格式本身已有详细记录,但是当从简单的单列文档中提取正确的“结构”时,您需要一个很高的订单。 PDF在内部表示如果每行文本都以绝对定位位于DIV中,HTML的外观如何。