如何以编程方式验证PDF文件是第一代的?

时间:2011-07-26 21:41:29

标签: pdf verification

我正在开展涉及Fannie Mae / Freddie Mac制服评估数据集的项目。 specification要求嵌入式评估PDF文件是第一代。

我从概念上理解第一代PDF文件是什么(将文档直接打印到PDF,而不是扫描副本或打印和扫描副本)。但是,我做了一些研究,但没有发现任何指定可以通过编程方式验证的第一代PDF属性的内容。

我找到了一个产品,可以让我们检查PDF是否包含文字,图片或两者:Apose.Pdf.Kit for .NET,但我正在寻找一种方法来自行编程,出于预算和其他原因。此外,我不确定确定文件包含文本将足以验证它是第一代。

鉴于这是一个非常大的行业的行业要求,我觉得有人必须已经解决了这个问题,但我很难找到任何东西。

提前感谢您的帮助。

2 个答案:

答案 0 :(得分:2)

无法确定PDF是否是“第一代”。从技术上讲,扫描的PDF只是一个包含图像的PDF,也可能是OCR的文本。 “第一代”PDF可以很容易地具有相同的特征,因此您必须使用一些启发式方法。

例如,可能会扫描仅包含图像和不可见文本(来自OCR)的PDF,具有可见文本或矢量图形的PDF可能是“第一代”(扫描PDF的OCR通过​​覆盖不可见文本来工作)在原始图像的顶部,以便文本选择有效,但原始文档的保真度得以保留。)

答案 1 :(得分:0)

在Appraisal中打开pdf,ctrl“f”类型。如果你有这个词的命中,你有第一代apprsl。相反,存在数据集。

相关问题