(以编程方式)比较PDF的可靠方法?

时间:2010-09-30 21:18:30

标签: c# language-agnostic pdf file-comparison

  

可能重复:
  Tool to compare large numbers of PDF files?

我处于经典场景中,业务为您提供了一堆新的 pdf表单,没有任何修订说明,您应该弄清楚与前一年有什么不同

我在这里谈论大量的表单,所以我试图找到一种方法来比较PDF以概述差异,而无需人们手动遍历每一个。

我的想法是从PDF中提取所有文本并将其转储到.txt中,然后在文本文件上运行差异,但这听起来很糟糕。

我的问题以编程方式说,但我对任何用于比较PDF的可靠工具感到满意,并且主要是希望从人们的经验中获得一个想法。也愿意接受任何程序化解决方案(最好是在C#中,但请发现任何想法)。

4 个答案:

答案 0 :(得分:8)

有不少软件产品声称要分享pdf。我从来没有需要使用过,但如果这是一个反复出现的过程,我认为贵公司投资其中一个是明智之举。只是谷歌“pdf diff”为一堆潜在的应用程序。

此外,您的情况与此问题非常相似:Tool to compare large numbers of PDF files?我认为其讨论可能有所帮助。

答案 1 :(得分:7)

我是Docotic.Pdf Library的开发人员。我们在单元测试中使用PDF比较来检查测试是否按预期生成PDF。 PDF是特殊对象的集合,我们比较所有PDF对象,忽略一些属性,如预告片ID和创建者信息。这个实现工作正常。

您可以尝试PdfDocument.DocumentsAreEqual方法。这种方法只是告诉你文件是平等的,没有具体的差异。如果您需要更多功能,可以与我们联系。

答案 2 :(得分:4)

我采用的方法是从PDF中获取原始数据,然后使用Word或TortiseSVN或WinMerge等来处理比较文件。在我的实例中,我在C#中的RichTextBox中进行了比较...着色差异等...因为我们想要在我们的应用程序中完成所有这些。

这是我做的...... PDF comparison因为我试图比较混合文档,Word和PDF。

但是我会推荐使用PDFBox进行解析,更优雅一点......虽然iTextSharp确定没问题......

答案 3 :(得分:2)

我写了一篇博客,建议在https://blog.idrsolutions.com/2010/09/comparing-2-pdf-files/

比较PDF文件的一些方法