Question

我有两个文件名相同的PDF文件夹。我想迭代第一个文件夹，获取文件名的前3个字符，使其成为“当前”页面名称，然后使用该值从两个文件夹中获取2个相应的PDF，合并它们，并将它们写入第三个文件夹中。

下面的脚本按照第一次迭代的预期工作，但之后，后续合并的PDF包含所有以前的版本（在8次迭代中快速膨胀到72页）。

其中一些可能是由于代码不好，但我无法弄清楚它在哪里，或者如何清除可能导致每次迭代只写2页的输入/输出：

import os
from PyPDF2 import PdfFileMerger
merger = PdfFileMerger()

rootdir = 'D:/Python/Scatterplots/BoundaryEnrollmentPatternMap'

for subdir, dirs, files in os.walk(rootdir):
    for currentPDF in files:
        #print os.path.join(file[0:3])
        pagename = os.path.join(currentPDF[0:3])
        print "pagename is: " + pagename
        print "File is: " + pagename + ".pdf"
        input1temp = 'D:/Python/Scatterplots/BoundaryEnrollmentPatternMap/' + pagename + '.pdf'
        input2temp = 'D:/Python/Scatterplots/TraditionalScatter/' + pagename + '.pdf'
        input1 = open(input1temp, "rb")
        input2 = open(input2temp, "rb")
        merger.append(fileobj=input1, pages=(0,1))
        merger.append(fileobj=input2, pages=(0,1))
        outputfile = 'D:/Python/Scatterplots/CombinedMaps/Sch_' + pagename + '.pdf'

        print merger.inputs

        output = open(outputfile, "wb")
        merger.write(output)
        output.close()

        #clear all inputs - necessary?
        outputfile = []
        output = []
        merger.inputs = []
        input1temp = []
        input2temp = []
        input1 = []
        input2 = []

print "done"

我的代码/工作基于此示例：

https://github.com/mstamy2/PyPDF2/blob/master/Sample_Code/basic_merging.py

Answer 1

我认为错误是merger在循环之前被初始化并且它累积了所有文档。尝试将行merger = PdfFileMerger()移动到循环体中。 merger.inputs = []在这种情况下似乎没有帮助。

您的代码有一些注意事项：

input1 = []未关闭文件。它将导致许多文件，由程序打开。您应该拨打input1.close()。
[]表示一个空数组。如果变量不应包含任何有意义的值，最好使用None。
要删除变量（例如output），请使用del output。
毕竟，不需要清除所有变量。他们将被垃圾收集器释放。
使用os.path.join创建input1temp和input2temp。

将PDF与PyPDF2合并为基于文件迭代器的输入

1 个答案: