Question

以下代码已成功将大型PDF文件拆分为每页2页的较小PDF文件。但是，如果我查看其中一个文件，我会看到其他人的元文本。

这用于将PDF拆分为较小的：

import numpy as np
from PyPDF2 import PdfFileWriter, PdfFileReader
inputpdf = PdfFileReader(open(path+"multi.pdf", "rb"))
r=np.arange(inputpdf.numPages)
r2=[(r[i],r[i+1]) for i in range(0,len(r),2)]
for i in r2:
    output = PdfFileWriter()
    output.addPage(inputpdf.getPage(i[0]))
    output.addPage(inputpdf.getPage(i[1]))
    with open(path+"document-page %s.pdf" % i[0], "wb") as outputStream:
        output.write(outputStream)

这用于获取其中一个结果文件的元文本（PyPDF2不会读取它）：

import pdfx
path=path+'document-page 8.pdf'
pdf = pdfx.PDFx(path)
pdf.get_text()

我的问题是：

这个过程非常慢，我想要的只是第一页右上角的10位数字。我可以以某种方式得到那部分吗？
查看结果时，它包含原始PDF文件中其他相邻页面的文本（这就是我称之为“元文本”的原因）。这是为什么？这可以解决吗？

更新

pdf.get_references_count()

...显示20（应该只有2个）

提前致谢！

Python Splitting PDF从其他页面中留下元文本

0 个答案: