将特定页面提取到PDF文件中

时间:2019-03-26 23:19:31

标签: python-3.x

我需要从包含多组pdf的pdf中提取一组页面。此类连词以提交来区分。 pdf内有以下信息... 1-套3件 页:1 /续 页:2 /续 页面:3 /最后

2-一组2批 页:1 /续 页面:2 /最后

2-1套运送 第1/1页

这是为了加快我的服务,因为我必须手动分离这些集合。

from PyPDF2 import PdfFileWriter, PdfFileReader
import re

output = PdfFileWriter()
input1 = PdfFileReader(open("pdf_teste.PDF", "rb"))
totalPages = input1.getNumPages()
print ("total pages to process:" +str(totalPages))

for i in range(totalPages):
    p = i
    print ("processing page %s" %str(i))
    output.addPage(input1.getPage(p))
    p = input1.getPage(p).extractText()#extract text to search for identifier
    pr = re.search("Diretor", p)#search for the identifier; to be replaced with a list
    #if there's a match, do work
    if pr:
        outputStream = open("test"+str(i)+".pdf", "wb")
        output.write(outputStream)
        outputStream.close()
        print ('match on page %s' %str(i))
        print ('\n')

这段代码几乎可以满足我的要求。 他划分了第一组,但从第二组开始重复第一组和第二组。但是我想要每套PDF。

0 个答案:

没有答案