我如何知道要裁剪的坐标？

Question

我想知道是否有人有过以编程方式使用.pdf文件的经验。我有一个.pdf文件，我需要将每个页面缩小到一定的大小。

快速搜索谷歌后，我发现python的pyPdf库，但我的实验失败了。当我更改页面对象上的cropBox和trimBox属性时，结果不是我预期的结果，并且看起来非常随机。

有没有人有这方面的经验？代码示例将非常受欢迎，最好是在python中。

Answer 1

pypdf做了我对这个领域的期望。使用以下脚本：

#!/usr/bin/python
#

from pyPdf import PdfFileWriter, PdfFileReader

with open("in.pdf", "rb") as in_f:
    input1 = PdfFileReader(in_f)
    output = PdfFileWriter()

    numPages = input1.getNumPages()
    print "document has %s pages." % numPages

    for i in range(numPages):
        page = input1.getPage(i)
        print page.mediaBox.getUpperRight_x(), page.mediaBox.getUpperRight_y()
        page.trimBox.lowerLeft = (25, 25)
        page.trimBox.upperRight = (225, 225)
        page.cropBox.lowerLeft = (50, 50)
        page.cropBox.upperRight = (200, 200)
        output.addPage(page)

    with open("out.pdf", "wb") as out_f:
        output.write(out_f)

生成的文档有一个200x200点的裁剪框，从媒体框内的25,25点开始。裁剪框内有25个点。

以下是使用上述代码处理后，我的示例文档在acrobat professional中的外观：

在acrobat reader中加载时，此文档将显示为空白。

Answer 2

使用它来获取pdf尺寸

from PyPDF2 import PdfFileWriter,PdfFileReader,PdfFileMerger

pdf_file = PdfFileReader(open("/Users/user.name/Downloads/sample.pdf","rb"))
page = pdf_file.getPage(0)
print(page.cropBox.getLowerLeft())
print(page.cropBox.getLowerRight())
print(page.cropBox.getUpperLeft())
print(page.cropBox.getUpperRight())

在获取页面参考之后，然后应用裁剪命令

page.mediaBox.lowerRight = (lower_right_new_x_coordinate, lower_right_new_y_coordinate)
page.mediaBox.lowerLeft = (lower_left_new_x_coordinate, lower_left_new_y_coordinate)
page.mediaBox.upperRight = (upper_right_new_x_coordinate, upper_right_new_y_coordinate)
page.mediaBox.upperLeft = (upper_left_new_x_coordinate, upper_left_new_y_coordinate)

#for example :- my custom coordinates 
#page.mediaBox.lowerRight = (611, 500)
#page.mediaBox.lowerLeft = (0, 500)
#page.mediaBox.upperRight = (611, 700)
#page.mediaBox.upperLeft = (0, 700)

Answer 3

你可能正在寻找一个免费的解决方案，但如果你有钱可花，PDFlib是一个神话般的图书馆。它从未让我失望过。

Answer 4

我如何知道要裁剪的坐标？

感谢以上所有回答。

步骤 1. 运行以下代码以获取 (x1, y1)。

from PyPDF2 import PdfFileWriter, PdfFileReader

input = PdfFileReader(open("test.pdf","rb"))
page = input.getPage(0)
print(page.cropBox.getUpperRight())

步骤 2. 以全屏模式查看 pdf 文件。

步骤 3. 将屏幕捕获为图像文件 screen.jpg。

步骤 4. 通过 M$paint 或 GIMP 打开 screen.jpg。这些应用程序显示光标的坐标。

第 5 步。记住以下坐标，(x2, y2), (x3, y3), (x4, y4) 和 (x5, y5)，其中 (x4, y4) 和 (x5, y5) 确定矩形你想裁剪。

步骤 6. 通过以下公式获取 page.cropBox.upperLeft 和 page.cropBox.lowerRight。这是用于计算的 tool。

page.cropBox.upperLeft = (x1*(x4-x2)/(x3-x2),(1-y4/y3)*y1)
page.cropBox.lowerRight = (x1*(x5-x2)/(x3-x2),(1-y5/y3)*y1)

步骤 7. 运行以下代码以裁剪 pdf 文件。

from PyPDF2 import PdfFileWriter, PdfFileReader

output = PdfFileWriter() 
input = PdfFileReader(open('test.pdf', 'rb')) 

n = input.getNumPages()

for i in range(n):
  page = input.getPage(i)
  page.cropBox.upperLeft = (100,200)
  page.cropBox.lowerRight = (300,400)
  output.addPage(page) 
  
outputStream = open('result.pdf','wb') 
output.write(outputStream) 
outputStream.close()

Answer 5

您可以将PDF转换为Postscript（pstopdf或ps2pdf），而不是在Postscript文件上使用文本处理。之后，您可以将输出转换回PDF。

如果您要处理的PDF全部由同一个应用程序生成并且有些类似，那么这很有效。如果它们来自不同的来源，通常很难处理Postscript文件 - 结构变化很大。但是，即使你能够通过一些正则表达式来修复页面大小等。

Answer 6

Acrobat Javascript API有一个setPageBoxes方法，但Adobe不提供任何Python代码示例。只有C ++，C＃和VB。

裁剪.pdf文件的页面

6 个答案:

我如何知道要裁剪的坐标？