读取pdf文件中的文本并拆分为多个pdf文件

时间:2019-02-26 10:24:32

标签: java pdfbox

我有一个合并的pdf文件,该文件的每一页中都有文本,ID和页码为“ Y的X页”。我需要根据Y文字的第X页将一个pdf文件拆分为多个pdf文件。我正在尝试使用iText进行POC,但我正在努力阅读Y的第X页,以标识用于拆分文件的页码。我可以使用Java来实现这一点吗?

我尝试了以下代码:

 public static void main(String args[]) {
        PDFTextStripper pdfStripper = null;
        PDDocument pdDoc = null;
        COSDocument cosDoc = null;
        File file = new File("C:\\basics\\outbound\\FPPStmts.pdf");
        try {
            // PDFBox 2.0.8 require org.apache.pdfbox.io.RandomAccessRead 
             RandomAccessFile randomAccessFile = new RandomAccessFile(file, "r");
             PDFParser parser = new PDFParser(randomAccessFile);               
            parser.parse();
            cosDoc = parser.getDocument();
            pdfStripper = new PDFTextStripper();
            pdDoc = new PDDocument(cosDoc);
            pdfStripper.setStartPage(1);
            pdfStripper.setEndPage(2);
            String parsedText = pdfStripper.getText(pdDoc);
            System.out.println(parsedText);
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        } 
    }

这虽然我的pdf包含数据,但仍为空白文本。

0 个答案:

没有答案