Apache POI超出了GC开销限制

时间:2015-10-27 12:57:41

标签: java excel garbage-collection apache-poi

我有13个.xlsx文件,每个文件大约有1000行。现在我想用一张表将它合并到一个.xlsx文件中。我在这里使用代码 http://blog.sodhanalibrary.com/2014/11/merge-excel-files-using-java.html#.Vi9ns36rSUk

这是我的代码(几个更改,addSheet方法不变)

try {
        FileInputStream excellFile1 = new FileInputStream(new File("tmp_testOut1000.xlsx"));
        XSSFWorkbook workbook1 = new XSSFWorkbook(excellFile1);
        XSSFSheet sheet1 = workbook1.getSheetAt(0);

        for(int i = 2; i < 14; i++){
            FileInputStream excellFile2 = new FileInputStream(new File("tmp_testOut" + i + "000.xlsx"));
            XSSFWorkbook workbook2 = new XSSFWorkbook(excellFile2);
            XSSFSheet sheet2 = workbook2.getSheetAt(0);
            System.out.println("add " + i);
            addSheet(sheet1, sheet2);
        }

        excellFile1.close();

        // save merged file
        System.out.println("merging");
        File mergedFile = new File("merged.xlsx");
        if (!mergedFile.exists()) {
            mergedFile.createNewFile();
        }
        FileOutputStream out = new FileOutputStream(mergedFile);
        System.out.println("write");
        workbook1.write(out);
        out.close();
        System.out.println("Files were merged succussfully");
    } catch (Exception e) {
        e.printStackTrace();
    }

所有文件都在加载和合并,但是在“写”sysout后我得到了

Exception in thread "main" java.lang.OutOfMemoryError: GC overhead limit exceeded
at org.apache.xmlbeans.impl.store.Xobj.new_cursor(Xobj.java:1829)
at org.apache.xmlbeans.impl.values.XmlObjectBase.newCursor(XmlObjectBase.java:293)
at org.apache.xmlbeans.impl.values.XmlComplexContentImpl.arraySetterHelper(XmlComplexContentImpl.java:1151)
at org.openxmlformats.schemas.spreadsheetml.x2006.main.impl.CTFontsImpl.setFontArray(Unknown Source)
at org.apache.poi.xssf.model.StylesTable.writeTo(StylesTable.java:424)
at org.apache.poi.xssf.model.StylesTable.commit(StylesTable.java:496)
at org.apache.poi.POIXMLDocumentPart.onSave(POIXMLDocumentPart.java:341)
at org.apache.poi.POIXMLDocumentPart.onSave(POIXMLDocumentPart.java:345)
at org.apache.poi.POIXMLDocument.write(POIXMLDocument.java:206)
at Start.main(Start.java:275)

我该怎么办?为什么会发生这种情况以及如何预防?

4 个答案:

答案 0 :(得分:13)

众所周知,POI需要大量内存,因此在处理大型Excel文件时,内存耗尽并不少见。

当您能够加载所有原始文件并且只编写合并文件时遇到问题,您可以尝试使用SXSSFWorkbook而不是XSSFWorkbook并在添加一定数量的内容后定期刷新(请参阅org.apache.poi.xssf.streaming - 包的poi文档。这样您就不必将整个生成的文件保留在内存中,只需要保留一小部分。

答案 1 :(得分:2)

尝试分配更多内存,例如

java -Xmx8192m

您可以尝试的是一次合并一个xlsx文件,而不是一次加载所有文件。

您也可以将此行移至for循环中:

excellFile1.close();

所以你马上关上它。

答案 2 :(得分:1)

由于以下原因而发生此问题

java.lang.OutOfMemoryError:GC开销限制超出错误是JVM发出信号表明您的应用程序花费太多时间进行垃圾收集而结果太少的方式。默认情况下,如果JVM花费超过总时间的98%来执行GC,并且在GC之后只有不到2%的堆被恢复,则JVM被配置为抛出此错误。

如果您只是想忽略此问题,可以设置以下vm选项:

-XX:-UseGCOverheadLimit

有关详细信息,请参阅link on GC overhead

您还可以使用以下开关为应用程序分配更多堆内存。在您的应用程序上运行一个试用版一段时间,并确定哪些内存对您的应用程序更好

-Xms128m -Xmx512m(these switches sets the initial heap memory size to 128mb and Max memory to 512mb)

答案 3 :(得分:0)

如果您可以避免使用方便但内存耗尽的工作簿API,请使用逐行处理数据的流逻辑,这样可以提高内存效率。

特别要特别注意以下方面的用法: 用于循环工作表的XSSFReader.SheetIterator。

最后仔细看看API的用法:XSSFSheetXMLHandler。 用于处理带有工作表的行。

请参阅此项目的代码: https://github.com/jeevatkm/excelReader/blob/master/src/main/java/com/myjeeva/poi/ExcelReader.java

您可以通过创建自己的行来定义处理每一行的方式: 新的SheetContentsHandler ....

这非常类似于SAX解析,它不会占用你的ram。

 private void readSheet(StylesTable styles, ReadOnlySharedStringsTable sharedStringsTable,
      InputStream sheetInputStream) throws IOException, ParserConfigurationException, SAXException {

    SAXParserFactory saxFactory = SAXParserFactory.newInstance();
    XMLReader sheetParser = saxFactory.newSAXParser().getXMLReader();

    ContentHandler handler =
        new XSSFSheetXMLHandler(styles, sharedStringsTable, sheetContentsHandler, true);

    sheetParser.setContentHandler(handler);
    sheetParser.parse(new InputSource(sheetInputStream));
  }
相关问题