如何使用Apache POI从pptx文件中提取数据?

时间:2014-12-16 11:55:50

标签: java apache-poi text-extraction

我正在使用XSLFPowerPointExtractor从pptx文件中提取文本。但是,pptx文件中的所有文本都以单个字符串返回给我。无论如何,我可以分别获得每张幻灯片上的文字吗?我对这个概念完全陌生,所以请详细解答..

1 个答案:

答案 0 :(得分:0)

我查阅了API文档,似乎它全部或全部都没有。 API documentation有一个名为getText()的方法,它返回所有幻灯片的整个文本,这正是您正在观察的行为。

更多的谷歌搜索告诉我,这样做的方法是使用另一个API,即XMLSlideShow。这使您可以逐个幻灯片访问演示文稿。

从那里,您可以访问不同的形状,包括可以从中读取文本的文本区域。事实上,我在相信的其他问题中对此进行了解释,我相信这些问题可以帮助您解决问题:How to get pptx slide notes text using apache poi?