从PDF的每个页面中提取标题?

时间:2013-08-06 02:57:17

标签: pdf

我正在开展一个项目SIGGRAPH Image Wall

我的第一个挑战是弄清楚如何在PDF, SIGGRAPH 2013 Technical Papers First Pages (44 MB PDF)中提取每个页面的标题。 本PDF是每篇论文第一页的汇编。 因此,每页有一个纸质标题,略有不同 传统的学者论文。 有没有人对此有任何想法?

1 个答案:

答案 0 :(得分:1)

我认为你可以使用任何一种文本提取方法来实现这一点,但我会提醒说,达到100%的准确率会很棘手......

一些可能使用的工具:

  • pdftotextpdf2txt - 简单易用的跨平台提取实用程序。
  • PDFNet - 强大的SDK,可用于挖掘PDF并精确提取所需数据。
  • Perl modules: PDF::API2, CAM::PDF - 我是一个Perl人,所以我会走这条路,但我确信类似的库存在于Python,Ruby等中。

您的源页面看起来相当一致 - 我觉得您可以对页面上的内容以及内容的外观做出一些明智的猜测。我试试这个:

  1. 手动检查PDF以找出标题字体名称和大小。
  2. 提取页面顶部的文本信息(类似于前150个像素)。确保提取字体信息。
  3. 这应该可以获得所有标题文本以及一些作者姓名。解析此数据(在您编写的脚本中,或在pdftotext的XML输出文件中等),只保留与您的标题字体信息匹配的单词。
  4. 如果标题字体不同,您需要猜测每个页面的标题字体是什么,并将其与作者姓名(您应该从页面顶部获得的唯一其他内容)区分开来,您可以简单地做通过比较字体大小。

相关问题