pdf - 从PDF中提取表格数据并对其进行排序

从PDF中提取表格数据并对其进行排序

时间：2010-05-10 12:55:26

标签： pdf

这是一个PDF文件，其中包含某些考试的标记列表。 http://www.megaupload.com/?d=T9VM6P9E

我对第一个列表特别感兴趣，但不幸的是有2112个条目。它们格式不正确。我需要对所有这些条目进行排序（基于最后2列中的标记 - 能力和计算机中的标记总和），以了解我的排名。

我尝试在MS Word和Excel中复制，但是如果你尝试一下，你会发现它无济于事。在纯文本文件中粘贴之后，我尝试使用正则表达式（在Notepad ++中）对其进行格式化，在C中编写代码以通过'\ t'正确分隔每个字段（以便稍后我可以在Excel工作表中正确复制它们）），但不一致使我失败（一些条目产生多行，“名称”没有固定的字段数。）

有人能想出任何可以将PDF中的第一个列表以表格形式复制到电子表格中的原因与原始文件一样吗？

我迫切需要对此进行排序，任何帮助都将受到高度赞赏。 :)

3 个答案:

答案 0 :(得分：1)

有关为什么 PDF文件格式永远不应被认为适合托管可提取的结构化数据 的背景信息，请参阅此文章：< / p>
- 的 Why Updating Dollars for Docs Was So Difficult

对于一个惊人的开源系列工具，每周都会越来越好地从PDF中提取表格数据（除非它们是扫描页面） - 矛盾点'1'上述 ！ - 请看这些链接：

的 Introducing Tabula: Upload a PDF, get back tabular CSV data. Poof!

的 Tabula-Extractor: A Command Line Interface to Tabula

的 Tabula source code repository

的 Tabula API (upcoming, not ready yet)

答案 1 :(得分：0)

我曾经负责构建一个解析器，该解析器将从pdf中提取数据，其中包含多种不同编码的表格和非表格数据，并混合使用rtl和ltr文本。该项目付出了相当大的努力，但通过简单的英语表，您应该能够立即剖析pdf。在adobe.com上寻找PDF规范，如果是绝望的开始挖掘。

此外，您首先需要使用pdftk.exe解压缩文件。

我帮忙的捷径： http://www.adobe.com/devnet/pdf/pdf_reference.html

这是我的意思： http://www.codeproject.com/KB/cs/PDFToText.aspx

答案 2 :(得分：0)

我有点管理它。我首先将其复制到纯文本文件，从中删除所有字母，只留下序列号和相应的标记，用空格或制表符分隔。然后在OpenOffice Spreadsheet中使用“import”，告诉它分隔符是空格和制表符（必要时将它们组合）和宾果游戏！我得到了我的排名。

但我仍然想知道是否可以按原样复制整个表格。所以要保持这个问题。