如何从PDF中提取数字?

时间:2017-05-10 09:52:37

标签: python string pdf extract python-3.4

(Python 3.4.3)

您好,我是Python新手,我想从PDF文件中提取数字。有关详细信息,我想创建一个直方图,描绘大学批准的分数。因此,不应考虑低于500和高于900的所有数字,因为没有人获得这些给定分数的批准。

1 个答案:

答案 0 :(得分:1)

您首先需要一个PDF解析器,因为Python默认情况下无法读取它。这里发布了一个SO答案Python module for converting PDF to text建议使用PDFMINER - http://www.unixuser.org/~euske/python/pdfminer/index.html

但是,您没有提供有关如何表示数字的任何示例。您需要使用正则表达式/模式来创建某种自定义行解析器,以定义如何提取这些数字的规则。困难主要取决于PDF是否仅包含原始统计数据,如果不包含,您还需要注意不要接受所有数字,即那些实际上不涉及任何统计数据但只是在句子中的数字。 / p>

您可以从此处https://docs.python.org/3/library/re.html

了解有关python中正则表达式的更多信息

如果你是新手正则表达式,你可以在这里学习和试验它 http://regexr.com/