python - 如何从PDF中提取数字？

您首先需要一个PDF解析器，因为Python默认情况下无法读取它。这里发布了一个SO答案Python module for converting PDF to text建议使用PDFMINER - http://www.unixuser.org/~euske/python/pdfminer/index.html

但是，您没有提供有关如何表示数字的任何示例。您需要使用正则表达式/模式来创建某种自定义行解析器，以定义如何提取这些数字的规则。困难主要取决于PDF是否仅包含原始统计数据，如果不包含，您还需要注意不要接受所有数字，即那些实际上不涉及任何统计数据但只是在句子中的数字。 / p>

了解有关python中正则表达式的更多信息

如果你是新手正则表达式，你可以在这里学习和试验它 http://regexr.com/。