从 PDF 读取表格并将其转换为 Pandas Dataframe

时间:2021-06-10 17:56:19

标签: pandas dataframe text-mining python-camelot

我正在尝试从 pdf 中提取表格数据并将它们存储为数据框。但是表格数据的格式不正确。

下面是我得到的数据框:

enter image description here

但我希望该数据框采用以下格式。

enter image description here

请帮助我应该如何编写通用代码才能做到这一点。

1 个答案:

答案 0 :(得分:0)

重命名您的列:

df.columns = ['Colour', 'Size', 'Base Size', 'Value', 'Base Amount', 'Absolute', 'Approx']

并删除前两行:

df.drop([0, 1], inplace=True)
相关问题