从R中超过一页的pdf文件中提取表格

时间:2019-02-27 17:45:09

标签: r

我想提取a table from a pdf file并在R中进行分析。我正在使用tabulizer :: extract_tables()函数。

该表格超过一页(第6至9页)。当我使用extract_table函数时,我收到一个包含12个元素的列表对象。我想要的表位于元素out[[1]]out[[4]]

问题是:我的表在所有页面中都没有标题,并且文档具有自己的标题。因此,该函数不能分隔正确的列数。元素out[[1]]有4列,out[[2]]out[[3]]有2列,而out[[4]]有1列。有没有办法至少获得所有4个元素中正确的列数?

代码:

library(tabulizer)

arquivo <- "1236_Pombos_PE.pdf"
out <- extract_tables(arquivo, output = "data.frame", encoding = "UTF-8")

0 个答案:

没有答案
相关问题