我想提取a table from a pdf file并在R中进行分析。我正在使用tabulizer :: extract_tables()函数。
该表格超过一页(第6至9页)。当我使用extract_table函数时,我收到一个包含12个元素的列表对象。我想要的表位于元素out[[1]]
至out[[4]]
问题是:我的表在所有页面中都没有标题,并且文档具有自己的标题。因此,该函数不能分隔正确的列数。元素out[[1]]
有4列,out[[2]]
和out[[3]]
有2列,而out[[4]]
有1列。有没有办法至少获得所有4个元素中正确的列数?
代码:
library(tabulizer)
arquivo <- "1236_Pombos_PE.pdf"
out <- extract_tables(arquivo, output = "data.frame", encoding = "UTF-8")