Question

我想提取a table from a pdf file并在R中进行分析。我正在使用tabulizer :: extract_tables（）函数。

该表格超过一页（第6至9页）。当我使用extract_table函数时，我收到一个包含12个元素的列表对象。我想要的表位于元素out[[1]]至out[[4]]

中

问题是：我的表在所有页面中都没有标题，并且文档具有自己的标题。因此，该函数不能分隔正确的列数。元素out[[1]]有4列，out[[2]]和out[[3]]有2列，而out[[4]]有1列。有没有办法至少获得所有4个元素中正确的列数？

代码：

library(tabulizer)

arquivo <- "1236_Pombos_PE.pdf"
out <- extract_tables(arquivo, output = "data.frame", encoding = "UTF-8")