R:使用R从pdf文件中提取嵌入式超链接

时间:2018-08-28 18:16:38

标签: r pdf

我目前正在R中使用pdf文件。具体地说,我需要收集与pdf文件文本中嵌入的超链接有关的信息。到目前为止,我所做的是使用pdftools包解析pdf文件。但是,它仅呈现文本,而不呈现基础超链接。在下面,您可以找到带有两个嵌入式超链接(单词“ sentencia”和“ aqui”)的pdf文件的示例以及我使用的代码。

library(dplyr) txt <- pdftools::pdf_text(pdf = "http://www.corteidh.or.cr/docs/comunicados/cp_47_17.pdf") %>% paste(., collapse = "") %>% stringr::str_replace_all("[[:cntrl:]]", " ")

我也尝试过:

  1. 下载文件后也执行上述步骤
  2. pdftools::pdf_attachments()这给我一个空列表
  3. 以及pdftools::pdf_info()也没有成功。

我可以手工完成,但是语料库很大,所以在朝这个方向发展之前,有谁知道我可以使用此包或其他方法识别并提取pdf文件中的嵌入式超链接吗?

非常感谢!

0 个答案:

没有答案