加载一个zip文件,转换" .docx"到文本文件,导出回R

时间:2017-10-20 16:51:22

标签: r

我正在尝试将一个zip文件加载到R.这个zip文件有数百个" .docx"其中的文件。我想转换其中的每一个" .docx"文件到" .txt"文件。

有没有办法在R中自动执行此过程?

zip文件名为" Documents.zip"!

1 个答案:

答案 0 :(得分:1)

使用下面的代码,您可以获得一个data.frame,其中包含存储在“Documents.zip”中的文档内容。

library(officer)
library(purrr)
library(magrittr)


docx_scan_data <- unpack_folder("Documents.zip", folder = "docx_zips") %>% 
  list.files(pattern = "\\.docx$", recursive = TRUE, full.names = TRUE) %>% 
  map_df(function(x) {
    data <- read_docx(path = x) %>% 
      docx_summary()
    data$path <- x 
    data
  })

然后从结果中创建文本文件应该很容易。文本内容存储在text列中。