Question

我刚开始在R工作。我的要求如下：我有一个带有＆＃39;描述的csv文件＆＃39;专栏（从带有问题的表单生成的文字＆＃39;名称＆＃39;，＆＃39;城市＆＃39;和＃39;兴趣＆＃39;）。

＆＃39;描述的例子＆＃39;：＆＃34;姓名：XYZ，城市：纽约，兴趣：我弹吉他，在周末玩羽毛球和网球。＆＃34;

我需要将文字解析为＆＃39; XYZ＆＃39;纽约＆＃39;和我弹吉他......＆＃39;分为3列 - ＆＃39;名称＆＃39;，＆＃39;城市＆＃39;和＆＃39;描述＆＃39;。

这可能与R有关，我该如何处理？

Answer 1

在基础r中，这对你的情况来说足够简单（与上面的逻辑相同，真的，只是更详细）：

raw <- read.csv(textConnection("Name: XYZ, City: New York, Interests: \"I play the guitar, and spend my weekends playing badminton and tennis.\""), col.names = c("Name", "City", "Interests"), header = F) 
raw <- gsub(pattern = "(Name\\:|City\\:|Interests\\:)", replacement = "", x = as.matrix(raw))
final <- data.frame(trimws(raw))

但是，请注意首先如何在源文件中格式化文本字符串。在你的例子中，逗号在＆＃34;我弹吉他，......＆＃34;将csv分成四列。

或者tidyverse：

raw <- read.csv(textConnection("Name: XYZ, City: New York, Interests: \"I play the guitar, and spend my weekends playing badminton and tennis.\""), col.names = c("Name", "City", "Interests"), header = F) 
library(tidyr, dplyr)
final <- raw %>% 
   separate(Name, c("Descriptor1", "Name"), sep = "\\:") %>%
   separate(City, c("Descriptor2", "City"), sep = "\\:") %>% 
   separate(Interests, c("Descriptor3", "Interests"), sep = "\\:") %>% 
   select(-contains("Descriptor"))

文本挖掘 - 根据关键字分成列

1 个答案: