我对R很新。我做了一些搜索,但仍然遇到这个问题。
这是100,000条记录中我的数据(CSV)的示例
{id_outlet_delivery:22015,name:Branch A}6 ,
{id_outlet_delivery:22016,name:Branch B}7 ,
{id_outlet_delivery:22017,name:Branch C}8
我想要的是将其转换为数据框,以便我可以执行一些分析。 (我不希望示例中的数字6,7,8位于数据框中。)
答案 0 :(得分:1)
以下是使用regex
library(stringr)
v1 <- '{id_outlet_delivery:22015,name:Branch A}6 ,
{id_outlet_delivery:22016,name:Branch B}7 ,
{id_outlet_delivery:22017,name:Branch C}8'
nm1 <- str_extract_all(v1, perl("[[:alpha:]_]+(?=:)"))[[1]][1:2]
val <- str_extract_all(v1, perl("(?<=:)[[:alnum:] ]+(?=\\})?"))[[1]]
或者你可以使用更快的stringi
library(stringi)
nm1 <- stri_extract_all_regex(v1, "[[:alpha:]_]+(?=:)")[[1]][1:2]
val <- stri_extract_all_regex(v1, "(?<=:)[[:alnum:] ]+(?=\\}|,)")[[1]]
indx <- c(TRUE, FALSE)
dat <- setNames(data.frame(as.numeric(val[indx]), val[!indx],
stringsAsFactors=FALSE), nm1)
dat
# id_outlet_delivery name
#1 22015 Branch A
#2 22016 Branch B
#3 22017 Branch C