Question

我想从R中的文本中提取与保险服务相关的关键字。我创建了关键字列表并使用了qdap库中的常用函数。

   bag <- bag_o_words(corpus) 
   b <- common(bag,keywords,overlap="all")

但结果只是频率超过1的常用词。我还使用了RKEA库。

keywords <- c("directasia", "directasia.com", "Frank", "frank", "OCBC", "NTUC",
              "NTUC Income", "Frank by OCBC", "customer service", "atm",
              "insurance", "claim", "agent", "premium", "policy", "customer care",
              "customer", "draft", "account", "credit", "savings","debit","ivr",
              "offer", "transacation", "banking", "website", "mobile", "i-safe",
               "customer", "demat", "network", "phone", "interest", "loan",
               "transfer", "deposit",  "otp", "rewards", "redemption")
   tmpdir <- tempfile()
   dir.create(tmpdir)
   model <- file.path(tmpdir, "crudeModel")
   createModel(corpus,keywords,model)
   extractKeywords(corpus, model)

但是我收到以下错误

createModel中的错误（语料库，关键字，型号）：文档和关键字的数量不匹配

和

.jcall错误（ke，＆＃34; V＆＃34;，＆＃34; extractKeyphrases＆＃34;，。jcall（ke，Ljava / util / Hashtable;＆＃34;，：java.io.FileNotFoundException）：C：\ Users \ Bitanshu \ AppData \ Local \ Temp \ RtmpEHu9uA \ file14c4160f41c2 \ crudeModel（系统找不到指定的文件）

我认为第二个错误是因为createModel不成功。

有人可以建议如何纠正这种或另一种方法吗？文本数据已从twitter中提取。

Answer 1

您可以尝试 quanteda 套餐。我建议使用GitHub版本而不是CRAN版本，因为就在两天前我对free(work.pixelData);函数进行了大修。例如：

kwic()

Answer 2

你应该对createModel使用以下格式，即使你不打算使用所有部分，也需要提及它们

createModel（语料库，关键字，模型，voc =＆＃34;无＆＃34;，vocformat =＆＃34;＆＃34;）

从R

2 个答案: