Question

我正在使用tidytext的内置anti_join(get_stopwords())命令从技术产品的客户审查数据中清除文档，但是我发现输出语料库主要由技术规范组成（例如，Windows 10、720p摄像头，380.6 x 258.2 x 22.45（英寸），IntelCore等），并且几乎没有形容词和名词来表示客户对产品的满意程度。

是否有任何便捷的方法来编译要删除的技术术语列表（例如之前列出的那些术语）并将其手动插入get_stopwords()或等效功能中，以更好地识别客户评论中的那些非技术形容词和名词？

Answer 1

您可以创建自己的停用词的数据框。此示例使用HG Wells的小说和两个用户指定的停用词（感谢https://www.tidytextmining.com/tidytext.html）。我不知道那里有没有与技术相关的停用词的知名语料库。

hgwells <- gutenberg_download(35)
my_stop_words <- data.frame(word=c('time','machine')) # list of your stop words
hgwells %>% unnest_tokens(word,text) %>% 
  anti_join(my_stop_words) # removes words 'time' and 'machine'

手动插入特定于主题的停用词

1 个答案: