手动插入特定于主题的停用词

时间:2019-07-16 00:40:55

标签: dplyr text-mining stop-words tidytext

我正在使用tidytext的内置anti_join(get_stopwords())命令从技术产品的客户审查数据中清除文档,但是我发现输出语料库主要由技术规范组成(例如,Windows 10、720p摄像头,380.6 x 258.2 x 22.45(英寸),IntelCore等),并且几乎没有形容词和名词来表示客户对产品的满意程度。

是否有任何便捷的方法来编译要删除的技术术语列表(例如之前列出的那些术语)并将其手动插入get_stopwords()或等效功能中,以更好地识别客户评论中的那些非技术形容词和名词?

1 个答案:

答案 0 :(得分:1)

您可以创建自己的停用词的数据框。此示例使用HG Wells的小说和两个用户指定的停用词(感谢https://www.tidytextmining.com/tidytext.html)。我不知道那里有没有与技术相关的停用词的知名语料库。

hgwells <- gutenberg_download(35)
my_stop_words <- data.frame(word=c('time','machine')) # list of your stop words
hgwells %>% unnest_tokens(word,text) %>% 
  anti_join(my_stop_words) # removes words 'time' and 'machine'
相关问题