使用熊猫比较列表中的单词和频率列表中的单词

时间:2018-11-26 01:04:30

标签: python pandas loops dictionary frequency

我有2个包含数千个元素的频率列表,而我也有2个包含少量元素的较小列表。我的想法是,我需要检查较小列表中的每个元素出现在频率列表中的次数,并进行比较,最后使用pandas程序包在表格中显示我的发现。

频率列表:

pos_freqdist = FreqDist(get_all_words(pos_train))
neg_freqdist = FreqDist(get_all_words(neg_train))

这是pos_freqdist实际显示的内容(它不只是打印所有肯定的单词,而是计算肯定评论中包含单词的频率):

FreqDist({'the': 6737, '.': 6513, ',': 6357, 'and': 3952, 'a': 3441, 'of': 3268, 'to': 2980, 'is': 2645, 'I': 2068, 'in': 1956, ...})

我还有2个较小的列表,其中包含一些情感词:

my_positive_word_list
my_negative_word_list

我正在数以千计的评论中检查这些词的正面/负面情绪,这些评论已经归类为正面和负面。

频率列表实际上算作字典吗?元组?我不确定。

1 个答案:

答案 0 :(得分:0)

您可以像普通词典一样访问频率列表。 内部具有字典类型的结构,可加快访问速度 这就是为什么您可以进行pos_freqdist['the']并显示 6737

的原因
相关问题