如何使用Tokenizer跳过前N个最频繁出现的单词

时间:2018-07-17 10:09:27

标签: python keras text-processing

我有这个示例代码,可以将N个频繁出现的单词标记为整数,但我想跳过N个最频繁出现的单词,例如imdb load_data函数,其参数skip_top会跳过前N个经常出现的单词

max_features=4000
tokenize=keras.preprocessing.text.Tokenizer(max_features)
tokenize.fit_on_texts(train_data)
sequences = tokenize.texts_to_sequences(train_data)

如何做到这一点 请以代码为例

0 个答案:

没有答案