如何为角色使用Keras令牌生成器?

时间:2020-05-04 17:39:57

标签: keras tokenize

对于序列标记任务,我的训练数据和标签如下所示:

train_data=[['p','l','a','y','s']

train_labels=[['<p>','<l>','<a>','<y*>','<s*>']]

如何使用令牌生成器并为数据中的每个序列生成表示形式。传统标记器忽略诸如<p>之类的标签。它只会创建标准字符的词汇表。

1 个答案:

答案 0 :(得分:0)

如果我正确地回答了您的问题,这应该可以解决问题。如果我弄错了,请告诉我,以便我可以相应地编辑答案

from keras.preprocessing.text import Tokenizer
tk = Tokenizer(num_words=None, char_level=True)
tk.fit_on_texts(texts)

实际文本在texts处。

您可以使用来检查词汇

tk.word_index
相关问题