python - 词汇处理器功能

词汇处理器功能

时间：2016-10-03 05:24:53

标签： python tensorflow text-classification

我正在研究有关卷积神经网络的嵌入输入，我理解Word2vec。但是，在CNN text classification中。 dennybritz使用函数learn.preprocessing.VocabularyProcessor。在document。他们说它将文档映射到单词id的序列。我不太清楚这个功能是如何工作的。它是否会创建一个Ids列表然后用单词映射Ids或者它有一个单词及其ID的字典，当运行函数时它只给出ID？

1 个答案:

答案 0 :(得分：18)

假设您只有两个文档I like pizza和I like Pasta。你的整个词汇由这些单词(I, like, pizza, pasta)组成。对于词汇表中的每个单词，都有一个与之相关的索引（1,2,3,4）。现在给出像I like pasta这样的文档，它可以转换为向量[1,2,4]。这就是learn.preprocessing.VocabularyProcessor的作用。参数max_document_length确保所有文档都由长度为max_document_length的向量表示，如果长度小于max_document_length，则填充数字;如果长度大于{max_document_length，则剪切它们{1}}希望这有助于你