matlab - 通过序列向量比较文档

我正在尝试按序列向量对文档进行分类。基本上，我有一个词汇量（超过5000字）。每个文档都转换为整数向量，以便向量中的每个元素对应词汇表中单词的位置。

例如，如果词汇是[hello，how，are，you，today]并且文档是“hello you”那么我将得到向量：[1 4]。
“你好吗”的另一份文件将导致[2 3 4]。

现在我想要的是评估第一和第二矢量之间的相似性。在这里你可以看到这些向量的长度不同。此外，直接比较它们可能没有意义，因为它们代表了单词序列。这种情况不同于二进制（bag-of-word）向量，它考虑文档中单词的出现（如果出现，则为1，否则为0），以及考虑单词中的单词频率的频率（单词计数）向量。具有给定词汇的文档。你能给我一个建议吗？

通过序列向量比较文档

1 个答案: