Python文本文档的相似性(不带库)

时间:2018-11-27 15:52:36

标签: python

我需要创建一个python程序vanilla(不带库),该程序可以计算不同文档之间的文本文档相似度。

程序将文档作为输入,并为给定输入的单词计算字典(矩阵)。每个文档都包含一个句子,当一个新文档进入程序时,我们需要将其与其他文档进行比较以找到相似的文档。请参见下面的示例:

输入文字:

input_text = ["Why I like music", "Beer and music is my favorite combination",
               "The sun is shining", "How to dance in GTA5", ]

必须将句子转换为向量,请参见示例:

enter image description here

希望您能提供帮助。

1 个答案:

答案 0 :(得分:0)

这里有一些想法:

  1. 使用new_str = str.upper(),使啤酒和啤酒相同(如果您 需要这个)
  2. 使用list = str.split()列出单词 在你的字符串中。
  3. 使用set = set(list)来消除双字 如果需要的话。
  4. 以空的word_list开头。复制第一组到word_list中。在以下步骤中,您可以遍历集合中的条目,并检查它们是否属于word_list。

for word in set: if word not in word_list: word_list.append(word)

  1. 现在您可以从句子中创建一个多热点矢量。 (如果句子中的word_list [i]为1,否则为0)
  2. 如果在word_list中添加一个单词,别忘了增加多热点矢量的长度(附加零)。
  3. 最后一步:根据向量创建矩阵。