Question

我正在尝试通过比较主题列表来计算书籍的相似度。

需要从 0-1 之间的 2 个列表中获得相似度得分。

示例：

book1_topics = ["god", "bible", "book", "holy", "religion", "Christian"]

book2_topics = ["god", "Christ", "idol", "Jesus"]

尝试使用 wordnet 但不知道如何计算分数。

有什么建议吗？

Answer 1

我建议使用 spaCy，一个 Python nlp 库

import spacy

book1_topics = ['god', 'bible', 'book', 'holy', 'religion', 'Christian']
book2_topics = ['god', 'Christ', 'idol', 'Jesus']

nlp = spacy.load('en_core_web_md')
doc1 = nlp(' '.join(book1_topics))
doc2 = nlp(' '.join(book2_topics))

print(doc1.similarity(doc2))

输出：

0.822639616995468

注意

您可能想要安装 spacy：

pip3 install spacy

和模型：

python3 -m spacy download en_core_web_md

Answer 2

This

如果主题集不大，可能是一个很好的近似值。否则，我会尝试查看 Word2Vec 及其后继模型之类的模型。

Answer 3

除了 spaCy，如果您要查找的只是词汇重叠/相似性，我还建议使用 Jaccard similarity index。

您需要install NLTK。

from nltk.util import ngrams

def jaccard_similarity(str1, str2, n):
    str1_bigrams = list(ngrams(str1, n))
    str2_bigrams = list(ngrams(str2, n))

    intersection = len(list(set(str1_bigrams).intersection(set(str2_bigrams))))
    union = (len(set(str1_bigrams)) + len(set(str2_bigrams))) - intersection

    return float(intersection) / union

在上面的函数中，您可以选择 n（指的是 n-gram 中的“n”）作为您想要的任何内容。我通常使用 n=2 来使用二元 Jaccard 相似度，但这取决于您。

现在将其应用到您的示例中，我将亲自计算每个列表中每对单词的双字 Jaccard 相似度，并对这些值求平均值（假设您具有上面定义的 jaccard_similarity 函数）：

>>> from itertools import product
>>> book1_topics = ["god", "bible", "book", "holy", "religion", "Christian"]
>>> book2_topics = ["god", "Christ", "idol", "Jesus"]
>>> pairs = list(product(book1_topics, book2_topics))
>>> similarities = [jaccard_similarity(str1, str2, 2) for str1, str2 in pairs]
>>> avg_similarity = sum(similarities) / len(similarities)

在python中计算单词相似度得分

3 个答案:

注意