如何做相关问题自动填充

时间:2010-01-10 10:24:21

标签: python django algorithm information-retrieval

我希望在我的应用中获得相关的[事物/问题],类似于StackOverflow所做的事情,当你跳出标题字段时。

我只想到一种方法,我认为可能足够快

  1. 在所有[事物]的标题语料库中搜索标题,并返回前x个匹配项。我们可以使用用于网站搜索的任何搜索。
  2. 执行此操作的其他方法有哪些,这些方法足够快,因为这将在tabout上发送,因此大型服务器端处理不可行。

    我只是想找到这样做的方法,但我使用的是mysql和DJango,所以如果你的答案使用了,那就更好了。

    [我想不出好的标签,所以请随意编辑它们]

1 个答案:

答案 0 :(得分:1)

您正在研究基于内容的推荐算法。 AFAICT StackOverflow会查看标题中的标签和单词,并找到共享其中一些内容的问题。它可以在文档表示为TF-IDF vectors的空间中实现为最近邻搜索。

实施方面,请使用支持词干,停用词,非严格匹配和tf-idf权重的任何Django搜索引擎。算法复杂度不高(只是几个索引查找),所以如果它是用Python编写的并不重要。

如果您没有找到您想要的搜索引擎,请将词干和停用词留给搜索引擎,针对单个词调用搜索引擎,并使用有利于类似标签的分数进行自己的tf-idf评分