Question

我想根据相似度对100个文档进行排名。例如，10个文档将类似地说（A，A＆＃39;，A＆＃39;＆＃39;，A＆＃39;＆＃39;＆＃39;，...），另一组10个文档可能是类似的说法（B，B＆＃39;，B＆＃39;＆＃39;，B＆＃39;＆＃39;＆＃39;，...）。现在，文档应该分为A，A＆＃39;，A＆＃39;＆＃39;，...，B，B＆＃39;，B＆＃39;＆＃39;＆＃39;，......等等。

相似度量基于单词的用法。排名后，用例是安排阅读文件，以便类似的文件一起阅读，如A，A＆＃39;＆＃39;＆＃39;＆＃39;＆＃39;，...，B，B＆＃39;，B＆＃39;＆＃39;，...，Z，Z＆＃39;，Z＆＃39;＆＃39;。

我可以使用TF-IDF来达到这个排名吗？这样做有没有C库？

Answer 1

几个问题：

您使用的是什么类型的相似性指标？
文档是否可以出现在A和B中？

您可以使用的一个指标是文档中的单词。您可以为每个文档计算TF-IDF，然后使用关键短语查询文档。

E.g。如果您想找到一组谈论编程的文档，您可以使用查询搜索所有文档：

programming code coding

然后结果集将是通过这些关键词相似的文档。并且您可以在每个查询中显示相同的文档。

我对C库不太确定，但在python中你可以使用textblob轻松计算tf-idf。你可以从头开始构建它。

使用TF-IDF基于相似性进行文档排列

1 个答案: