Question

您好我正在尝试找出文档列表中最具代表性的文档。我想知道是否有任何资源或文件能够做到这一点。我已经汇总了一些简单的统计数据，可以帮助我做到这一点：

因此，我们的想法是DF越高，语料库就越有代表性。如果TF评分针对平均值进行了优化，那么过度使用或未充分使用高DF字的文档将受到惩罚。

这很糟糕，但想知道人们遇到过哪些更好的东西。

Answer 1

你是否正确提到DF？或者你的意思是反向文件频率？因为为了引入惩罚你需要使用逆。我最近使用字典为此实现了一些工具，以获得更快的结果。

你需要其中三个：

token_doc_count = { doc_id: {token_id: count}}
tokens_freq_corpus = {token_id: count}
tokened_docs = {doc_id: list_of_tokens or string_of_tokens}

此外，TF-IDF应惩罚停用词，因此无需删除它们。