python - 计算文件 - Thinbug

计算文件

时间：2018-02-23 07:09:01

标签： python machine-learning deep-learning

使用不同的方法，我得分文件＆amp;这是标题。现在我想将所有这些分数汇总成单一分数（置信度分数）。我想使用无监督的方法。我希望在概率或百分比方面得分。

这里，M =方法号，TS =文件标题得分，CS =文件内容得分

例如1

Doc1（预期置信度得分接近0）

M - TS - CS

1 - 0.03 - 0.004

2 - 0.054 - 0.06

3 - 0.09 - 0.12

Doc2（预期置信度得分接近1）

M - TS - CS

1 - 0.50 - 0.63

2 - 0.74 - 0.90

3 - 0.615 - 0.833

在这里，我的hypothis是对于document-1，置信度得分应该为0，对于document-2，置信度应该接近1。

所有文件的所有文件的得分也可能较低（例如2），因此所有文件的置信度得分应接近于零。

eg.2

Doc1（预期置信度得分接近0）

M - TS - CS

1 - 0.03 - 0.004

2 - 0.054 - 0.06

3 - 0.09 - 0.12

Doc2（预期置信度得分接近0）

M - TS - DS

1 - 0.001 - 0.003

2 - 0.004 - 0.005

3 - 0.0021 - 0.013

任何人都可以解释我或提供一些资源来计算置信度得分吗？

1 个答案:

答案 0 :(得分：0)

如何添加/获取标题分数的平均值（因为它们具有相同的比例）和所有方法的内容分数，所以现在您将拥有单个标题分数和单个内容得分了。

要获得文档的单个分数，您必须合并标题和内容分数。要做到这一点，您可以采用加权平均值（您必须确定权重），或者您可以将这些得分相乘以获得单个指标。虽然这些可能不会接近零或一，但是你的要求

作为替代方法，您可以使用添加/平均的标题分数和内容分数创建数据集，并使用零和1手动创建置信度分数列。使用此数据，您可以构建逻辑回归模型，以使用0和1的置信度分数对文档进行分类。这将为您提供权重，并更深入地了解您实际需要的内容