计算文件

时间:2018-02-23 07:09:01

标签: python machine-learning deep-learning

使用不同的方法,我得分文件&这是标题。现在我想将所有这些分数汇总成单一分数(置信度分数)。我想使用无监督的方法。我希望在概率或百分比方面得分。

这里,M =方法号,TS =文件标题得分,CS =文件内容得分

例如1

Doc1(预期置信度得分接近0)

M - TS - CS

1 - 0.03 - 0.004

2 - 0.054 - 0.06

3 - 0.09 - 0.12

Doc2(预期置信度得分接近1)

M - TS - CS

1 - 0.50 - 0.63

2 - 0.74 - 0.90

3 - 0.615 - 0.833

在这里,我的hypothis是对于document-1,置信度得分应该为0,对于document-2,置信度应该接近1。

所有文件的所有文件的得分也可能较低(例如2),因此所有文件的置信度得分应接近于零。

eg.2

Doc1(预期置信度得分接近0)

M - TS - CS

1 - 0.03 - 0.004

2 - 0.054 - 0.06

3 - 0.09 - 0.12

Doc2(预期置信度得分接近0)

M - TS - DS

1 - 0.001 - 0.003

2 - 0.004 - 0.005

3 - 0.0021 - 0.013

任何人都可以解释我或提供一些资源来计算置信度得分吗?

1 个答案:

答案 0 :(得分:0)

如何添加/获取标题分数的平均值(因为它们具有相同的比例)和所有方法的内容分数,所以现在您将拥有单个标题分数和单个内容得分了。

要获得文档的单个分数,您必须合并标题和内容分数。要做到这一点,您可以采用加权平均值(您必须确定权重),或者您可以将这些得分相乘以获得单个指标。虽然这些可能不会接近零或一,但是你的要求

作为替代方法,您可以使用添加/平均的标题分数和内容分数创建数据集,并使用零和1手动创建置信度分数列。使用此数据,您可以构建逻辑回归模型,以使用0和1的置信度分数对文档进行分类。这将为您提供权重,并更深入地了解您实际需要的内容