有哪些好的和广泛使用的评估指标来测试提取文本摘要方法的准确性?

时间:2015-01-26 15:00:37

标签: machine-learning classification metrics evaluation summarization

我正在使用分类技术进行多文档提取文本摘要。我计算了f测量,召回,精确度和准确度。在此评估此方法生成的摘要的目的是什么?

1 个答案:

答案 0 :(得分:2)

ROUGE计算各种指标的召回,精确和F测量:ROUGE-N,ROUGE-L,ROUGE-W,ROUGE-S。 Here是ROUGE的论文。

ROUGE-N是匹配的n-grams的数量除以n-gram的总数。

ROUGE-L查看两个文本中最长的共同子序列,子序列可以包含间隙,以便1,3,51,2,3,4,5的子序列。

ROUGE-W也使用最长的共同子序列作为分数,但对较小间隙的子序列给予较高权重。

ROUGE-S使用skip-bigrams,skip-bigram是2-gram,可以包含任意2个单词,只要它们是句子顺序,即不必连续。