我正在使用基于成对方法的Rank SVM [https://en.wikipedia.org/wiki/Ranking_SVM,http://research.microsoft.com/en-us/people/hangli/l2r.pdf],即模型通过在同一查询中比较不同等级的样本来学习。那么,在准备列车数据集时哪一个更好的方法呢? - 200个查询,每个查询包含10个评分文档或100个查询,每个查询包含20个评分文档?在这两种方法中,评分的数量是相同的。
答案 0 :(得分:0)
这个问题没有明确答案,因为它是严重依赖数据因素。换句话说,唯一的一般答案是“你必须检查两者并选择最佳”。例如,您可以收集较小的样本并在那里测试您的假设。
可以指导您的唯一理论方面是,SVM排名实际上是将您的问题转换为二元分类问题的二次(关系数量)大小。因此,如果通过“10”或“20个评分文档”,您的意思是每个查询得到10或20个有序结果,那么在包含20个文档的100个查询中有更多信息,因为它会为您提供100 * (20^2) = 40,000
个训练样本,而第二种方法只有200 * (10^2) = 20,000
。然而,在实践中,这些40,000个样本的信息量可能少于20,000个(因为它们只覆盖了一半的文档空间,而且20个文档的排序可能根本无用,因为大多数文档“同样糟糕”)。