machine-learning - 哪个更适合排名svm的列车数据 - 更少的文档查询或更少的查询，每个查询更多的文档？

哪个更适合排名svm的列车数据 - 更少的文档查询或更少的查询，每个查询更多的文档？

时间：2015-08-07 10:56:30

标签： machine-learning ranking

我正在使用基于成对方法的Rank SVM [https://en.wikipedia.org/wiki/Ranking_SVM，http://research.microsoft.com/en-us/people/hangli/l2r.pdf]，即模型通过在同一查询中比较不同等级的样本来学习。那么，在准备列车数据集时哪一个更好的方法呢？ - 200个查询，每个查询包含10个评分文档或100个查询，每个查询包含20个评分文档？在这两种方法中，评分的数量是相同的。

1 个答案:

答案 0 :(得分：0)

这个问题没有明确答案，因为它是严重依赖数据因素。换句话说，唯一的一般答案是“你必须检查两者并选择最佳”。例如，您可以收集较小的样本并在那里测试您的假设。

可以指导您的唯一理论方面是，SVM排名实际上是将您的问题转换为二元分类问题的二次（关系数量）大小。因此，如果通过“10”或“20个评分文档”，您的意思是每个查询得到10或20个有序结果，那么在包含20个文档的100个查询中有更多信息，因为它会为您提供100 * (20^2) = 40,000个训练样本，而第二种方法只有200 * (10^2) = 20,000。然而，在实践中，这些40,000个样本的信息量可能少于20,000个（因为它们只覆盖了一半的文档空间，而且20个文档的排序可能根本无用，因为大多数文档“同样糟糕”）。