Question

我有一个原始集合的文件，看起来像这样

1   1   1   40.57784227583149   27.618035602470936  40.576842275831495  27.617035602470935
1   3   5   40.57784227583149   27.618035602470936  40.576842275831495  27.617035602470935
1   2   4   40.57784227583149   27.618035602470936  40.576842275831495  27.617035602470935
1   10  3   40.57784227583149   27.618035602470936  40.576842275831495  27.617035602470935
1   5   5   40.57784227583149   27.618035602470936  40.576842275831495  27.617035602470935
1   7   4   40.57784227583149   27.618035602470936  40.576842275831495  27.617035602470935
2   7   1   40.576842275831495  27.617035602470935  40.576842275831495  27.617035602470935
2   8   5   40.576842275831495  27.617035602470935  40.5758422758315    27.616035602470934
2   1   5   40.576842275831495  27.617035602470935  40.576842275831495  27.617035602470935
2   5   1   40.576842275831495  27.617035602470935  40.576842275831495  27.617035602470935
2   4   4   40.576842275831495  27.617035602470935  40.5758422758315    27.616035602470934
2   3   2   40.576842275831495  27.617035602470935  40.576842275831495  27.617035602470935
3   5   4   40.576842275831495  27.617035602470935  40.576842275831495  27.617035602470935
3   7   5   40.576842275831495  27.617035602470935  40.576842275831495  27.617035602470935
3   4   1   40.576842275831495  27.617035602470935  40.5758422758315    27.616035602470934
3   8   3   40.576842275831495  27.617035602470935  40.5758422758315    27.616035602470934
3   2   1   40.576842275831495  27.617035602470935  40.576842275831495  27.617035602470935
4   5   4   40.576842275831495  27.617035602470935  40.576842275831495  27.617035602470935
4   9   1   40.576842275831495  27.617035602470935  40.5758422758315    27.616035602470934
4   8   4   40.576842275831495  27.617035602470935  40.5758422758315    27.616035602470934
4   4   4   40.576842275831495  27.617035602470935  40.5758422758315    27.616035602470934
4   10  5   40.576842275831495  27.617035602470935  40.576842275831495  27.617035602470935
4   7   3   40.576842275831495  27.617035602470935  40.576842275831495  27.617035602470935
5   5   1   40.5758422758315    27.616035602470934  40.576842275831495  27.617035602470935
5   2   4   40.5758422758315    27.616035602470934  40.576842275831495  27.617035602470935
5   6   1   40.5758422758315    27.616035602470934  40.5758422758315    27.616035602470934
5   7   3   40.5758422758315    27.616035602470934  40.576842275831495  27.617035602470935
5   10  2   40.5758422758315    27.616035602470934  40.576842275831495  27.617035602470935
5   9   5   40.5758422758315    27.616035602470934  40.5758422758315    27.616035602470934

第一列定义UserID，第二列定义StoreID，第三列定义为Rating，第四和第五行，用户当前位置的lat和商店的第五和第六行lng。

每行定义一个用户帖子

我需要按如下方式拆分此数据集：

我想保留火车组中每个用户帖子的80％和测试集中的20％。

在Google上搜索我读到了Weka。我随机看到的一些教程（根据我的理解）擦除了行，但我不想这样。我想要我上面提到的。

所以，我的问题是：

是否有工具可以满足我的需求？除了Weka，我可以自由使用其他工具。如果Weka可以做我需要的东西，有人可以提供一些信息或者是一个家庭教师吗？

修改

为了提供一些关于我想要做的事情的更多信息，我正在建立一个推荐系统，并检查我需要分割数据的准确性，计算用户是否可以想要一个没有＆＃39的位置的预测;然后用推荐算法检查我的预测，用这些测试集来计算precision/recall, F measure etc ..

到目前为止我所做的是随机删除每个用户帖子的20％，但我认为有一些工具能够以比我更好的方式做到这一点（显然）。

提前致谢！

将原始集拆分为训练集和测试集

0 个答案: