machine-learning - 通过训练分类器来注释数据集？

通过训练分类器来注释数据集？

时间：2014-03-16 19:23:57

标签： machine-learning classification

我有{3}个5331个正面和5331个负面评价。我想标记每个评论的强度。强度可以是＆＃34; 0＆＃34;或＆＃34; 1＆＃34;。他们的任何技术都可以手动标记1000条评论并训练分类器。如果分类器执行得非常好（比如90％s-fold验证），那么我可以使用分类器的输出来填充剩余的评论？手动填充1/10数据并预测剩余数据是否合理？

我是机器学习的新手。

1 个答案:

答案 0 :(得分：0)

您正在寻找的短语是情感分析，这是机器学习社会中众所周知的问题。这是NLP分类中较容易完成的任务之一，因此很有可能实现超过90％的准确度。一般来说，10-CV的scors是真实分类器行为的一个非常合理的近似值，假设数据集足够大。还有其他（通常被认为是更好的）技术，例如那些基于bootstrap的技术 - 谷歌为Err ^ 0.632作为一个例子。