如何创建训练集? - 文本分类

时间:2014-03-11 16:25:27

标签: text

我想创建一个文本分类器,将音乐歌词分类为相关类别。 在我阅读了一些相关的研究之后,他们说,首先我们需要手动使用一些文档来创建训练集。 但是,这真的是手动吗?我的意思是,我们是否将训练集文档分组,没有指南或某种技术? 我真的需要一些关于这个主题的明确解释或建议。感谢。

2 个答案:

答案 0 :(得分:0)

您可以将样本集拆分为训练集和测试集。例如,您可以使用70%的样本作为训练集,剩余的30%作为测试集。如果应该随机完成。

答案 1 :(得分:0)

你想要在这个问题上应用机器学习技术。也就是说,你有一组从你的歌词中得到的特征(例如关键词的频率或相似之处,虽然我从未处理过这个特定的问题),这些特征被映射到一些标签(Pop,Rock等)。

现在机器学习算法需要一些参考分类,因为它不知道流行歌曲中出现的单词比摇滚歌曲更常见。

它们来自哪里并不重要,您可以从图表列表(流行图表,摇滚图表等)中进行分类,例如:您可以从每个图表中获取歌曲列表,并将歌词和相应的标签一起提供给学习者。 在这种情况下,结果将是一个预测模型,在这些图表中,新歌将出现在这些图表中。

或者,您可以使用歌词和标签手动定义训练集。这完全取决于你想要学习的内容。如果您计划创建个性化库,则使用手动定义的测试用例是有意义的。如果它更倾向于测试算法或类似使用一些易于访问的数据,如图表。在这种情况下,你要尝试学习"黑盒子"方法,决定某首歌属于哪个图表(例如创建购物车清单的人的音乐品味)。