machine-learning - 此方案的文本分类技术

时间：2017-08-30 15:41:23

标签： machine-learning classification cluster-analysis data-mining

我是机器学习算法的新手，我对数据集的分类提出了一个简单的问题。

目前，训练数据由两列Message和Identifier组成。

消息 - 从包含时间戳和一些文本的日志中提取的典型消息标识符 - 应根据消息内容对类别进行分类。

培训数据是通过从工具中提取特定类别并相应标记来制备的。

现在测试数据只包含消息，我正在尝试相应地获取类别。

在这种情况下哪种方法最有用？是监督学习还是无监督学习？

我有一个训练有素的数据集，我正在尝试预测测试数据的类别。

提前致谢，亚当

答案 0 :(得分：2)

如果您的标签是精确的，那么您可以使用ANN，SVM等进行分类。但标签并不准确，您必须根据数据中的功能对数据进行聚类。 K-means或最近邻居可以作为聚类的起点。

答案 1 :(得分：0)

您有预测标签和培训数据。

因此，根据定义，这是一个受监督的问题。

尝试任何文本分类器，例如NB，kNN，SVM，ANN，RF，......

很难预测哪种方法最适合您的数据。您将尝试评估几个。

答案 2 :(得分：0)

这是监督学习和分类问题。

但是，显然您没有测试集的标签列（待预测值）。因此，您无法计算该测试集的误差测量值（例如误报率，准确度等）。

但是，您可以将执行所包含的标记训练数据集分成较小的训练集和验证集。也许是将它分成70％/ 30％。然后从较小的70％训练数据集构建预测模型。然后在30％验证集上调整它。当准确性足够好时，将其应用于您的测试集以获得/预测缺失值。

使用哪种技术/算法是一个不同的问题。您没有提供足够的信息来回答这个问题。即使你做了，你仍然需要自己调整模型。