machine-learning - 二进制输出

二进制输出

时间：2017-12-15 22:37:47

标签： machine-learning data-science text-classification naivebayes

我不是数据科学家，也不是数据科学/机器学习的新手。我的目标是预测某些文本是否属于特定类。我看起来很天真的海湾来分类不同类的文本，但在这里我只有一个类。最后，我想预测文本是否属于某个类（例如，如果文本类型为technical，则文本为technical或political）。我只有积极的数据集（类型technical的所有文本）用于培训。

据我所知，Naive海湾需要培训的正面和负面数据集。不确定这是否是此处用于解决问题的最佳算法。如果有的话，想学习更好的方法。感谢。

1 个答案:

答案 0 :(得分：0)

您有两种选择：

您可以使用自动编码器，如下所示：
- 步骤1：使用您拥有的正面数据进行训练
- 步骤2：使用错误计算作为分类器：向您已在步骤1中训练过的自动编码器提供新数据，并将数据单元置于高错误状态＆＃34;异常＆＃34; （在你的情况下，不属于想要的文本类。）
您还可以使用像k-means这样的群集技术，在这种情况下，您需要花费更多时间在功能工程上（选择文本中最相关的功能）。