python - 提高文本分类的准确性

提高文本分类的准确性

时间：2018-11-01 00:57:49

标签： python machine-learning neural-network text-classification

我正在尝试为文本分类任务找到模型。我的样本数量约为4500个句子，每个句子大约50个字长。我要对文本进行分类的类别为3，正面，负面和中立。我使用了机器学习（SVM，RF，LR），并且准确性不超过75％（我还完成了预处理部分）。我想与Deep Neural Nets一起工作，也许可以递归，但我不知道从哪里开始。为了达到最大准确性，您有什么建议？我应该期望多少精度？（请问我使用python）

2 个答案:

答案 0 :(得分：0)

4500个句子，每个单词50个字长，对于深度架构而言还远远不够。您可以尝试解决，但我认为它不会起作用。
有了这么多的数据，我建议您为尝试的算法（SVM，RF等）投入更多的精力进行参数调整和单词嵌入。您如何在数字空间中表示数据？使用最新技术进行良好的嵌入仍然可以显示出惊人的效果。
对于有关准确性期望的问题，如果我还没有看到数据，就无法告诉您这些信息。但是，根据我自己的经验，每个句子不太长的3类文本分类问题可以以80％到90％甚至98％的精度来解决。在很大程度上取决于数据的本质

答案 1 :(得分：0)

正面/负面/中性文本/评论分类是一项非常常见的任务，网络上有许多数据集。您可以使用其中一些扩展训练数据集。或尝试使用基于它们的预训练模型。