machine-learning - 用于文本分类的词性（POS）标签特征选择

一种简单的开始方式如下（假设词序对于你的分类算法并不重要）。

首先，您需要手动对多个句子进行分类。这是您的训练数据集。通常，您从每个类手动分类的句子越多，您将获得的准确度越高。对于这样的监督方法，请记住，所选择的唯一功能将来自您手动分类的句子。您的所有训练句都是单词/ POS的唯一组合。

最后，您必须选择一个特征选择算法。那里有很多，但一个受欢迎的是卡方。其他一些是信息增益，相互信息等。使用卡方，您将单独测量类变量对每个特征的依赖性。您可以选择一些阈值，例如具有最低卡方值的特征的前10％，并且仅保留这些特征以便稍后在分类器中使用。

特征选择算法的选择很重要，需要反映您正在使用的算法。例如，当您想要找到与您的班级正面和负面相关的特征时，卡方是好的。在其他情况下，您可能只需要正相关的功能，因此您需要选择另一种算法或修改现有算法。

希望有所帮助， William Riley-Land