在朴素贝叶斯中展现出强制性

时间:2016-01-31 23:57:09

标签: machine-learning bayesian-networks

我有一个分类文本字符串的数据集。

我目前使用简单的词汇(出现次数)作为独特的功能。是否有可能有一个学习函数来生成数据的随机正则表达式以提取特征,看看我们是否得到了更好的结果,而不必尝试自己创建特征(例如:这句话是否包含"。& #34;?)

1 个答案:

答案 0 :(得分:0)

简短的回答是肯定的 - 你可以做任何事情。

更长一点是你可以生成随机正则表达式,但是:

  • 你需要找到我们自己构建它们的方式,这将是一个强烈的偏见(一个先前的特征)可能(或可能不会)导致合理的模型
  • 考虑将分类器更改为更高级的东西,如果结果是坏的,那么这将更合理且更容易实现 - 想想一些线性模型
  • 对于NLP,有一些表示数据的数字方法可能更好,从TfIDF开始,如果失败,你可以寻找现代单词嵌入(表示学习)