我需要构建一个分类器,将任何推文字符串分类到特定的类别。我大约有15个左右的类别。我和我一起训练数据集。任何想法我应该如何继续这个?为此使用Python或Java。
我一直在研究Textblob和Stanford NLP分类器。我只是不确定选择哪一个来获得更好的结果。
答案 0 :(得分:1)
我喜欢在Python中使用scikit-learn进行有监督的机器学习。 http://scikit-learn.org/stable/。
对于Java,您可能会考虑DKPro https://dkpro.github.io/,因为他们已经利用现有的工具包来完成各种NLP任务。
最后,无论您使用什么工具包,您都可以考虑是否可以将TweetNLP http://www.ark.cs.cmu.edu/TweetNLP/用于POS标记组件。
祝你好运!