使用Naive bayes进行文本分类

时间:2014-03-11 06:34:11

标签: text text-files classification data-mining

如果我没有在正确的部分发帖,请引导我。

我的训练数据有一些文本文件,这些文件未在word文档中格式化。它们都只包含ASCII字符。

我想使用数据挖掘方法在文本文件上训练模型。

文本文件平均每个文件大约有300个单词。

是否有任何软件建议我开始使用它?

我最初的想法是使用其中一个文件中的所有单词作为训练数据,剩下的作为测试数据。这是执行交叉折叠验证。

但是,我有像weka这样的工具,但它似乎不能满足我的需求,因为转换为csv文件在我的情况下似乎不可行,因为文本文件是分开的

我尝试以这样的方式执行交叉验证,即训练数据中的所有单词都被视为要素。

1 个答案:

答案 0 :(得分:2)

您需要使用weka StringToWord过滤器并将文本文件转换为arff文件。之后,您可以使用weka分类算法。请关注video以了解基础知识。