machine-learning - SVM灯的训练和测试文件

我正在尝试使用SVM来解决文本分类问题。我发现了一个名为SVM light的SVM实现及其衍生的SVM多类（用于超过2个类的分类问题）。但是我真的无法理解用于训练和测试分类器的文件格式。我知道我需要创建一个特征向量（让我们假设我将文档中的每个单词作为一个特征），然后对于每个文档我必须指定它的类，它包含的特征（实际上是特征的索引）特征向量）和创建训练文件的特征值。我对这个'特征值'感到困惑。它可能是什么？它是本文档中该功能的计数吗？或者是别的什么？网站包含的示例列车文件没有整数作为特征值，表明它不是形成特征值的频率

此外，我想知道是否有一些工具/软件可以从一个简单的文档创建这个列车文件。我通常使用Java;所以Java中的一些包对我来说也足够好了。我尝试搜索Google但找不到任何相关内容。

我还想知道是否还有其他更好的方法可以使用SVM进行文本分类。

非常感谢这方面的任何帮助。

SVM灯的训练和测试文件

1 个答案: