Mahout:使用regexconverter或arff.vector将CSV文件导入序列文件

时间:2012-11-27 22:39:47

标签: mahout

我刚开始学习如何使用mahout。我不是一个java程序员,所以我试图远离不得不使用java库。

我注意到有一个shell工具regexconverter。但是,文档很少且没有指导意义。确切地说,指定正则表达式选项有什么作用,以及变换器类和格式化程序类的作用是什么? The mahout wiki非常不透明。我假设正则表达式选项指定什么算作“单位”左右。

他们列出的例子是使用regexconverter将http日志请求转换为我认为的序列文件。我有一个csv文件,略有改变的http日志请求,我希望转换为序列文件。我是否只需更改正则表达式以获取每一行?我正在尝试运行贝叶斯分类器,类似于20 newsgroups example,它似乎完全在shell中完成而不需要java编码。

顺便说一句,arff.vector命令似乎允许我将arff文件直接转换为向量。我对arff不熟悉,认为这似乎是我可以轻松将csv日志文件转换成的东西。我应该使用这种方法,并完全跳过序列文件步骤吗?

感谢您的帮助。

0 个答案:

没有答案