究竟需要多少Java才能有效地使用Hadoop和Mahout?

时间:2010-07-22 18:21:49

标签: java php hadoop mahout

我是PHP开发人员。我们现在就把它解决掉。但 Hadoop - 以及 Mahout 特别是 - 激起了我的兴趣。我已经准备好深入研究Java以便使用它们。

所以从人们的经验到足以知道,我需要多少Java才能有效地使用这些?从我所看到的,编程映射器/缩减器并不能满足所有需要许多。但是对于Mahout,当我查看文档时,我完全不确定我在看什么。

另外,从我的PHP应用程序中获取数据以通过Hadoop和Mahout进行Java处理有多难?我无法想象它会那么困难,但我是没经验足够说。

4 个答案:

答案 0 :(得分:7)

使用Mahout和Hadoop将数据从PHP传输到Java进行分析应该不是那么困难。

更简单的方法是以批处理模式离线使用Mahout和Hadoop,并将数据产品存储在文件系统或数据库中。然后,PHP可以读取这些数据产品,就像从日志中删除一样简单。

对于实时使用,Mahout的推荐部分支持各种Web服务接口,使得从PHP访问变得非常容易。击中Mahout的模型评估部分需要更多的编程。

答案 1 :(得分:1)

Java的初级水平就足够了。你总是可以根据自己的需要深入挖掘。

答案 2 :(得分:1)

我只是做了同样的事情,而且多年来我做了与Java相关的事情。我做的是以下内容:

  1. 从简单的Hadoop流媒体示例开始
  2. 使用PHP流媒体试用我自己的分析
  3. 开始尝试使用猪
  4. 开始尝试使用Pig内部的PHP流媒体
  5. 所有没有任何Java!

答案 3 :(得分:0)

对于实时建议,您还可以在java servlet类中实例化mahout实例,然后将导出作为战争提供给tomcat服务器。