猪无法处理大文件

时间:2014-01-17 14:14:38

标签: hadoop apache-pig

我是Hadoop和Pig的新手。

我已经设置了3个节点的Hadoop集群。我编写了一个Pig脚本,它通常读取数据并在其上执行聚合函数。

当我执行带有3600万条记录的4.8G文件时,猪在51分钟内输出。

当我执行带有7200万条记录的9.6G文件时,猪脚本崩溃,Hadoop发出以下错误。

  • 无法从支持的错误重新创建异常:AttemptID:attempt_1389348682901_0050_m_000005_3信息:容器被ApplicationMaster杀死。
  • 作业失败,hadoop不会返回任何错误消息

我正在使用Hadoop 2.2.0和Pig 0.12.0。

我的节点配置

Master:2个CPU,2 GB RAM Slave1:2个CPU,2 GB RAM Slave2:1个CPU,2 GB RAM

你可以就此提出建议吗?

1 个答案:

答案 0 :(得分:0)

与猪一起尝试之后。我搬到了Hive。

我在使用Pig时观察到的内容:

我在HDFS上传文件并将其加载到Pig中。所以猪再次加载该文件。我正在处理文件两次。

对于我的情况,Hive适合。我正在HDFS上传文件并在Hive中加载该文件。这需要几毫秒。因为Hive可以无缝地使用HDFS文件。因此无需在Hive表中再次加载数据。这节省了很多时间。

这两个组件都很好,对我来说Hive适合。

感谢您的所有时间和建议。