Hive断管错误

时间:2012-12-05 18:38:49

标签: hadoop hive

我一直致力于一个包含配置单元查询的项目。

  

INSERT INTO OVERWRITE .... TRANSFORM(....)使用'python script.py'FRN .... LEFT OUTER JOIN。 。 。 LEFT OUTER JOIN。 。 。 LEFT OUTER JOIN

在开始时一切正常,直到我们加载了大量的虚拟数据。我们只是在一些字段上写了相同的记录,但变化很小。之后我们再次运行它,我们得到一个没有太多信息的管道错误。没有关于错误的日志,只有IOException:Broken pipe错误。 。 。

为简化脚本并隔离错误,我们将脚本修改为

for line in sys.stdin.readlines():
    print line

避免在该级别出现任何错误。我们仍然有同样的错误。

2 个答案:

答案 0 :(得分:1)

这个问题似乎是通过在不同的查询中分割这么多连接并使用中间表来解决的。然后,您只需添加最后一个查询,并总结所有以前的结果。据我所知,这意味着脚本级别没有错误,但是hive要处理的数据太多

答案 1 :(得分:0)

另一个解决方法是删除转换并生成一个新查询,将数据插入另一个表中,只运行转换。我不是百分百肯定为什么,scrtip是正确的。我认为由于有如此多的连接,这个问题可能是一个非常大量的数据流。