标签: python hadoop apache-pig jython
我正在使用Jython在Pig中编写我的Python UDF,但是当我的UDF输入很大时(即它超出了分配给我的JVM的内存),我遇到了内存问题。在Pig文档中,COUNT,MAX等函数通过使用代数,更重要的是使用累加器接口来克服这个问题。 Accumulator接口允许Pig的数据以块的形式发送到UDF,这适合我的问题。有没有人有任何与Jython这样做的例子? (或任何将输入流式传输到Python的想法)非常感谢任何帮助! :)
答案 0 :(得分:0)
Python UDF不支持此类优化接口: http://pig.apache.org/docs/r0.11.1/udf.html#udfs