Pig中的Python UDF

时间:2012-05-30 01:20:09

标签: python hadoop mapreduce apache-pig

我已经看过了文件here,但我承认我觉得它很缺乏。我想知道是否有人可以给我收集关于将Python UDF合并到Pig中的示例。特别是

  • 在Pig 0.10之前,布尔类型不存在,但FILTER操作需要将结果解析为布尔值。如果我没有最新版本,我会永远诅咒返回10并使用FILTER alias BY py_udf.f(field) > 0吗?
  • Python无法访问AlgebraicAccumulatorFilter接口吗?
  • 我是否也无法访问分布式缓存?
  • 存储/加载功能怎么样?

2 个答案:

答案 0 :(得分:2)

Python UDF非常有限。您不能使用代数或累加器接口,也不能在Python中编写LoadFunc。对于比地图操作更复杂的任何事情,您可能需要求助于Java UDF。

也就是说,可以在http://ragrawal.wordpress.com/2013/02/24/on-writing-python-udf-for-pig-a-perspective/找到具有动态outputSchema的更复杂的Python UDF。这可能对您没有帮助,但它可以让您更好地理解Python UDF可以做什么。

答案 1 :(得分:0)

这可能无法解答您的大多数具体问题,但this blog post和链接代码包含几个使用Pig with Python的好例子,并且包括Store / Load的使用以及它们与Python的交互。

相关问题