我正在尝试在Pig中创建一个元组,但文件格式不太友好:
File Format:
Name: Zach
LastName: Red
Address: 34 Store Av
Age: 34
Name: Brian
LastName: Curts
Address: 123 Street Av
Age: 23
我需要创建一个元组:
Name: Zach LastName: Red Address: 34 Store Av Age: 34
Name: Brian LastName: Curts Address: 123 Street Av Age: 23
答案 0 :(得分:1)
您可以使用Java / Python / ...编写自己的UDF来加载此数据。检查文档: http://pig.apache.org/docs/r0.15.0/udf.html#load-store-functions
答案 1 :(得分:0)
疯狂的想法,但它可能会奏效;我假设所有元素都有4行。否则 - 它将无效。
现在,对于每个人,您将获得PersonID,以及包含所有记录的包。我们需要对它们进行排序。为此,您可以使用
output = foreach Person { sorted = order RecordRows by RecordType; 生成PersonID,已排序; }
使用BagToTuple功能将行囊展平成元组
你已经完成了。