Pentaho Spoon数据集成,合并两个csv

时间:2017-11-13 23:08:21

标签: pentaho kettle spoon

我想合并两个csv文件。 第一个看起来像这样: 网址;名称; API。 url字段包含相同url的50倍,name为空,api字段包含相同api密钥的50倍。 第二个csv看起来像这样: 网址;名称; API。 url为空,name包含50个不同的名称,api为空。

我想创建一个csv文件:url; name; api以及来自两个csv的信息,因此url和api包含第一个的值和第二个csv的名称。

到目前为止,我只创建了两个csv输入并用一个csv输出连接它们。生成的csv有100条记录,50条作为名称为null,50条在url和api中为null。

enter image description here

enter image description here

enter image description here

1 个答案:

答案 0 :(得分:1)

如果要增加列数,则需要查找或加入。

您有一个主流,并且对于流的每一行,您在辅助流中获取一行(查找)或多行(加入)。

在你的情况下,我会首先删除所有不必要的字段(第一个csv文件中的名称,第二个中的url和api),以及不必要的行(在第一个csv文件中只保留一行)。然后将这两个流放入Join Rows steps

并且,如果我确实理解了您的用例,那么您可能会过度复杂的情况,因为在同一步骤(这里Text output 2)指导流需要列相同,以便它们可以一个接一个地添加输入的行。