在水壶中获取数据源

时间:2015-11-16 13:54:28

标签: etl kettle

当我使用水壶时,我正在徘徊如何获得表格列的源列。举个例子,在我已经基于主键将两个表合并到一个表中之后,给定输出表中的任何列,我可以判断它是否属于哪个表并在原始表中获取原始列名。谢谢你的帮助,抱歉我的英语不好......

source w3.org

当我在table3中给出任何字段时(假设table3中有一个名为A的字段),我可以知道它来自哪里而没有图形视图(来自java代码或其他方式),比如原始表名(这里是input1)或input2)和原始列名(可能在input1中为B,但在表3中表示A)。除了我使用mysql。

1 个答案:

答案 0 :(得分:1)

有几种方法可以做到这一点:

1)手动。如果右键单击输出步骤并选择显示输出字段(或其他任何名称),您将看到"原点步骤"对于每个传出字段。您可以对输入字段执行相同的操作。然后,您可以将它们追溯到那些原始步骤,并重复在这些步骤中查看输入字段的过程,并查看这些字段'起源,等等。这可能不是你想要的。

2)使用代码。在6.0之前,您需要以编程方式执行与上面选项1中列出的操作相同的操作。在6.0中,有数据沿袭功能,它提供LineageClient API,可以找到指定输出字段的原始字段。有关更多信息,请参阅描述数据沿袭功能的blog post。另外,我在PDI Marketplace中放置了一个Gremlin控制台,以便更容易地使用LineageClient(您也可以直观地看到谱系图)。