PENTAHO数据集成数据源/目标映射

时间:2017-07-12 10:35:16

标签: mapping integration pentaho etl data-integration

我希望找到有关Pentaho数据集成商限制的答案。 我目前正致力于1对1数据源集成,并希望将其设为n到1-n。这需要创建动态作业,并想知道是否有任何遇到此类问题。我的1对1工作正常,它将不同的数据源类型(CSV,数据库“Mysql,Oracle ...)集成到同一个日期目的地,需要将其设置为n到1-n。

2 个答案:

答案 0 :(得分:0)

有一个元数据注入步骤。

Diethard here描述了与您类似的用例。

因为它有很多不同的源格式,所以阅读Jens的用例可能是一个很好的投资,Jens是步骤的作者here,其中(除了自动化)是正是你的情况。

答案 1 :(得分:-1)

Pentaho DI中的AFAIK,无法为任何随机数据源创建动态转换。 PDI在将数据加载到目标数据库之前查找输入流中可用的输入列。例如,如果您使用1个数据源(在MySQL中)并将其加载到csv输出,则csv输出步骤预计数据源步骤(表输入)中存在输入列。如果您尝试加载任何 n 随机数据源,则需要分别为每个数据源定义输入列/字段。

或者,您可以探索的内容很少:

<强> 1。文本文件输出步骤中的快速转储:

可以选择快速数据转储文本文件输出步骤中的数据集。在这里,您不需要定义任何输出列。输入字段将自动转储,而不是格式化。您可以使用它将所有输入源映射到csv格式,然后将其加载到目标。

<强> 2。将Java和Kettle一起扩展以构建解决方案:

PDI允许您在水壶上创建自定义JAVA代码。您可以查看this blog了解更多信息。您可以使用此想法创建自定义代码,以将n个数据源字段作为参数传递到水壶并执行它们。 {注意:我没有尝试过这一步,只是在这里大声思考}

希望这会有所帮助:)