mapping - PENTAHO数据集成数据源/目标映射

PENTAHO数据集成数据源/目标映射

时间：2017-07-12 10:35:16

标签： mapping integration pentaho etl data-integration

我希望找到有关Pentaho数据集成商限制的答案。我目前正致力于1对1数据源集成，并希望将其设为n到1-n。这需要创建动态作业，并想知道是否有任何遇到此类问题。我的1对1工作正常，它将不同的数据源类型（CSV，数据库“Mysql，Oracle ...）集成到同一个日期目的地，需要将其设置为n到1-n。

2 个答案:

答案 0 :(得分：0)

有一个元数据注入步骤。

Diethard here描述了与您类似的用例。

因为它有很多不同的源格式，所以阅读Jens的用例可能是一个很好的投资，Jens是步骤的作者here，其中（除了自动化）是正是你的情况。

答案 1 :(得分：-1)

Pentaho DI中的AFAIK，无法为任何随机数据源创建动态转换。 PDI在将数据加载到目标数据库之前查找输入流中可用的输入列。例如，如果您使用1个数据源（在MySQL中）并将其加载到csv输出，则csv输出步骤预计数据源步骤（表输入）中存在输入列。如果您尝试加载任何 n 随机数据源，则需要分别为每个数据源定义输入列/字段。

或者，您可以探索的内容很少：

<强> 1。文本文件输出步骤中的快速转储：

可以选择快速数据转储文本文件输出步骤中的数据集。在这里，您不需要定义任何输出列。输入字段将自动转储，而不是格式化。您可以使用它将所有输入源映射到csv格式，然后将其加载到目标。

<强> 2。将Java和Kettle一起扩展以构建解决方案：

PDI允许您在水壶上创建自定义JAVA代码。您可以查看this blog了解更多信息。您可以使用此想法创建自定义代码，以将n个数据源字段作为参数传递到水壶并执行它们。 {注意：我没有尝试过这一步，只是在这里大声思考}

希望这会有所帮助：）