适用于生产环境中的一台机器的Apache Beam Runner

时间:2018-11-12 00:40:47

标签: google-cloud-dataflow apache-beam

从我从Apache Beam的文档中读取的内容来看,应该将Direct Runner用作测试/调试管道代码的运行器。

问题是,我的用例由应该分批处理的大型和(有时)小型数据集组成。我想对两种类型的数据集重复使用相同的管道代码。

我认为并行处理通常不会对在SQL数据库中写小的数据集(2000/3000条记录)有所帮助。如果我将Cloud Dataflow与小型数据集一起使用,则会产生与VM启动时间相关的开销,因为无法在Dataflow中使用单个专用VM。

在这种情况下,我想到了使用Direct Runner处理小型数据集。这对生产环境来说是一个错误的决定吗?还是有一个更适合我不知道的跑步者?

此外,Direct Runner是否自动为ParDo转换创建线程?如果是,是否有一个参数/选项来指定运行程序应该使用的最大线程数?

0 个答案:

没有答案
相关问题