google-cloud-dataflow - 适用于生产环境中的一台机器的Apache Beam Runner

从我从Apache Beam的文档中读取的内容来看，应该将Direct Runner用作测试/调试管道代码的运行器。

问题是，我的用例由应该分批处理的大型和（有时）小型数据集组成。我想对两种类型的数据集重复使用相同的管道代码。

我认为并行处理通常不会对在SQL数据库中写小的数据集（2000/3000条记录）有所帮助。如果我将Cloud Dataflow与小型数据集一起使用，则会产生与VM启动时间相关的开销，因为无法在Dataflow中使用单个专用VM。

在这种情况下，我想到了使用Direct Runner处理小型数据集。这对生产环境来说是一个错误的决定吗？还是有一个更适合我不知道的跑步者？

此外，Direct Runner是否自动为ParDo转换创建线程？如果是，是否有一个参数/选项来指定运行程序应该使用的最大线程数？