java - 将12000个文件导入一个表

我需要为我的项目设置流媒体环境。数据集是下一个：http://research.microsoft.com/pubs/152883/User_guide_T-drive.pdf

我计划使用PostgreSQL和Apache Kafka作为源，然后使用Apache Spark或Flink连接到Kafka，但问题是数据集大约是10000个文本文件。

所以，问题是将~10000个文件（每个大约500行）导入一个表格的最有效/优雅的方法是什么。

目前我已尝试使用 psycopg2 和 executemany 方法（超级慢）和带有JDBC连接器的Apache FLink作业的python脚本（速度很快，但不知道如何在一个Job中迭代10000多个文件。