从文件夹Spark中读取文件

时间:2017-05-15 19:04:39

标签: apache-spark spark-streaming

如何从Spark中的文件夹中读取特定时间间隔内的数据?

从外部源通过FTP标记文件和数据文件放到文件夹中.Flg文件保存有关所有文件的信息(如元数据文件)。我应该通过读取标记文件来处理所有文件.I我是新兴的火花世界。请建议这种方法。

Ex: - 一个flg文件。     N没有包含.csv和xml

的tar文件

1 个答案:

答案 0 :(得分:0)

如果您在独立系统上运行Spark,那么玉米作业应该足以安排您的火花作业。

如果您在群集上运行,那么您还有更多选项,例如: OoZie,Airflow。

Flow会是这样的:

  1. 为X秒设置cron作业以检查Flag文件的状态。
  2. 如果设置了flag,则停止cron作业并读取/处理数据文件的内容。
  3. 重新启动cron job。
  4. 您可以根据以下几点调整cron作业时间:

    • 您的数据有多大
    • 处理数据需要多长时间
    • 延迟:新数据可用性及其处理之间的时间。

    如果X太小,如1秒,最好在程序中使用睡眠并定期轮询。