如何为Spark-Tachyon集成启用基于谱系的容错?

时间:2015-12-11 12:17:43

标签: apache-spark alluxio

我正在尝试使用Tachyon实现RDD / Dataframe共享。我的理解是,对于HDFS underFS,写入是异步的(复制到HDFS发生在场景后面)因此应该更快但在我的测试中我看到带有HDFS underFS的Tachyon在写入时慢了2-6倍。

this Tachyon paper我看到:

  

“我们在Spark和MapReduce集成中配置了[基于谱系的容错]”

如何在Tachyon中启用Spark以使用基于谱系的容错?

注意:我使用Spark Dataframe方法df.write.parquet和RDD方法rdd.saveAsObjectFile将我的Dataframes / RDD保存到Tachyon。

1 个答案:

答案 0 :(得分:0)

您应该将tachyon.user.lineage.enabled设置为true,并根据您的偏好调整其他血统设置。一些最有趣的设置(来自Master Configuration docs):

  
      
  • tachyon.master.lineage.checkpoint.interval.ms - Tachyon的检查点调度之间的间隔(以毫秒为单位)。
  •   
  • tachyon.master.lineage.checkpoint.class - 沿袭输出文件的检查点策略的类名。默认策略是检查最新完成的谱系,即输出文件已完成的谱系。
  •   
  • tachyon.master.lineage.recompute.interval.ms - Tachyon重计算执行之间的间隔(以毫秒为单位)。执行程序扫描由沿袭跟踪的所有丢失文件,并重新执行相应的作业。每10分钟一次。
  •   

有关详细信息,请参阅Lineage API docs