apache-spark - 如何为Spark-Tachyon集成启用基于谱系的容错？

如何为Spark-Tachyon集成启用基于谱系的容错？

时间：2015-12-11 12:17:43

标签： apache-spark alluxio

我正在尝试使用Tachyon实现RDD / Dataframe共享。我的理解是，对于HDFS underFS，写入是异步的（复制到HDFS发生在场景后面）因此应该更快但在我的测试中我看到带有HDFS underFS的Tachyon在写入时慢了2-6倍。

从this Tachyon paper我看到：

“我们在Spark和MapReduce集成中配置了[基于谱系的容错]”

如何在Tachyon中启用Spark以使用基于谱系的容错？

注意：我使用Spark Dataframe方法df.write.parquet和RDD方法rdd.saveAsObjectFile将我的Dataframes / RDD保存到Tachyon。

1 个答案:

答案 0 :(得分：0)

您应该将tachyon.user.lineage.enabled设置为true，并根据您的偏好调整其他血统设置。一些最有趣的设置（来自Master Configuration docs）：

tachyon.master.lineage.checkpoint.interval.ms - Tachyon的检查点调度之间的间隔（以毫秒为单位）。

tachyon.master.lineage.checkpoint.class - 沿袭输出文件的检查点策略的类名。默认策略是检查最新完成的谱系，即输出文件已完成的谱系。

tachyon.master.lineage.recompute.interval.ms - Tachyon重计算执行之间的间隔（以毫秒为单位）。执行程序扫描由沿袭跟踪的所有丢失文件，并重新执行相应的作业。每10分钟一次。

有关详细信息，请参阅Lineage API docs。