Amazon EMR:将EBS卷附加到实例时如何确保使用此卷

时间:2017-04-19 20:12:00

标签: amazon-web-services amazon-emr amazon-ebs mrjob

在我的mrjob.conf中,我为其他卷进行了设置:

  Instances.InstanceGroups.member.2.EbsConfiguration.EbsBlockDeviceConfigs.member.1.VolumeSpecification.SizeInGB: 250
  Instances.InstanceGroups.member.2.EbsConfiguration.EbsBlockDeviceConfigs.member.1.VolumeSpecification.VolumeType: gp2
  Instances.InstanceGroups.member.2.EbsConfiguration.EbsBlockDeviceConfigs.member.1.VolumesPerInstance: 1

当我运行集群时,我看到每个实例都有10GB和250GB的卷。但EMR是否使用250gb存储来保存数据?如果不是如何使它工作?

1 个答案:

答案 0 :(得分:1)

是,如果在群集启动期间使用EMR API配置EBS卷,则EMR会为HDFS安装,格式化和使用EBS卷。

您可以看到它挂载到/ mnt1 /,/ mnt2 / etc等点以及hdfs-site.xml中包含的挂载点。所有对HDFS的写入都将根据hdfs-site.xml中设置的策略自动在这些安装中进行平衡。当前的策略是*所有写入都会达到最大音量,直到剩余空间大致等于其余音量,然后它开始使用循环。

请注意,所有内容都可能无法使用挂载点,例如,EMR可能不会使用这些挂载将纱线容器日志存储在本地磁盘上。 (您可以稍后配置)