我在一个EMR(Spark群集)中有一个批处理作业,该作业将批量插入另一个EMR(HBase群集)中。两个EMR都位于同一专用子网中。
如何监视两个EMR之间的带宽? AFAIK他们没有使用NAT Gateay,对吗?如果其他人员在同一子网内发生,我是否可以仅具有从EMR到EMR数据传输的指标?假设另一个Spark作业执行大量改组。
P.S。确实,AWS在同一可用区内的EC2实例之间为您提供〜10 gybit / sec带宽吗?这个带宽是否在同一子网内的所有实例之间共享?
答案 0 :(得分:1)
首先,无法监控子网的流量,每个实例级别的网络统计信息(如出入的字节数(也包括数据包))都会发布到cloudwatch中。
如果需要在集群级别,则可以根据实例的集群类型在逻辑上进行分组,并聚合相应的指标,并为每个集群提供自定义统计信息,而不是开箱即用。*
是的,在同一VPC中具有私有IP的实例不需要NAT在它们之间进行通信。
网络带宽取决于实例类型,较新的类型(例如c5)声称具有100 Gbps的速度,对于IO重工作(如EMR),建议使用那些具有高网络带宽的实例。
(https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/enhanced-networking.html)