将数据帧写入hdfs

时间:2018-11-23 07:50:08

标签: apache-spark hadoop apache-spark-sql hdfs left-join

我正在尝试编写一个具有2300万行的spark数据帧和一个具有50万行的数据帧,如

var A_P = p.join(a,Seq("Price_Primary","TerminologyID"),"left_outer")

但我总是不断收到此错误

由以下原因引起:org.apache.hadoop.ipc.RemoteException(java.io.IOException):文件/ TAPS / nov_2018_4 / _temporary / 0 / _temporary / attempt_20181123071422_0030_m_000058_0 / part-00058-1ab8b5c0-d5ae-4d97-abe1-72746 .csv只能复制到0个节点,而不能复制到minReplication(= 1)。有3个数据节点在运行,并且此操作中不排除任何节点。

此错误的原因是什么? HDFS具有1 TB的空间,因此我认为这不是HDFS中的空间问题。请在这里帮助我。

0 个答案:

没有答案