Scala - 如何返回这种RDD类型

时间:2016-08-11 08:19:24

标签: java scala hadoop apache-spark bigdata

我尝试使返回RDD的方法引用this,但由于返回需要参数而失败。根据API(Java),这是我的代码:

def HBaseToRDD(_HBaseConfiguration:HBaseConfiguration, _sc:SparkContext) : RDD[(K, V)] = 
{
val HBaseRDD = _sc.newAPIHadoopRDD(_HBaseConfiguration, classOf[TableInputFormat],
            classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],
            classOf[org.apache.hadoop.hbase.client.Result])
}

有什么想法可以解决这个问题? 提前谢谢......

1 个答案:

答案 0 :(得分:1)

由于Yuval Itzchakov已经提到有关KV的信息缺失,我还会注意到:

  1. 您的方法中缺少返回值
  2. 即使您要返回val HBaseRDD,代码仍然无法编译,因为预期的返回值属于RDD[(K, V)]类型,但val HBaseRDD的类型为RDD[(org.apache.hadoop.hbase.io.ImmutableBytesWritable, org.apache.hadoop.hbase.client.Result)]
  3. 考虑到这一点和几个假设,工作代码示例可能如下所示:

    def HBaseToRDD[K, V](_HBaseConfiguration:HBaseConfiguration, _sc:SparkContext) : RDD[(K, V)] =
    {
      def toK(key: org.apache.hadoop.hbase.io.ImmutableBytesWritable): K = {
        // here you convert key to K
      }
    
      def toV(row: org.apache.hadoop.hbase.client.Result): V = {
        // here you convert row to V
      }
    
      // no need to assign to variable, the result of map will be returned by scala
      _sc.newAPIHadoopRDD(_HBaseConfiguration, classOf[TableInputFormat],
        classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],
        classOf[org.apache.hadoop.hbase.client.Result]).map { case (key, row) =>
        toK(key) -> toV(row) // return tuple of type (K, V)
      }
    }