Spark,如何将文件读取为字节数组?

时间:2021-03-03 08:29:14

标签: scala apache-spark

有没有办法在 spark 中以字节数组的形式读取文件?

截至目前,我正在使用以下代码,但文件的内容在字节级别发生变化。它是一个加密文件,因此正在寻找在字节级别没有任何变化的情况下读取文件的方法。我看到很多关于同一主题的问题,但没有一个提供令人满意的答案。所以发布这个问题,因为它也可以帮助其他人。谢谢

val rawFileRDDEncrypted = spark.sparkContext.textFile("path")

1 个答案:

答案 0 :(得分:3)

让它与这个一起工作

val binaryFileList = spark.sparkContext.binaryFiles("file").collect()
val byteArray: Array[Array[Byte]] = binaryFileList.map(tuple=> {
  val pds = tuple._2
  val dis = pds.open()
  val len = dis.available();
  val buf = Array.ofDim[Byte](len)
  pds.open().readFully(buf)
  buf
})
相关问题