有没有办法在 spark 中以字节数组的形式读取文件?
截至目前,我正在使用以下代码,但文件的内容在字节级别发生变化。它是一个加密文件,因此正在寻找在字节级别没有任何变化的情况下读取文件的方法。我看到很多关于同一主题的问题,但没有一个提供令人满意的答案。所以发布这个问题,因为它也可以帮助其他人。谢谢
val rawFileRDDEncrypted = spark.sparkContext.textFile("path")
答案 0 :(得分:3)
让它与这个一起工作
val binaryFileList = spark.sparkContext.binaryFiles("file").collect()
val byteArray: Array[Array[Byte]] = binaryFileList.map(tuple=> {
val pds = tuple._2
val dis = pds.open()
val len = dis.available();
val buf = Array.ofDim[Byte](len)
pds.open().readFully(buf)
buf
})