保护群集上的Spark作业

时间:2017-04-28 12:47:52

标签: security hadoop apache-spark

我正在处理一个火花要求,其中客户(如安全性主要关注的银行客户端)需要安全地进行所有火花处理。

例如,spark客户端和服务器(驱动程序和执行程序通信)之间发生的所有通信都应该在安全通道上。即使基于存储级别(Mem + Disk)在磁盘上溢出火花,也不应该在本地磁盘上以非加密格式写入,或者应该有一些解决方法来防止溢出。

我做了一些研究,但没有得到任何具体的解决方案。让我知道是否有人这样做了。

任何指导都会有很大的帮助。提前谢谢。

1 个答案:

答案 0 :(得分:1)

听起来像是正确的工作Apache Commons Crypto

您可以实施加密库来加密溢出的输出,而不是防止通常在随机播放阶段发生的溢出。

以下是一些推荐读物:

  1. Securing Apache Spark Shuffle using Apache Commons Crypto
  2. Spark Encryption
  3. 基于JAVA的示例

    1. CipherByteBuffer
    2. Stream Example
    3. 这些示例都是Java的。我不认为您在使用Spark / Scala实现它们时也应该遇到任何问题。我自己没有实现它们,所以我不确定任何潜在的问题等。