如何获取/复制HDFS文件到Git repo反之亦然?

时间:2018-03-13 17:17:12

标签: git hadoop github hdfs

我在HDFS中有文件需要与Git仓库中的其他文件进行比较。所以,我想将HDFS文件复制到Git仓库中。另一个工具将比较无法与HDFS交谈。

是否可行?

如果是,请告知是否有其他方法可以取出文件?

1 个答案:

答案 0 :(得分:0)

我想到了一些想法:

  1. 您可以将文件从hdfs复制到本地计算机,然后运行比较文件的工具。

    a)您可以使用命令行工具手动执行此操作:

    DeviceNotRegistered

    b)您可以撰写oozie工作流程,其中包含您的“比较器”的操作。并将使用hadoop fs -copyToLocal <hdfs file> <local file> 从hdfs获取文件。

    c)如果您没有可用的命令行工具,可以使用distributed cache获取文件:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/WebHDFS.html

  2. 您可以从hdfs流式传输数据内容并快速对其进行比较&#39;使用文件系统API:https://hadoop.apache.org/docs/r2.7.5/api/org/apache/hadoop/fs/FileSystem.html#open-org.apache.hadoop.fs.Path-
相关问题