Question

我有一个不同的hadoop安装的datanode，namenode和secondary namenode文件夹（包含所有数据或信息）。

我的问题是，你如何看到那里的内容或将其添加到本地HDFS以查看数据或信息。

有一种方法可以恢复它或其他东西，但我找不到任何有关它的信息。

文件夹树是这样的：

对于Namenode＆amp; SecondaryNamenode：

data/dfs/name
├── current
│ ├── VERSION
│ ├── edits_0000000000000000001-0000000000000000007
│ ├── edits_0000000000000000008-0000000000000000015
│ ├── edits_0000000000000000016-0000000000000000022
│ ├── edits_0000000000000000023-0000000000000000029
│ ├── edits_0000000000000000030-0000000000000000030
│ ├── edits_0000000000000000031-0000000000000000031
│ ├── edits_inprogress_0000000000000000032
│ ├── fsimage_0000000000000000030
│ ├── fsimage_0000000000000000030.md5
│ ├── fsimage_0000000000000000031
│ ├── fsimage_0000000000000000031.md5
│ └── seen_txid

对于Datanode：

data/dfs/data/
├── current
│ ├── BP-1079595417-192.168.2.45-1412613236271
│ │ ├── current
│ │ │ ├── VERSION
│ │ │ ├── finalized
│ │ │ │ └── subdir0
│ │ │ │ └── subdir1
│ │ │ │ ├── blk_1073741825
│ │ │ │ └── blk_1073741825_1001.meta
│ │ │ │── lazyPersist
│ │ │ └── rbw
│ │ ├── dncp_block_verification.log.curr
│ │ ├── dncp_block_verification.log.prev
│ │ └── tmp
│ └── VERSION

提前致谢。

Answer 1

在不同Hadoop集群之间复制数据的标准解决方案是运行DistCp命令从源到目标执行所需文件的分布式副本。

假设其他群集不再运行，并且您只有这些备份文件，则可以通过将您拥有的文件复制到新Hadoop群集使用的目录中来进行还原。这些位置将在hdfs-site.xml的配置属性中指定：dfs.namenode.name.dir用于NameNode（您的data / dfs / name目录）和dfs.datanode.data.dir用于DataNode（您的data / dfs / data目录）

请注意，这可能仅在您从先前部署中运行相同版本的Hadoop时才有效。否则，可能存在兼容性问题。如果您尝试运行旧版本，则NameNode将无法启动。如果您尝试运行较新版本，则可能需要首先运行hdfs namenode -upgrade来完成升级过程。

如果您只需要查看文件系统元数据，另一个选项是使用Offline Image Viewer和Offline Edits Viewer命令。这些命令可以分别解码和浏览fsimage和edits文件。

从namenode和datanode文件恢复Hadoop

1 个答案: