您如何查看HDFS中文件的行组

时间:2018-11-13 17:30:05

标签: apache-spark hadoop hdfs parquet

我在jira中遇到了这个page,并且我想知道如何获得行组的相同视图。像这样:

enter image description here

hdfs中是否有可以向我显示此命令的命令?

2 个答案:

答案 0 :(得分:2)

我报道了JIRA。我用过

parquet-tools meta /path/to/file.parquet | grep "row group"

,然后手动编辑输出以对齐数字。另外,您可以附加| column -t进行一些基本对齐。尽管在这种情况下,数字将左对齐而不是右对齐,但至少它们将在另一个的下面排成一行。

parquet-tools本身是parquet-mr中未记录的辅助脚本included。不用使用它,您只需致电

hadoop jar /path/to/parquet-tools-<VERSION>.jar

在Hadoop群集上或

java -jar /path/to/parquet-tools-<VERSION>.jar

本地。对于后者,您必须使用本地配置文件来构建拼花地板,即

mvn package -Plocal

这在build instructions中有描述。

答案 1 :(得分:1)

我猜它的输出parquet-tools经过grep筛选,就像

  $ parquet-tools meta --debug <file-name> | grep "row group"