HDFS审核日志格式和说明

时间:2017-06-14 00:36:07

标签: hadoop logging hdfs audit

我注意到大多数博客都在谈论如何设置HDFS审核日志。 但是有没有来源来确定每个操作/ cmd代表什么?

我在Hadoop HowToConfigure wiki中找到了下表: HDFS Audit Logs format

但我不知道的是,在所有操作中,它们代表什么。

e.g。我试图通过读/写操作对操作进行分类,但似乎" open"是读/写的通用命令,其余的更像是DDL和访问控制操作。

我确实理解在Cloudera或HDP等不同的Hadoop发行版中,他们有自己的方式来告诉审计日志,但默认操作代表什么?例如create - 可能意味着创建文件/ mkdirs可能意味着mkdir用于hive表/ hive分区。

最重要的是有一种区分读/写操作的方法吗?

1 个答案:

答案 0 :(得分:0)

如果您考虑最典型的Hadoop作业(Pig,Hive,MR,SQOOP,Spark),您很少会覆盖数据,因此create意味着write和open意味着read。如果要覆盖数据,则实际将其删除,然后重新创建它。

要区分哪个服务执行了操作,您还需要查看其他来源(Hive审核日志,YARN RM审核日志)或从用户和目录推断服务(/ usr / hive / warehouse / *可能是hive查询)。

覆盖/附加引用:

How to force STORE (overwrite) to HDFS in Pig?

How does Sqoop append command will work in hadoop

Hive审核日志:

https://cwiki.apache.org/confluence/display/Hive/GettingStarted#GettingStarted-AuditLogs