我注意到大多数博客都在谈论如何设置HDFS审核日志。 但是有没有来源来确定每个操作/ cmd代表什么?
我在Hadoop HowToConfigure wiki中找到了下表:
但我不知道的是,在所有操作中,它们代表什么。
e.g。我试图通过读/写操作对操作进行分类,但似乎" open"是读/写的通用命令,其余的更像是DDL和访问控制操作。
我确实理解在Cloudera或HDP等不同的Hadoop发行版中,他们有自己的方式来告诉审计日志,但默认操作代表什么?例如create - 可能意味着创建文件/ mkdirs可能意味着mkdir用于hive表/ hive分区。
最重要的是有一种区分读/写操作的方法吗?
答案 0 :(得分:0)
如果您考虑最典型的Hadoop作业(Pig,Hive,MR,SQOOP,Spark),您很少会覆盖数据,因此create意味着write和open意味着read。如果要覆盖数据,则实际将其删除,然后重新创建它。
要区分哪个服务执行了操作,您还需要查看其他来源(Hive审核日志,YARN RM审核日志)或从用户和目录推断服务(/ usr / hive / warehouse / *可能是hive查询)。
覆盖/附加引用:
How to force STORE (overwrite) to HDFS in Pig?
How does Sqoop append command will work in hadoop
Hive审核日志:
https://cwiki.apache.org/confluence/display/Hive/GettingStarted#GettingStarted-AuditLogs