apache-pig - 猪拉丁JOIN性能提升

我需要一些提示，指导和/或您在大型数据集上执行Pig Script执行性能改进的经验。

我使用Pig（版本0.12）和Hive（版本0.11）来分析客户交易。在我的情况下，猪脚本将每天安排;主要数据包含大约500K到800K的记录（甚至高达100万），并且将有4个额外的数据集来帮助分析主要交易数据集，每个数据集将有大约50K的记录。

我听说在大数据处理中，我们应该避免使用JOIN，但在我的情况下我不能;我必须加入我的主要数据集和这4个额外的数据集，并做大量的IF-ELSE，FILTERS，JOINS等，以便每天生成一些交易分析报告。

当我尝试使用95K记录的主数据集时，花了大约2个小时。所以我很害怕尝试100万条记录的实际数据集。

如何提高猪脚本的性能？加入数据集的最佳方式？