r - 与R市场篮子分析相反

与R市场篮子分析相反

时间：2016-08-12 19:48:28

标签： r analysis cross-validation apriori data-science

我想对市场购物篮分析中哪些项目没有很好地进行分析。基本上找出哪个项目没有排除在队列之外。我有一种情况，其中一个记录（包含13个属性/列）由于各种属性组合而不完整。例如：a1，a2 .... a13。所有上述属性可能有也可能没有值。但任何没有值的属性都会使记录不完整

在这种情况下，我需要看到，不完整记录的哪种组合主要出现在我的记录集中。了解这种模式将有助于我的团队优先考虑最需要关注的记录。我看到Apriori算法仅采用可用的值，但我需要分析未发生的组合。我相信这个问题过去应该已经解决了，但我没有在论坛中看到任何提示。有没有人有这种经历？或者你建议我应该使用任何其他算法？我正在使用R进行此分析。总记录：218k

2 个答案:

答案 0 :(得分：1)

如果我正确掌握你陈述的情况，你想获得一个数据集，其中一个案例的一个项具有一个值或没有一个值，关联那些具有至少一个项目的案例的规则没有价值，然后只有这些没有价值的物品。为此目的，Apriori算法就好了。你甚至不需要反转它。解决方案在于数据集的格式化：只需删除带有值的项目，并为没有值的项目提供类似于关注项目名称的值，例如： A12。然后，您的数据集仅包含至少一个没有值的项目和没有值的项目的案例，以及这些项目可以通过它们的值（即它们的名称）来标识。现在，Apriori算法可以提取格式化数据集中的频繁项集和随后的关联规则。关于是否应该使用其他算法来提取关联规则：是的。使用FP-Growth。它比Apriori算法更快。

答案 1 :(得分：0)

谢谢，这个答案有帮助。我需要分析每个事务中的所有空项，我需要查看哪个组合的null最常出现在所有事务中。我尝试用常量替换所有空值。在apriori算法中做了一些调整，以获得那些常量为rhs。但我不明白，FP增长算法如何帮助解决这个问题？你能解释一下吗？