RapidMiner错误:常规属性必须是二项式。市场篮子分析

时间:2012-03-07 01:22:14

标签: data-mining rapidminer

我正在尝试学习使用RapidMiner,我的老板要我对一组数据进行市场购物篮分析。但是当我使用给定的模板时,我收到以下错误:

常规属性必须是二项式 这是通过FP-Growth运算符给出的。

我有customerID(仅限数字),productName(字母)和产品数量(数字)列。

由于我是RM的新手,我不知道出了什么问题。

非常感谢任何意见 提前谢谢。

2 个答案:

答案 0 :(得分:2)

FP-Growth需要一个ExampleSet作为输入,其中所有常规属性都是二项式,在这种情况下意味着布尔值。有时,二项式属性具有预定义的正/真和负/假值,否则可以将正值指定为FP-Growth运算符中的参数。此外,每个示例代表一个交易(或您的客户的篮子),每个属性代表整个产品系列中的一个项目,该属性的值定义该项目是否在篮子中。

要查找关联规则,您需要先找到频繁项目集。这是FP-Growth运营商的职责。您的工作是将ExampleSet转换为“事务数据库”,即所有属性都是二进制的。

不幸的是,RapidMiner中的模板有点儿错误。要修复该过程,您必须在FP-Growth运算符之前添加两个运算符。首先,您需要使用值0(运算符'替换缺失值'和参数'缺省')将所有缺失值替换为零。更换后,您需要'数字到二项式'运算符。默认参数值足以将所有属性转换为二进制属性。这个过程现在应该运行!请注意,您需要足够的小型支持来查找频繁的项目集。

答案 1 :(得分:0)

您可能需要将数据转换(折叠)为每个客户一行(实际上是事务)和每个产品的一个数量列(mabye二进制)的格式。使用稀疏向量来保存所有0 s。