我正在处理分类任务(0/1)。该数据集是通过对原始日期集应用过滤条件而生成的,我无法访问它。功能是已应用于原始数据集的过滤条件。这意味着存在一个过滤器维度,其中包含有关已过滤数据类别的信息,以及一个或多个多个过滤器值。棘手的事情是,没有固定的方式应用过滤标准,即对于不同的观察结果,过滤尺寸和过滤值的数量会有所不同。
重要的是要注意各行之间的关系:通常,一行表示一个观测值,但此处一个观测值可能由多行组成(具有相同ID的所有行都属于同一观测值)。 目的是预测观察结果是属于阳性还是阴性类别,由“目标”列指示。
你们对如何构造数据有任何建议吗?另外,是否有适用于此类数据的特定机器学习算法?
到目前为止,我的方法是应用“一次热编码”并使用标准的ML技术,例如“随机森林”或“增强”,这显然很幼稚,并且忽略了不同行之间的关系。
谢谢! BigBrian
ID target Filter_Dimension Filter_Value
0 1 1 Country US
1 2 0 Country Mx
2 2 0 Product_Category Cat1
3 2 0 Product_Category Cat2
4 3 1 Country Mx
5 3 1 Product_Category Cat3
在我的数据集中,过滤器尺寸和过滤器值的数量巨大。