Question

我正在处理分类任务（0/1）。该数据集是通过对原始日期集应用过滤条件而生成的，我无法访问它。功能是已应用于原始数据集的过滤条件。这意味着存在一个过滤器维度，其中包含有关已过滤数据类别的信息，以及一个或多个多个过滤器值。棘手的事情是，没有固定的方式应用过滤标准，即对于不同的观察结果，过滤尺寸和过滤值的数量会有所不同。

重要的是要注意各行之间的关系：通常，一行表示一个观测值，但此处一个观测值可能由多行组成（具有相同ID的所有行都属于同一观测值）。目的是预测观察结果是属于阳性还是阴性类别，由“目标”列指示。

你们对如何构造数据有任何建议吗？另外，是否有适用于此类数据的特定机器学习算法？

到目前为止，我的方法是应用“一次热编码”并使用标准的ML技术，例如“随机森林”或“增强”，这显然很幼稚，并且忽略了不同行之间的关系。

谢谢！ BigBrian

    ID  target Filter_Dimension Filter_Value
0   1       1           Country           US
1   2       0           Country           Mx
2   2       0  Product_Category         Cat1
3   2       0  Product_Category         Cat2
4   3       1           Country           Mx
5   3       1  Product_Category         Cat3

在我的数据集中，过滤器尺寸和过滤器值的数量巨大。

过滤后的数据-数据结构和预测算法

0 个答案: