过滤后的数据-数据结构和预测算法

时间:2019-10-14 16:11:06

标签: python pandas machine-learning data-structures statistics

我正在处理分类任务(0/1)。该数据集是通过对原始日期集应用过滤条件而生成的,我无法访问它。功能是已应用于原始数据集的过滤条件。这意味着存在一个过滤器维度,其中包含有关已过滤数据类别的信息,以及一个或多个多个过滤器值。棘手的事情是,没有固定的方式应用过滤标准,即对于不同的观察结果,过滤尺寸和过滤值的数量会有所不同。

重要的是要注意各行之间的关系:通常,一行表示一个观测值,但此处一个观测值可能由多行组成(具有相同ID的所有行都属于同一观测值)。 目的是预测观察结果是属于阳性还是阴性类别,由“目标”列指示。

你们对如何构造数据有任何建议吗?另外,是否有适用于此类数据的特定机器学习算法?

到目前为止,我的方法是应用“一次热编码”并使用标准的ML技术,例如“随机森林”或“增强”,这显然很幼稚,并且忽略了不同行之间的关系。

谢谢! BigBrian

    ID  target Filter_Dimension Filter_Value
0   1       1           Country           US
1   2       0           Country           Mx
2   2       0  Product_Category         Cat1
3   2       0  Product_Category         Cat2
4   3       1           Country           Mx
5   3       1  Product_Category         Cat3

在我的数据集中,过滤器尺寸和过滤器值的数量巨大。

0 个答案:

没有答案