有关功能工程的建议

时间:2019-04-11 00:35:25

标签: python machine-learning data-science feature-engineering

在要素工程过程中出现问题。寻找一些建议。问题陈述:我有3天的多个客户使用情况数据。有些只使用1天,有些使用2天,有些使用3天。数据与每天发送的电子邮件数量/每天添加的联系人等有关。

我正在将该时间序列数据转换为按列的数据,即,第1天客户发送的电子邮件数量为一项功能,第2天客户发送的电子邮件数量为某项功能,依此类推。 但是问题在于,对于不同的客户,用法可以是递增顺序或递减顺序。

即示例1:客户'A'->'1日发送的电子邮件数量。天” = 100。 '第二天发送的电子邮件数量'= 0

示例2:客户'B'->'1日发送的电子邮件数量。天'= 0。 '第二天发送的电子邮件数量'= 100

示例3:客户'C'->'1日发送的电子邮件数量。天'= 0。 '第二天发送的电子邮件数量'= 0

示例4:客户'D'->'1日发送的电子邮件数量。天” = 100。 '第二天发送的电子邮件数量'= 100

在前两种情况下=>我的新功能将使用“ -100”和“ 100”作为值。我猜这对区分很有帮助。 但是,在两种情况下,当新要素值均为“ 0”时,第三列和第四列都会出现问题 谁能建议解决此问题的方法

1 个答案:

答案 0 :(得分:0)

您可以提取以下功能:

    第2天和第3天的
  1. 简单移动平均线。这意味着您现在有两个额外的列。

  2. 前一天的百分比变化

  3. 从第一天到第三天的百分比变化