我使用了两个特征来训练分类模型,即特征A和特征B。特征A比特征B更重要。特征A具有序数数据,因此我对其进行了标签编码,其值范围为1到5。特征B也是一种分类功能,在标签编码后对其进行了热编码
由于上述编码,特征A的取值范围是1到5,而特征B的列有多个列,每个列的值是0或1。
现在,在进行模型训练之后,我的模型偏向特征A,因为其值范围从1到5,而对特征B的关注却很少。
现在,如果我使用标准标量对比例进行特征缩放,则特征A的值将在-1到1之间,因此在模型训练后,特征B的作用比特征A大。
是否有更好的方法来同时缩放两个特征,以使特征A具有更多的边缘,但并不能完全忽略特征B?
答案 0 :(得分:1)
一次热编码后,您将仅具有一组功能。该模型将不知道要素是属于A还是B。然后您可以计算要素的重要性,或者运行Feature Selection Algorithms以便提高其效率。
但是,如果您觉得功能A更为重要,请尝试缩放到-1到1以外的其他限制,以使功能A的列比功能B保持更多。或者相应地缩放两者。但是再次,该模型仅将其视为一组功能,因此请尝试更改模型/参数,而不要专注于此以提高性能。