Question

我有一个数据集，其中包含不平衡的多类因变量。我想知道哪个是训练模型的正确顺序：

1）标准化过采样火车测试拆分

2）traintestsplit-Standardization-oversampling

3）traintestsplit-oversampling-standarding

Answer 1

欢迎上车。

关于您的问题，更好的方法可能是：

preprocessing -> train test split -> normalizing -> over/undersampling

这必须是您的首要任务，其中包括从数据中清除错误以及合并散布在公司各处的所有类型的数据。

这是下一步要做的，原因有两点：

在采样之前对数据进行规范化是一个好习惯，因为某些采样方法使用模型来生成新的数据点，并且接收规范化的数据将更好地生成采样。

最后，对数据进行采样，我建议您评估不同的采样方法和采样率，并比较结果。