r - 具有偏差数据的预测模型（分类）

我正在尝试使用例如Logistic回归或决策树（或任何其他类似的方法）在R中构建预测模型。除了分类变量（例如，是否存在疾病），数据集还包括性别，年龄，BMI，吸烟状况等变量。

变量性对我的模型非常重要，我希望它成为预测变量的一部分。然而，在探索性分析期间，我意识到超过2/3的观察结果来自女性受访者，这不是女性人口的实际比例。

如何将此考虑在内？我的意思是，我不希望这个模型给女性带来更大的风险（例如），因为有更多的观察结果，而不是男性受访者。

非常感谢。

这里有一个很好的讨论：https://stats.stackexchange.com/questions/6067/does-an-unbalanced-sample-matter-when-doing-logistic-regression。这是一个统计问题，而不是R问题。简短的回答是它应该不是问题。请注意底部的最终答案，它表示您可以自己平衡样本，然后记住您的模型是对后验概率的估计，假设类别同样常见。你可以在这种情况下实际做到这一点，这是一个准确的假设，因为你知道你的人口中男性和女性的真实比例。假设您有足够的数据，您可以随机删除一半的女性观察。你也可以修补一下。我经常发现学习一些东西是否有效的最佳方法是两种方式，并看看它是否有所作为。

具有偏差数据的预测模型（分类）

1 个答案: