python - 数据集不平衡，异常分布与正常数据相同

实际上，要素的分配是有意义的，但是与要素的简单分配相比，您必须进行更详细的探索性分析。我建议看看一些3D图。您可以查看有关EDA的一些链接：

https://www.kaggle.com/dejavu23/titanic-eda-to-ml-beginner

https://www.kaggle.com/dejavu23/house-prices-eda-to-ml-beginner

关于分类模型，我建议使用基于Decision Tree的模型，例如Random Forest或Gradient Tree Boosting。 Decision Tree背后的想法是特征空间的划分，并对特征空间的每个部分进行相同的预测。您可以使用一些软件包来绘制决策树，这将有助于理解模型背后的原理。您可以在精美的书中详细了解所有这些模型：

http://www-bcf.usc.edu/~gareth/ISL/

链接到软件包：

https://lightgbm.readthedocs.io/en/latest/

https://scikit-learn.org/stable/modules/tree.html

https://scikit-learn.org/stable/modules/ensemble.html

您可以阅读有关决策树可视化的信息：

https://medium.com/@rnbrown/creating-and-visualizing-decision-trees-with-python-f8e8fa394176

https://www.kaggle.com/willkoehrsen/visualize-a-decision-tree-w-python-scikit-learn

数据集不平衡，异常分布与正常数据相同

1 个答案: