数据集不平衡,异常分布与正常数据相同

时间:2019-01-20 15:09:07

标签: python data-science anomaly-detection

我使用的数据集包含2个类别(95%,5%)。

这两个类的功能几乎具有相同的分布。

问题是:如何对这两个类进行分类并解释该模型用于对测试集进行分类的原理?

enter image description here

1 个答案:

答案 0 :(得分:0)

实际上,要素的分配是有意义的,但是与要素的简单分配相比,您必须进行更详细的探索性分析。我建议看看一些3D图。您可以查看有关EDA的一些链接:

https://www.kaggle.com/dejavu23/titanic-eda-to-ml-beginner

https://www.kaggle.com/dejavu23/house-prices-eda-to-ml-beginner

关于分类模型,我建议使用基于Decision Tree的模型,例如Random ForestGradient Tree BoostingDecision Tree背后的想法是特征空间的划分,并对特征空间的每个部分进行相同的预测。您可以使用一些软件包来绘制决策树,这将有助于理解模型背后的原理。您可以在精美的书中详细了解所有这些模型:

http://www-bcf.usc.edu/~gareth/ISL/

链接到软件包:

https://lightgbm.readthedocs.io/en/latest/

https://scikit-learn.org/stable/modules/tree.html

https://scikit-learn.org/stable/modules/ensemble.html

您可以阅读有关决策树可视化的信息:

https://medium.com/@rnbrown/creating-and-visualizing-decision-trees-with-python-f8e8fa394176

https://www.kaggle.com/willkoehrsen/visualize-a-decision-tree-w-python-scikit-learn

相关问题