用于分类和聚类的特征之间的关系

时间:2017-02-11 06:13:46

标签: machine-learning classification cluster-analysis

我是机器学习的新手,我有以下问题。假设我已经对某些数据实施了分类算法,并认识到分类算法的最佳特征组合。如果有一天我从同一资源中获取数据,而这些资源缺乏先前分类任务中的目标特征,我可以使用最佳功能组合直接分类到聚类任务吗? (我知道我可以使用我训练的模型来预测数据的目标,但我只想知道分类和聚类算法之间的最佳特征组合是否相同)

我搜索过网站和我认识的任何资源,但我无法找到问题的答案,有人可以告诉我或者只是给我一个链接吗?谢谢!

2 个答案:

答案 0 :(得分:0)

我会说是的,只要两种情况下目标的性质相同。理想情况下我们想要的是在N空间中相互正交(垂直)的易处理数量的特征,以便每个特征可以最大程度地促进预测。

举一个具体的例子,T恤衫,无论是大尺码还是小尺码。你得到的数据显示,在制造过程中会有一些材料收缩,这意味着T恤有点不规则,收缩率在高度和宽度之间变化,但不是很多。数据显示高度,宽度和颜色,您想要确定它们是在大组还是小组中。您会发现高度和宽度很重要但颜色不重要,因此您决定使用高度和宽度作为分类功能。

重要的是,这两个特征已被确定为彼此最正交,这应该适用于分类或聚类上下文。群集的数量仍然是需要检查的因素。

答案 1 :(得分:0)

可能不够好。

例如,可以分析决策树或随机森林以获得特征的重要性。但是这并不能告诉你需要什么样的预处理(特别是缩放和加权)才能对它们进行聚类(特别是,分类特征难以使用,任何不连续或偏斜的东西都很难)。 / p>

此外,数据往往会随着时间而变化。一次重要的功能(例如Facebook喜欢)现在没用了。

相关问题