machine-learning - 监督学习中的特征组合/联合特征

时间：2013-08-16 07:03:11

标签： machine-learning computer-vision

在尝试为监督学习问题提出适当的功能时，我有以下想法，并想知道它是否有意义，如果是，如何以算法方式制定它。

在图像中，我想对两个区域进行分类，即两个“类型”的像素。假设我有一些有界结构，让我们采取一个圆圈，我知道我可以限制我的搜索空间到这个圆圈。在那个圆圈内，我想找到一个分割轮廓，即将我的像素分成内部A类和外部B类的轮廓。

我想实施以下模型：

我知道靠近边界圆的像素更可能在外层B中。

当然，我可以使用距边界圆的距离作为特征，然后算法将学习内部轮廓与边界圆的平均距离。

但是：我想知道我是否可以更智能地利用我的模型假设。一个启发式的想法是通过这个距离权衡其他特征，因此，如果一个远离边界圆的像素想要属于外部B类，它必须具有强烈的说服其他特征。

这导致一般性问题：

如何利用算法单独学习的特征的联合信息？

以特定问题：

在我概述的设置中，我的启发式想法是否有意义？算法应该在什么时候使用这些信息？如果我想在文献中寻找类似的想法，那么推荐的文献或流行语是什么？

答案 0 :(得分：1)

这导致了一个普遍的问题：

如何利用算法单独学习的特征的联合信息？

你在这里真正要问的并不是很清楚。你是什么意思“通过算法单独学习”和什么是“joiint信息”？首先，问题太广泛，没有像“通用监督学习模型”这样的问题，每个都至少以不同的方式工作，大多数分为三类：

在每一个中，都以某种方式编码了关于特征的“联合信息” - 分类函数是它们的联合信息。在某些情况下，很容易解释（线性回归），而在某些情况下几乎是不可能的（深度boltzmann机器，通常是所有深层架构）。

并提出一个具体问题：

在我概述的设置中，我的启发式想法是否有意义？算法应该在什么时候使用这些信息？如果我想在文献中寻找类似的想法，那么推荐的文献或流行语是什么？

据我所知，这个概念非常值得怀疑。如果您的数据不相关，许多模型往往会学习和工作得更好，而您正试图做相反的事情 - 将所有内容与某些特定功能相关联。这引起了一个主要问题 - 你为什么要这样做？强制模型主要使用此功能？

如果它如此重要 - 也许监督学习不是一个好主意，也许你可以通过基于这个特定功能应用一组简单的规则来直接建模你的问题？
如果你知道这个功能很重要，但是你知道在某些情况下其他事情很重要，而且你无法对它们进行建模，那么你的问题就会多少来衡量你的功能。它应该只是distance*other_feature吗？为什么不sqrt(distance)*feature？那么log(distance)*feature呢？有无数的可能性，寻求最佳加权方案可能会花费更多，然后找到一个更好的机器学习模型，它可以从原始功能中学习您的数据。
如果您只是怀疑该功能的重要性，那么最好的选择就是......不要相信这种信念。大量研究表明，机器学习模型在选择人体特征方面更胜一筹。实际上，这是非线性模型的重点。

在文献中，您试图解决的问题通常被称为将专家知识纳入学习过程。有成千上万的例子，其中有某种知识无法直接在数据表示中编码，但却无法忽略它。你应该研究像“机器学习专家知识”这样的术语，以及它可能的同义词。

答案 1 :(得分：1)

对于你正在研究的问题（称为分段）作为要在Markov Random Field上执行的优化，有相当多的工作可以通过图形理论方法（如GraphCut）来解决。一些例子是微软研究院的Pushmeet Kohli的工作（试用this论文）。

您所描述的是，在该框架中，先前的节点成员资格，其中p（B）与距离边缘的距离成反比（除了您想要施加的任何其他连接性约束之外，通常还有一个连通性，肯定会有像素强度的可能性。这样做的好处是，如果您可以将所有内容表达为概率模型，则无需依赖启发式方法，您可以使用标准机制进行推理。

缺点是你需要一个相当强大的数学背景来尝试这个;我不知道你提出的项目规模是多少，但如果你想快速得到结果，或者你缺乏必要的背景，这将是相当艰巨的。