在尝试为监督学习问题提出适当的功能时,我有以下想法,并想知道它是否有意义,如果是,如何以算法方式制定它。
在图像中,我想对两个区域进行分类,即两个“类型”的像素。假设我有一些有界结构,让我们采取一个圆圈,我知道我可以限制我的搜索空间到这个圆圈。在那个圆圈内,我想找到一个分割轮廓,即将我的像素分成内部A类和外部B类的轮廓。
我想实施以下模型:
我知道靠近边界圆的像素更可能在外层B中。
当然,我可以使用距边界圆的距离作为特征,然后算法将学习内部轮廓与边界圆的平均距离。
但是:我想知道我是否可以更智能地利用我的模型假设。一个启发式的想法是通过这个距离权衡其他特征,因此,如果一个远离边界圆的像素想要属于外部B类,它必须具有强烈的说服其他特征。
这导致一般性问题:
如何利用算法单独学习的特征的联合信息?
以特定问题:
在我概述的设置中,我的启发式想法是否有意义?算法应该在什么时候使用这些信息?如果我想在文献中寻找类似的想法,那么推荐的文献或流行语是什么?
答案 0 :(得分:1)
这导致了一个普遍的问题:
如何利用算法单独学习的特征的联合信息?
你在这里真正要问的并不是很清楚。你是什么意思“通过算法单独学习”和什么是“joiint信息”?首先,问题太广泛,没有像“通用监督学习模型”这样的问题,每个都至少以不同的方式工作,大多数分为三类:
在每一个中,都以某种方式编码了关于特征的“联合信息” - 分类函数是它们的联合信息。在某些情况下,很容易解释(线性回归),而在某些情况下几乎是不可能的(深度boltzmann机器,通常是所有深层架构)。
并提出一个具体问题:
在我概述的设置中,我的启发式想法是否有意义?算法应该在什么时候使用这些信息?如果我想在文献中寻找类似的想法,那么推荐的文献或流行语是什么?
据我所知,这个概念非常值得怀疑。如果您的数据不相关,许多模型往往会学习和工作得更好,而您正试图做相反的事情 - 将所有内容与某些特定功能相关联。这引起了一个主要问题 - 你为什么要这样做?强制模型主要使用此功能?
distance*other_feature
吗?为什么不sqrt(distance)*feature
?那么log(distance)*feature
呢?有无数的可能性,寻求最佳加权方案可能会花费更多,然后找到一个更好的机器学习模型,它可以从原始功能中学习您的数据。在文献中,您试图解决的问题通常被称为将专家知识纳入学习过程。有成千上万的例子,其中有某种知识无法直接在数据表示中编码,但却无法忽略它。你应该研究像“机器学习专家知识”这样的术语,以及它可能的同义词。
答案 1 :(得分:1)
对于你正在研究的问题(称为分段)作为要在Markov Random Field上执行的优化,有相当多的工作可以通过图形理论方法(如GraphCut)来解决。一些例子是微软研究院的Pushmeet Kohli的工作(试用this论文)。
您所描述的是,在该框架中,先前的节点成员资格,其中p(B)与距离边缘的距离成反比(除了您想要施加的任何其他连接性约束之外,通常还有一个连通性,肯定会有像素强度的可能性。这样做的好处是,如果您可以将所有内容表达为概率模型,则无需依赖启发式方法,您可以使用标准机制进行推理。
缺点是你需要一个相当强大的数学背景来尝试这个;我不知道你提出的项目规模是多少,但如果你想快速得到结果,或者你缺乏必要的背景,这将是相当艰巨的。