重新调整CNN的输入

时间:2016-06-14 10:43:08

标签: image-processing computer-vision deep-learning

对重新缩放具有不同尺寸的图像的一般共识是什么?我已经读过一种方法是将图像的最大尺寸重新缩放到固定大小。我不清楚如何仅重新调整其中一个维度会导致数据集中的图像形状统一。

是否有其他方法,例如是否可以采用两个维度的平均大小,然后将每个图像的维度重新调整为整个数据集中每个维度的平均值?

在重新缩放中使用哪种插值方法很重要吗?

仅仅拍摄每张图像的nxm部分并切断每张图像的其余部分是否有意义?

是否有人们使用过的方法列表以及它们在不同情况下的表现。

1 个答案:

答案 0 :(得分:3)

取决于CNN的目标应用。对于物体检测/分类,通常使用滑动窗口方法或裁剪。对于第一个选项,滑动窗口围绕图像移动,并且对于每个补丁(具有不同的重叠标准),进行预测。然后使用其他池化或过滤策略过滤此预测。

对于图像分割(也称为语义分割),使用类似的方法。 1)图像缩放+分割+缩放回原始大小。 2)不同的图像块+每个的分割,或3)滑动窗口分割+ maxpooling。使用选项(3),每个像素具有N = HxW投票(其中N是滑动窗口的大小)。然后将这N个预测聚合到maxixmum投票分类器中(类似于随机森林和其他分类器上的集合模型)。

因此,简而言之,我认为这个问题没有简短的答案。您所做的决定将取决于您尝试通过CNN实现的目标,当然,您的方法的质量将对CNN的性能产生影响。我不知道任何这类研究。