deep-learning - 关于扩张卷积与填充最大池

我一直在阅读论文Multi-Scale Context Aggregation by Dilated Convolutions。

在其中，他们建议使用扩张卷积来获得全局上下文而不是最大池/下采样，因为合并会缩小图像，而扩散卷积则不会。

我的第一个问题是： 他们修改了VGG16并删除了最后两个最大池层但是它们留下了其他3个最大池层。为什么它们没有只是删除所有最大池层？计算效率？不会因为图像较小而导致这个结果？他们如何将其扩展回原始大小，双线性插值？

我的第二个问题是： 他们在论文中注明：

＆＃34;我们还删除了中间要素图的填充。中间填充用于原始分类网络，但在密集预测中既不必要也不合理。＆＃34;

为什么会出现这种情况，如果你不填充，你会不会进一步缩小我们最终输出的大小，特别是考虑到扩张的卷积可能有非常大的感受野？

回答你的第一个问题，我认为你是对的，输出是原始大小的1/8，他们使用插值来上采样到原始大小。您可以在源代码here中找到证据。在test.py文件中，函数test_image，默认缩放设置为8（第103行）。可以在文件train.py中找到更多证据，其中默认缩放设置为True，并且它们使用上采样层。

由于它们已经缩小了尺寸，因此不需要使用填充来保持尺寸。我认为在他们的情况下不需要填充的原因是分割是密集预测的情况，因此从我们自己的方面引入一些像素在直觉上没有意义。但同样争论同样的最好方法是在有和没有中间池的情况下对网络进行实际测试。

关于扩张卷积与填充最大池

1 个答案: