machine-learning - 神经网络的输入类型是否重要？

这绝对是一个新手问题。 caffe中的视频分类任务。

我有一个神经网络，我必须训练视频（图像组）。我可以选择从几个选项中更改网络输入的形状。

在所有情况下，我都假设网络架构（排列和层数）和学习参数（LR /衰减/正则化/等）是恒定的。

例如，我可以选择将我的输入作为以下之一提供给网络。

1）batch_size x（no_of_imgs * no_of_channels）x height x width {3 dimension input}

2）batch_size x no_of_imgs x no_of_channels x height x width {4 dimension input}

3）batch_size x no_of_channels x no_of_imgs x height x width {4 dimension input}

输入形状如何影响网络的准确性？