neural-network - 使用神经网络进行视频分析的建议

我最近参加了神经网络课程并决定做研究工作。我所考虑的是设计一个识别嘴唇运动的网络，这通常被称为唇读。

我知道关于神经网络的理论，我选择设计一个卷积神经网络，但我有问题思考如何提取视频的特征或图像序列，它们将作为我计划设计的网络的输入。

在专注于全面调查之前，我希望通过向我提供有关如何操作的概念或想法来帮助我，主要是在特征提取部分。

我一般认为如下：

元音或音节在视频中持续约1至2秒。从那个视频我必须提取一系列图像，显示嘴唇如何移动。假设我选择了大约10或15张图像，我认为所有这些图像在处理后应该是我的“输入”以获得特征。

但我已经分析了一个单一的图像，就像“识别一封信”的经典例子一样，但正如我之前所说的那样，我想我会有一系列的图像需要分析，这让我感到困惑。

我想知道我是否走上正确的道路，如果没有，我会引导我这个。我希望我已经清楚了解上述内容，非常感谢你。