我最近参加了神经网络课程并决定做研究工作。我所考虑的是设计一个识别嘴唇运动的网络,这通常被称为唇读。
我知道关于神经网络的理论,我选择设计一个卷积神经网络,但我有问题思考如何提取视频的特征或图像序列,它们将作为我计划设计的网络的输入。
在专注于全面调查之前,我希望通过向我提供有关如何操作的概念或想法来帮助我,主要是在特征提取部分。
我一般认为如下:
元音或音节在视频中持续约1至2秒。从那个视频我必须提取一系列图像,显示嘴唇如何移动。假设我选择了大约10或15张图像,我认为所有这些图像在处理后应该是我的“输入”以获得特征。
但我已经分析了一个单一的图像,就像“识别一封信”的经典例子一样,但正如我之前所说的那样,我想我会有一系列的图像需要分析,这让我感到困惑。
我想知道我是否走上正确的道路,如果没有,我会引导我这个。我希望我已经清楚了解上述内容,非常感谢你。
答案 0 :(得分:0)
本文应该帮助您决定如何处理帧序列作为神经网络的输入。看起来你可以将特定声音的所有帧连接(组合)成一个图像,然后输入你的网络进行训练和评估。