使用神经网络进行视频分析的建议

时间:2017-10-20 04:12:33

标签: neural-network

我最近参加了神经网络课程并决定做研究工作。我所考虑的是设计一个识别嘴唇运动的网络,这通常被称为唇读

我知道关于神经网络的理论,我选择设计一个卷积神经网络,但我有问题思考如何提取视频的特征图像序列,它们将作为我计划设计的网络的输入。

在专注于全面调查之前,我希望通过向我提供有关如何操作的概念或想法来帮助我,主要是在特征提取部分

我一般认为如下:

元音或音节在视频中持续约1至2秒。从那个视频我必须提取一系列图像,显示嘴唇如何移动。假设我选择了大约10或15张图像,我认为所有这些图像在处理后应该是我的“输入”以获得特征。

但我已经分析了一个单一的图像,就像“识别一封信”的经典例子一样,但正如我之前所说的那样,我想我会有一系列的图像需要分析,这让我感到困惑。

我想知道我是否走上正确的道路,如果没有,我会引导我这个。我希望我已经清楚了解上述内容,非常感谢你。

1 个答案:

答案 0 :(得分:0)

本文应该帮助您决定如何处理帧序列作为神经网络的输入。看起来你可以将特定声音的所有帧连接(组合)成一个图像,然后输入你的网络进行训练和评估。

http://cs231n.stanford.edu/reports/2016/pdfs/217_Report.pdf