tensorflow - Tensorflow（tflearn）数据集的大小应该是多少？

时间：2017-08-06 18:16:16

标签： tensorflow speech-recognition lstm tflearn

我试图创建一个简单的LSTM网络用于语音识别，但我的网络验证准确率很低。 我试图弄明白，这是由于培训输入和测试输入的依赖性，或者这是因为过度拟合问题。

首先我假设这是一个过度拟合的问题，然后我尝试增加训练数据集的大小，但是任何人都可以告诉我应该用多大的数据集来训练我的网络？目前我使用的是平衡输入为0，无0为分类。（目前我使用1,823的输入进行训练，456进行测试，输入来自100个不同的0到9位数的扬声器。）

答案 0 :(得分：-1)

很难说清楚。不知道数据的分布，你正在使用的lstm单元的类型，你想要达到的验证准确度等等......没有办法知道需要多少数据。

很遗憾，我们没有足够的信息来回答你。

我可以告诉你的是，更多的数据会以渐近的方式减少训练和测试准确度之间的差异。因此，更多数据意味着更少的差异。何时停止添加数据取决于您的目标。

辍学技术也很有用。